رسالة جامعية
Multilingual speech synthesis ; Vícejazyčná syntéza řeči
العنوان: | Multilingual speech synthesis ; Vícejazyčná syntéza řeči |
---|---|
المؤلفون: | Nekvinda, Tomáš |
المساهمون: | Dušek, Ondřej, Peterek, Nino |
بيانات النشر: | Univerzita Karlova, Matematicko-fyzikální fakulta |
سنة النشر: | 2020 |
مصطلحات موضوعية: | text-to-speech, speech synthesis, multilinguality, natural language processing, deep learning, syntéza řeči, vícejazyčnost, zpracování přirozeného jazyka, hluboké učení, lang, hist |
الوصف: | This work explores multilingual speech synthesis. We compare three models based on Tacotron that utilize various levels of parameter sharing. Two of them follow recent multilingual text-to-speech systems. The first one makes use of a fully-shared encoder and an adversarial classifier that removes speaker-dependent information from the encoder. The other uses language-specific encoders. We introduce a new approach that combines the best of both previous methods. It enables effective parameter sharing using a meta- learning technique, preserves encoder's flexibility, and actively removes speaker-specific information in the encoder. We compare the three models on two tasks. The first one aims at joint multilingual training on ten languages and reveals their knowledge-sharing abilities. The second concerns code-switching. We show that our model effectively shares information across languages, and according to a subjective evaluation test, it produces more natural and accurate code-switching speech. ; Tato práce se zabývá vícejazyčnou syntézou řeči. Porovnali jsme tři odlišné modely, které jsou založeny na Tacotronu. Tyto modely se liší především v přístupu ke sdílení infor- mací a parametrů mezi jazyky. Dva z nich navazují na současné systémy pro vícejazyčnou konverzi textu na řeč. První využívá plně sdíleného enkodéru a doménově specifického klasifikátoru, který je modifikovaný za účelem odstranění informací, které závisí na syn- tetizovaném hlase, z enkodéru. Druhý model používá separátní enkodér pro každý jazyk. V této práci navrhujeme nový přístup, který kombinuje nejlepší z obou zmíněných metod. Díky technikám metaučení umožnujě efektivní sdílení parametrů při zachování flexibility. Tyto tři modely porovnáváme na dvou úlohách. Jedna z nich se zaměřuje na sdružené vícejazyčné učení na deseti jazycích a odhaluje možnosti porovnávaných modelů sdílet znalosti mezi jazyky. Druhá se zabývá syntézou vět, které obsahují výrazy z několika různých jazyků. Dokládáme, že náš nový přístup umožˇuje efektivní sdílení ... |
نوع الوثيقة: | thesis |
اللغة: | English |
العلاقة: | http://hdl.handle.net/20.500.11956/119461Test |
الإتاحة: | https://doi.org/20.500.11956/119461Test https://hdl.handle.net/20.500.11956/119461Test |
حقوق: | undefined |
رقم الانضمام: | edsbas.B684F8AE |
قاعدة البيانات: | BASE |
الوصف غير متاح. |