رسالة جامعية

Multilingual speech synthesis ; Vícejazyčná syntéza řeči

التفاصيل البيبلوغرافية
العنوان: Multilingual speech synthesis ; Vícejazyčná syntéza řeči
المؤلفون: Nekvinda, Tomáš
المساهمون: Dušek, Ondřej, Peterek, Nino
بيانات النشر: Univerzita Karlova, Matematicko-fyzikální fakulta
سنة النشر: 2020
مصطلحات موضوعية: text-to-speech, speech synthesis, multilinguality, natural language processing, deep learning, syntéza řeči, vícejazyčnost, zpracování přirozeného jazyka, hluboké učení, lang, hist
الوصف: This work explores multilingual speech synthesis. We compare three models based on Tacotron that utilize various levels of parameter sharing. Two of them follow recent multilingual text-to-speech systems. The first one makes use of a fully-shared encoder and an adversarial classifier that removes speaker-dependent information from the encoder. The other uses language-specific encoders. We introduce a new approach that combines the best of both previous methods. It enables effective parameter sharing using a meta- learning technique, preserves encoder's flexibility, and actively removes speaker-specific information in the encoder. We compare the three models on two tasks. The first one aims at joint multilingual training on ten languages and reveals their knowledge-sharing abilities. The second concerns code-switching. We show that our model effectively shares information across languages, and according to a subjective evaluation test, it produces more natural and accurate code-switching speech. ; Tato práce se zabývá vícejazyčnou syntézou řeči. Porovnali jsme tři odlišné modely, které jsou založeny na Tacotronu. Tyto modely se liší především v přístupu ke sdílení infor- mací a parametrů mezi jazyky. Dva z nich navazují na současné systémy pro vícejazyčnou konverzi textu na řeč. První využívá plně sdíleného enkodéru a doménově specifického klasifikátoru, který je modifikovaný za účelem odstranění informací, které závisí na syn- tetizovaném hlase, z enkodéru. Druhý model používá separátní enkodér pro každý jazyk. V této práci navrhujeme nový přístup, který kombinuje nejlepší z obou zmíněných metod. Díky technikám metaučení umožnujě efektivní sdílení parametrů při zachování flexibility. Tyto tři modely porovnáváme na dvou úlohách. Jedna z nich se zaměřuje na sdružené vícejazyčné učení na deseti jazycích a odhaluje možnosti porovnávaných modelů sdílet znalosti mezi jazyky. Druhá se zabývá syntézou vět, které obsahují výrazy z několika různých jazyků. Dokládáme, že náš nový přístup umožˇuje efektivní sdílení ...
نوع الوثيقة: thesis
اللغة: English
العلاقة: http://hdl.handle.net/20.500.11956/119461Test
الإتاحة: https://doi.org/20.500.11956/119461Test
https://hdl.handle.net/20.500.11956/119461Test
حقوق: undefined
رقم الانضمام: edsbas.B684F8AE
قاعدة البيانات: BASE