رسالة جامعية

Efficient neural speech synthesis ; Efektivní neuronová syntéza řeči

التفاصيل البيبلوغرافية
العنوان: Efficient neural speech synthesis ; Efektivní neuronová syntéza řeči
المؤلفون: Vainer, Jan
المساهمون: Dušek, Ondřej, Hajič, Jan
بيانات النشر: Univerzita Karlova, Matematicko-fyzikální fakulta
سنة النشر: 2020
المجموعة: Charles University: CU Digital repository / Univerzita Karlova: Digitální repozitář UK
مصطلحات موضوعية: syntéza řeči, zpracování přirozeného jazyka, hluboké učení, speech synthesis, text-to-speech, natural language processing, deep learning
الوصف: Modely pro práci se sekvenčními daty založené na neuronových sítích v posledních letech výrazně přispěly ke zlepšení kvality systémů pro syntézu řeči. Zatím však nebyl navržen systém, který by se dal rychle a efektivně natrénovat, byl schopen rychlé syntézy a zároveň generoval hlas ve vysoké kvalitě. V této diplomové práci představujeme systém pro syntézu řeči založený na neuronových sítích, který je schopen generovat spektrogramy v reálném čase, má nízké nároky na výpočetní kapacity a je rychle trénovatelný. Náš systém sestává ze dvou neuronových sítí- ze studenta a z učitele. Učitel je využit k aproximaci zarovnání mezi textem, z něhož má být generována mluvená řeč, a mezi korespondujícím spektrogramem. Student využívá získaná zarovnání pro efektivní syntézu spektrogramů z fonet- ické reprezentace vstupního textu. Obě sítě využívají jednoduché konvoluční vrstvy. Náš systém trénujeme na anglické datové sadě LJSpeech. Systém je schopen generovat řeč v reálném čase na běžném procesoru a je možné jej rychle natrénovat na jedné graické kartě. Kvalita řeči generované z našeho systému byla ohodnocena jako signifikantně vyšší v porovnání s konkurenčními systémy. 1 ; While recent neural sequence-to-sequence models have greatly improved the quality of speech synthesis, there has not been a system capable of fast training, fast inference and high-quality audio synthesis at the same time. In this the- sis, we present a neural speech synthesis system capable of high-quality faster- than-real-time spectrogram synthesis, with low requirements on computational resources and fast training time. Our system consists of a teacher and a student network. The teacher model is used to extract alignment between the text to synthesize and the corresponding spectrogram. The student uses the alignments from the teacher model to synthesize mel-scale spectrograms from a phonemic representation of the input text efficiently. Both systems utilize simple convo- lutional layers. We train both systems on the english LJSpeech dataset. The ...
نوع الوثيقة: thesis
وصف الملف: application/pdf; application/zip
اللغة: English
العلاقة: http://hdl.handle.net/20.500.11956/119487Test; 222539; 002376237
الإتاحة: https://doi.org/20.500.11956/119487Test
https://hdl.handle.net/20.500.11956/119487Test
رقم الانضمام: edsbas.7442BC3B
قاعدة البيانات: BASE