رسالة جامعية
Efficient neural speech synthesis ; Efektivní neuronová syntéza řeči
العنوان: | Efficient neural speech synthesis ; Efektivní neuronová syntéza řeči |
---|---|
المؤلفون: | Vainer, Jan |
المساهمون: | Dušek, Ondřej, Hajič, Jan |
بيانات النشر: | Univerzita Karlova, Matematicko-fyzikální fakulta |
سنة النشر: | 2020 |
المجموعة: | Charles University: CU Digital repository / Univerzita Karlova: Digitální repozitář UK |
مصطلحات موضوعية: | syntéza řeči, zpracování přirozeného jazyka, hluboké učení, speech synthesis, text-to-speech, natural language processing, deep learning |
الوصف: | Modely pro práci se sekvenčními daty založené na neuronových sítích v posledních letech výrazně přispěly ke zlepšení kvality systémů pro syntézu řeči. Zatím však nebyl navržen systém, který by se dal rychle a efektivně natrénovat, byl schopen rychlé syntézy a zároveň generoval hlas ve vysoké kvalitě. V této diplomové práci představujeme systém pro syntézu řeči založený na neuronových sítích, který je schopen generovat spektrogramy v reálném čase, má nízké nároky na výpočetní kapacity a je rychle trénovatelný. Náš systém sestává ze dvou neuronových sítí- ze studenta a z učitele. Učitel je využit k aproximaci zarovnání mezi textem, z něhož má být generována mluvená řeč, a mezi korespondujícím spektrogramem. Student využívá získaná zarovnání pro efektivní syntézu spektrogramů z fonet- ické reprezentace vstupního textu. Obě sítě využívají jednoduché konvoluční vrstvy. Náš systém trénujeme na anglické datové sadě LJSpeech. Systém je schopen generovat řeč v reálném čase na běžném procesoru a je možné jej rychle natrénovat na jedné graické kartě. Kvalita řeči generované z našeho systému byla ohodnocena jako signifikantně vyšší v porovnání s konkurenčními systémy. 1 ; While recent neural sequence-to-sequence models have greatly improved the quality of speech synthesis, there has not been a system capable of fast training, fast inference and high-quality audio synthesis at the same time. In this the- sis, we present a neural speech synthesis system capable of high-quality faster- than-real-time spectrogram synthesis, with low requirements on computational resources and fast training time. Our system consists of a teacher and a student network. The teacher model is used to extract alignment between the text to synthesize and the corresponding spectrogram. The student uses the alignments from the teacher model to synthesize mel-scale spectrograms from a phonemic representation of the input text efficiently. Both systems utilize simple convo- lutional layers. We train both systems on the english LJSpeech dataset. The ... |
نوع الوثيقة: | thesis |
وصف الملف: | application/pdf; application/zip |
اللغة: | English |
العلاقة: | http://hdl.handle.net/20.500.11956/119487Test; 222539; 002376237 |
الإتاحة: | https://doi.org/20.500.11956/119487Test https://hdl.handle.net/20.500.11956/119487Test |
رقم الانضمام: | edsbas.7442BC3B |
قاعدة البيانات: | BASE |
الوصف غير متاح. |