دورية أكاديمية

Modelling representations in speech normalization of prosodic cues ... : نمذجة التمثيلات في تطبيع الكلام للإشارات النغمية ...

التفاصيل البيبلوغرافية
العنوان: Modelling representations in speech normalization of prosodic cues ... : نمذجة التمثيلات في تطبيع الكلام للإشارات النغمية ...
المؤلفون: Si Chen, Caicai Zhang, Puiyin Lau, Yike Yang, Bei Li
بيانات النشر: OpenAlex
سنة النشر: 2022
المجموعة: DataCite Metadata Store (German National Library of Science and Technology)
مصطلحات موضوعية: Speech Perception and Phonetics, Experimental and Cognitive Psychology, Psychology, FOS Psychology, Social Sciences, Speech Recognition Technology, Artificial Intelligence, Computer Science, Physical Sciences, Speech Enhancement Techniques, Signal Processing, Speech Perception, Acoustic Modeling, Speaker Diarization, Statistical Language Modeling, Audio-Visual Speech Recognition, Normalization sociology, Computer science, Speech recognition, Natural language processing, Artificial intelligence, Sociology, FOS Sociology, Anthropology
الوصف: The lack of invariance problem in speech perception refers to a fundamental problem of how listeners deal with differences of speech sounds produced by various speakers. The current study is the first to test the contributions of mentally stored distributional information in normalization of prosodic cues. This study starts out by modelling distributions of acoustic cues from a speech corpus. We proceeded to conduct three experiments using both naturally produced lexical tones with estimated distributions and manipulated lexical tones with f0 values generated from simulated distributions. State of the art statistical techniques have been used to examine the effects of distribution parameters in normalization and identification curves with respect to each parameter. Based on the significant effects of distribution parameters, we proposed a probabilistic parametric representation (PPR), integrating knowledge from previously established distributions of speakers with their indexical information. PPR is still ... : يشير نقص مشكلة الثبات في إدراك الكلام إلى مشكلة أساسية تتعلق بكيفية تعامل المستمعين مع اختلافات أصوات الكلام التي ينتجها مختلف المتحدثين. الدراسة الحالية هي الأولى التي تختبر مساهمات المعلومات التوزيعية المخزنة عقليًا في تطبيع الإشارات العرضية. تبدأ هذه الدراسة بنمذجة توزيعات الإشارات الصوتية من مجموعة الكلام. شرعنا في إجراء ثلاث تجارب باستخدام كل من النغمات المعجمية المنتجة بشكل طبيعي مع التوزيعات المقدرة والنغمات المعجمية المتلاعب بها مع قيم f0 الناتجة عن التوزيعات المحاكاة. تم استخدام أحدث التقنيات الإحصائية لفحص آثار معلمات التوزيع في منحنيات التطبيع والتحديد فيما يتعلق بكل معلمة. استنادًا إلى التأثيرات المهمة لمعلمات التوزيع، اقترحنا تمثيلًا بارامتريًا احتماليًا (PPR)، يدمج المعرفة من توزيعات المتحدثين المحددة مسبقًا مع معلوماتهم الفهرسية. لا يزال الوصول إلى طاعون المجترات الصغيرة متاحًا أثناء إدراك الكلام حتى عندما تكون المعلومات السياقية موجودة. ناقشنا أيضًا إجراء تطبيع إشارات الكلام التي ينتجها متحدث غير مألوف مع أو بدون سياقات والوصول إلى التمثيلات المخزنة على المدى الطويل. ...
نوع الوثيقة: text
اللغة: English
العلاقة: https://dx.doi.org/10.60692/m7zhg-pjx86Test
DOI: 10.60692/qmdcv-vdq35
الإتاحة: https://doi.org/10.60692/qmdcv-vdq3510.60692/m7zhg-pjx86Test
حقوق: cc-by
رقم الانضمام: edsbas.9A895800
قاعدة البيانات: BASE