نتائج البحث - "speech analysis"

يعرض 1 - 10 نتائج من 4,041 نتيجة بحث عن '"speech analysis"', وقت الاستعلام: 0.86s تنقيح النتائج

النتائج لكل صفحة

فرز بـ

تحديد الصفحة | بالمحدد:

تحديد النتيجة رقم 1
1

Machine Learning Approaches for Dementia Detection Through Speech and Gait Analysis: A Systematic Literature Review

المؤلفون: Al-Hammadi, Mustafa, 1995, Fleyeh, Hasan, Associate professor, Åberg, Anna Cristina, Halvorsen, Kjartan, Thomas, Ilias

المصدر: Journal of Alzheimer's Disease. 100(1):1-27

مصطلحات موضوعية: Alzheimer’s disease, cognitive impairment, deep learning, dementia disorders, gait analysis, machine learning, non-invasive, speech analysis

الوصف: BACKGROUND: Dementia is a general term for several progressive neurodegenerative disorders including Alzheimer's disease. Timely and accurate detection is crucial for early intervention. Advancements in artificial intelligence present significant potential for using machine learning to aid in early detection.OBJECTIVE: Summarize the state-of-the-art machine learning-based approaches for dementia prediction, focusing on non-invasive methods, as the burden on the patients is lower. Specifically, the analysis of gait and speech performance can offer insights into cognitive health through clinically cost-effective screening methods.METHODS: A systematic literature review was conducted following the PRISMA protocol (Preferred Reporting Items for Systematic Reviews and Meta-Analyses). The search was performed on three electronic databases (Scopus, Web of Science, and PubMed) to identify the relevant studies published between 2017 to 2022. A total of 40 papers were selected for review.RESULTS: The most common machine learning methods employed were support vector machine followed by deep learning. Studies suggested the use of multimodal approaches as they can provide comprehensive and better prediction performance. Deep learning application in gait studies is still in the early stages as few studies have applied it. Moreover, including features of whole body movement contribute to better classification accuracy. Regarding speech studies, the combination of different parameters (acoustic, linguistic, cognitive testing) produced better results.CONCLUSIONS: The review highlights the potential of machine learning, particularly non-invasive approaches, in the early prediction of dementia. The comparable prediction accuracies of manual and automatic speech analysis indicate an imminent fully automated approach for dementia detection.

وصف الملف: electronic

الوصول الحر: https://urn.kb.se/resolve?urn=urn:nbn:se:du-48720Test
https://doi.org/10.3233/JAD-231459Test
https://du.diva-portal.org/smash/get/diva2:1868050/FULLTEXT02.pdfTest

View record in SwePub

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 2
2

رسالة جامعية

Prosodic and Voice Quality Cross-Language Analysis of Storytelling Expressive Categories Oriented to Text-To-Speech Synthesis

المؤلفون: Montaño Aparicio, Raúl

المساهمون: University/Department: Universitat Ramon Llull. ETSEEI LA SALLE - Comunicacions i Teoria del Senyal

مرشدي الرسالة: Alías Pujol, Francesc

المصدر: TDX (Tesis Doctorals en Xarxa)

مصطلحات موضوعية: Storytelling, Voice Quality, Narrators, Human-Computer Interaction, Speech analysis, Expressive speech, Indirect speech, Gestures, Prosody, Cross-language, Enginyeria i Arquitectura

الوصف: Durant segles, la interpretació oral de contes i històries ha sigut una tradició mundial lligada a l’entreteniment, la educació, i la perpetuació de la cultura. En les últimes dècades, alguns treballs s’han centrat en analitzar aquest estil de parla ric en matisos expressius caracteritzats per determinats patrons acústics. En relació a això, també hi ha hagut un interès creixent en desenvolupar aplicacions de contar contes, com ara les de contacontes interactius. Aquesta tesi està orientada a millorar aspectes claus d’aquest tipus d’aplicacions: millorar la naturalitat de la parla sintètica expressiva a partir d’analitzar la parla de contacontes en detall, a més a més de proporcionar un millor llenguatge no verbal a un avatar parlant mitjançant la sincronització de la parla i els gestos. Per aconseguir aquests objectius és necessari comprendre les característiques acústiques d’aquest estil de parla i la interacció de la parla i els gestos. Pel que fa a característiques acústiques de la parla de contacontes, la literatura relacionada ha treballat en termes de prosòdia, mentre que només ha estat suggerit que la qualitat de la veu pot jugar un paper important per modelar les subtileses d’aquest estil. En aquesta tesi, el paper tant de la prosòdia com de la qualitat de la veu en l’estil indirecte de la parla de contacontes en diferents idiomes és analitzat per identificar les principal categories expressives que la composen i els paràmetres acústics que les caracteritzen. Per fer-ho, es proposa una metodologia d’anotació per aquest estil de parla a nivell de oració basada en modes de discurs dels contes (mode narratiu, descriptiu, i diàleg), introduint a més sub-modes narratius. Considerant aquesta metodologia d’anotació, l’estil indirecte d’una història orientada a una audiència jove (cobrint versions en castellà, anglès, francès, i alemany) és analitzat en termes de prosòdia i qualitat de la veu mitjançant anàlisis estadístics i discriminants, després de classificar els àudios de les oracions de la història en les seves categories expressives. Els resultats confirmen l’existència de les categories de contes amb diferències expressives subtils en tots els idiomes més enllà dels estils personals dels narradors. En aquest sentit, es presenten evidències que suggereixen que les categories expressives dels contes es transmeten amb matisos expressius més subtils que en les emocions bàsiques, després de comparar els resultats obtinguts amb aquells de parla emocional. Els anàlisis també mostren que la prosòdia i la qualitat de la veu contribueixen pràcticament de la mateixa manera a l’hora de discriminar entre les categories expressives dels contes, les quals son expressades amb patrons acústics similars en tots els idiomes analitzats. Cal destacar també la gran relació observada en la selecció de categoria per cada oració que han fet servir els diferents narradors encara quan, que sapiguem, no se’ls hi va donar cap indicació. Per poder traslladar totes aquestes categories a un sistema de text a parla basat en corpus, caldria enregistrar un corpus per cada categoria. No obstant, crear diferents corpus ad-hoc esdevé un tasca molt laboriosa. En la tesi, s’introdueix una alternativa basada en una metodologia d’anàlisi orientada a síntesi dissenyada per derivar models de regles des de un petit però representatiu conjunt d’oracions, que poden poder ser utilitzats per generar parla amb estil de contacontes a partir de parla neutra. Els experiments sobre suspens creixent com a prova de concepte mostren la viabilitat de la proposta en termes de naturalitat i similitud respecte un narrador de contes real. Finalment, pel que fa a interacció entre parla i gestos, es realitza un anàlisi de sincronia i èmfasi orientat a controlar un avatar de contacontes en 3D. Al tal efecte, es defineixen indicadors de força tant per els gestos com per la parla. Després de validar-los amb tests perceptius, una regla d’intensitat s’obté de la seva correlació. A més a més, una regla de sincronia es deriva per determinar correspondències temporals entre els gestos i la parla. Aquests anàlisis s’han dut a terme sobre interpretacions neutres i agressives per part d’un actor per cobrir un gran rang de nivells d’èmfasi, com a primer pas per avaluar la integració d’un avatar parlant després del sistema de text a parla.

الوصف (مترجم): Durante siglos, la interpretación oral de cuentos e historias ha sido una tradición mundial ligada al entretenimiento, la educación, y la perpetuación de la cultura. En las últimas décadas, algunos trabajos se han centrado en analizar este estilo de habla rico en matices expresivos caracterizados por determinados patrones acústicos. En relación a esto, también ha habido un interés creciente en desarrollar aplicaciones de contar cuentos, como las de cuentacuentos interactivos. Esta tesis está orientada a mejorar aspectos claves de este tipo de aplicaciones: mejorar la naturalidad del habla sintética expresiva a partir de analizar el habla de cuentacuentos en detalle, además de proporcionar un mejor lenguaje no verbal a un avatar parlante mediante la sincronización del habla y los gestos. Para conseguir estos objetivos es necesario comprender las características acústicas de este estilo de habla y la interacción del habla y los gestos. En cuanto a características acústicas del habla de narradores de cuentos, la literatura relacionada ha trabajado en términos de prosodia, mientras que sólo ha sido sugerido que la calidad de la voz puede jugar un papel importante para modelar las sutilezas de este estilo. En esta tesis, el papel tanto de la prosodia como de la calidad de la voz en el estilo indirecto del habla de cuentacuentos en diferentes idiomas es analizado para identificar las principales categorías expresivas que componen este estilo de habla y los parámetros acústicos que las caracterizan. Para ello, se propone una metodología de anotación a nivel de oración basada en modos de discurso de los cuentos (modo narrativo, descriptivo, y diálogo), introduciendo además sub-modos narrativos. Considerando esta metodología de anotación, el estilo indirecto de una historia orientada a una audiencia joven (cubriendo versiones en castellano, inglés, francés, y alemán) es analizado en términos de prosodia y calidad de la voz mediante análisis estadísticos y discriminantes, después de clasificar los audios de las oraciones de la historia en sus categorías expresivas. Los resultados confirman la existencia de las categorías de cuentos con diferencias expresivas sutiles en todos los idiomas más allá de los estilos personales de los narradores. En este sentido, se presentan evidencias que sugieren que las categorías expresivas de los cuentos se transmiten con matices expresivos más sutiles que en las emociones básicas, tras comparar los resultados obtenidos con aquellos de habla emocional. Los análisis también muestran que la prosodia y la calidad de la voz contribuyen prácticamente de la misma manera a la hora de discriminar entre las categorías expresivas de los cuentos, las cuales son expresadas con patrones acústicos similares en todos los idiomas analizados. Cabe destacar también la gran relación observada en la selección de categoría para cada oración que han utilizado los diferentes narradores aun cuando, que sepamos, no se les dio ninguna indicación. Para poder trasladar todas estas categorías a un sistema de texto a habla basado en corpus, habría que grabar un corpus para cada categoría. Sin embargo, crear diferentes corpus ad-hoc es una tarea muy laboriosa. En la tesis, se introduce una alternativa basada en una metodología de análisis orientada a síntesis diseñada para derivar modelos de reglas desde un pequeño pero representativo conjunto de oraciones, que pueden ser utilizados para generar habla de cuentacuentos a partir de neutra. Los experimentos sobre suspense creciente como prueba de concepto muestran la viabilidad de la propuesta en términos de naturalidad y similitud respecto a un narrador de cuentos real. Finalmente, en cuanto a interacción entre habla y gestos, se realiza un análisis de sincronía y énfasis orientado a controlar un avatar cuentacuentos en 3D. Al tal efecto, se definen indicadores de fuerza tanto para gestos como para habla. Después de validarlos con tests perceptivos, una regla de intensidad se obtiene de su correlación. Además, una regla de sincronía se deriva para determinar correspondencias temporales entre los gestos y el habla. Estos análisis se han llevado a cabo sobre interpretaciones neutras y agresivas por parte de un actor para cubrir un gran rango de niveles de énfasis, como primer paso para evaluar la integración de un avatar parlante después del sistema de texto a habla.
For ages, the oral interpretation of tales and stories has been a worldwide tradition tied to entertainment, education, and perpetuation of culture. During the last decades, some works have focused on the analysis of this particular speaking style rich in subtle expressive nuances represented by specific acoustic cues. In line with this fact, there has also been a growing interest in the development of storytelling applications, such as those related to interactive storytelling. This thesis deals with one of the key aspects of audiovisual storytellers: improving the naturalness of the expressive synthetic speech by analysing the storytelling speech in detail, together with providing better non-verbal language to a speaking avatar by synchronizing that speech with its gestures. To that effect, it is necessary to understand in detail the acoustic characteristics of this particular speaking style and the interaction between speech and gestures. Regarding the acoustic characteristics of storytelling speech, the related literature has dealt with the acoustic analysis of storytelling speech in terms of prosody, being only suggested that voice quality may play an important role for the modelling of its subtleties. In this thesis, the role of both prosody and voice quality in indirect storytelling speech is analysed across languages to identify the main expressive categories it is composed of together with the acoustic parameters that characterize them. To do so, an analysis methodology is proposed to annotate this particular speaking style at the sentence level based on storytelling discourse modes (narrative, descriptive, and dialogue), besides introducing narrative sub-modes. Considering this annotation methodology, the indirect speech of a story oriented to a young audience (covering the Spanish, English, French, and German versions) is analysed in terms of prosody and voice quality through statistical and discriminant analyses, after classifying the sentence-level utterances of the story in their corresponding expressive categories. The results confirm the existence of storytelling categories containing subtle expressive nuances across the considered languages beyond narrators' personal styles. In this sense, evidences are presented suggesting that such storytelling expressive categories are conveyed with subtler speech nuances than basic emotions by comparing their acoustic patterns to the ones obtained from emotional speech data. The analyses also show that both prosody and voice quality contribute almost equally to the discrimination among storytelling expressive categories, being conveyed with similar acoustic patterns across languages. It is also worth noting the strong relationship observed in the selection of the expressive category per utterance across the narrators even when, up to our knowledge, no previous indications were given to them. In order to translate all these expressive categories to a corpus-based Text-To-Speech system, the recording of a speech corpus for each category would be required. However, building ad-hoc speech corpora for each and every specific expressive style becomes a very daunting task. In this work, we introduce an alternative based on an analysis-oriented-to-synthesis methodology designed to derive rule-based models from a small but representative set of utterances, which can be used to generate storytelling speech from neutral speech. The experiments conducted on increasing suspense as a proof of concept show the viability of the proposal in terms of naturalness and storytelling resemblance. Finally, in what concerns the interaction between speech and gestures, an analysis is performed in terms of time and emphasis oriented to drive a 3D storytelling avatar. To that effect, strength indicators are defined for speech and gestures. After validating them through perceptual tests, an intensity rule is obtained from their correlation. Moreover, a synchrony rule is derived to determine temporal correspondences between speech and gestures. These analyses have been conducted on aggressive and neutral performances to cover a broad range of emphatic levels as a first step to evaluate the integration of a speaking avatar after the expressive Text-To-Speech system.

وصف الملف: application/pdf

الوصول الحر: http://hdl.handle.net/10803/390960Test

استعراض التسجيلة في TDX

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 3
3

رسالة جامعية

Reconeixement afectiu automàtic mitjançant l'anàlisi de paràmetres acústics i lingüístics de la parla espontània

المؤلفون: Planet García, Santiago

المساهمون: University/Department: Universitat Ramon Llull. EALS - Comunicacions i Teoria del Senyal

مرشدي الرسالة: Iriondo Sanz, Ignasi

المصدر: TDX (Tesis Doctorals en Xarxa)

مصطلحات موضوعية: Anàlisi de la parla expressiva, Reconeixement d'emocions, Parla espontània, Tecnologies de la parla, Interacció persona-màquina, Análisis del habla expresiva, Reconocimiento de emociones, Habla espontánea, Tecnologías del habla, Interacción persona-máquina, Expressive speech analysis, Emotion recognition, Spontaneous speech, Speech technologies, Human-computer interaction, Les TIC i la seva gestió

الوقت: 621.3

الوصف: Aquesta tesi aborda el reconeixement automàtic d'emocions espontànies basat en l'anàlisi del senyal de veu. Es realitza dins del Grup de recerca de Tecnologies Mèdia d’Enginyeria i Arquitectura La Salle, tenint el seu origen en un moment en el qual existeixen obertes diverses línies de recerca relacionades amb la síntesi afectiva però cap d’elles relacionada amb la seva anàlisi. La motivació és millorar la interacció persona-màquina aportant un mòdul d'anàlisi en l'entrada dels sistemes que permeti, posteriorment, generar una resposta adequada a través dels mòduls de síntesis en la sortida dels mateixos. El focus d'atenció se situa en l'expressivitat afectiva, intentant dotar d'habilitats d'intel•ligència emocional a sistemes d'intel•ligència artificial amb l'objectiu d'aconseguir que la interacció persona-màquina s'assembli, en la major mesura possible, a la comunicació humana. En primer lloc es realitza una anàlisi preliminar basada en locucions gravades en condicions ideals. L'expressivitat vocal en aquest cas és actuada i els enregistraments responen a un guió previ que determina a priori l'etiqueta que descriu el contingut afectiu de les mateixes. Si bé aquest no és el paradigma de la interacció en un entorn realista, aquest primer pas serveix per provar les primeres aproximacions a la parametrització dels corpus, els mètodes de selecció de paràmetres i la seva utilitat en l'optimització dels procediments, així com la viabilitat de considerar el sistema de reconeixement afectiu com un exercici de classificació categòrica. Així mateix, permet comparar els resultats obtinguts en aquest escenari amb els que s'obtenen posteriorment en l'escenari realista. Si bé pot considerar-se que la utilitat d'un marc de treball com l'aquí proposat manca d'interès més enllà de l’exercici de comprovació citat, en aquesta tesi es proposa un sistema basat en aquest plantejament la finalitat del qual és la validació automàtica d'un corpus de veu expressiva destinat a síntesi, ja que en síntesi sí és necessari que el corpus estigui gravat en condicions òptimes posat perquè serà emprat per a la generació de noves locucions. En segon lloc la tesi aprofundeix en l'anàlisi del corpus FAU Aibo, un corpus multilocutor de veu expressiva espontània gravat en alemany a partir d'interaccions naturals d'un grup de nens i nenes amb un robot dotat d'un micròfon. En aquest cas el plantejament és completament diferent a l'anterior partint de la definició del propi corpus, en el qual les locucions no responen a un guió previ i les etiquetes afectives s'assignen posteriorment a partir de l'avaluació subjectiva de les mateixes. Així mateix, el grau d'expressivitat emocional d'aquestes locucions és inferior al de les gravades per un actor o una actriu perquè que són espontànies i les emocions, atès que es generen de forma natural, no responen necessàriament a una definició prototípica. Tot això sense considerar que les condicions d'enregistrament no són les mateixes que les que s'obtindrien en un estudi d'enregistrament professional. En aquest escenari els resultats són molt diferents als obtinguts en l'escenari anterior raó per la qual es fa necessari un estudi més detallat. En aquest sentit es plantegen dues parametritzacions, una a nivell acústic i una altra a nivell lingüístic, ja que la segona podria no veure's tan afectada pels elements que poden degradar la primera, tals com a soroll o altres artefactes. Es proposen diferents sistemes de classificació de complexitat variable malgrat que, sovint, els sistemes més senzills produeixen resultats adequats. També es proposen diferents agrupacions de paràmetres intentant aconseguir un conjunt de dades el més petit possible que sigui capaç de dur a terme un reconeixement afectiu automàtic de forma eficaç. Els resultats obtinguts en l'anàlisi de les expressions espontànies posen de manifest la complexitat del problema tractat i es corresponen amb valors inferiors als obtinguts a partir de corpus gravats en condicions ideals. No obstant això, els esquemes proposats aconsegueixen obtenir resultats que superen els publicats a data d’avui en estudis realitzats en condicions anàlogues i obren, per tant, la porta a recerques futures en aquest àmbit.

الوصف (مترجم): Esta tesis aborda el reconocimiento automático de emociones espontáneas basado en el análisis de la señal de voz. Se realiza dentro del Grup de recerca de Tecnologies Mèdia de Enginyeria i Arquitectura La Salle, teniendo su origen en un momento en el que existen abiertas varias líneas de investigación relacionadas con la síntesis afectiva pero ninguna relacionada con su análisis. La motivación es mejorar la interacción persona-máquina aportando un módulo de análisis en la entrada de los sistemas que permita, posteriormente, generar una respuesta adecuada a través de los módulos de síntesis en la salida de los mismos. El centro de atención se sitúa en la expresividad afectiva, intentando dotar de habilidades de inteligencia emocional a sistemas de inteligencia artificial con el objetivo de lograr que la interacción persona-máquina se asemeje, en la mayor medida posible, a la comunicación humana. En primer lugar se realiza un análisis preliminar basado en locuciones grabadas en condiciones ideales. La expresividad vocal en este caso es actuada y las grabaciones responden a un guion previo que determina a priori la etiqueta que describe el contenido afectivo de las mismas. Si bien este no es el paradigma de la interacción en un entorno realista, este primer paso sirve para probar las primeras aproximaciones a la parametrización de los corpus, los métodos de selección de parámetros y su utilidad en la optimización de los procedimientos, así como la viabilidad de considerar el sistema de reconocimiento afectivo como un ejercicio de clasificación categórica. Asimismo, permite comparar los resultados obtenidos en este escenario con los que se obtienen posteriormente en el escenario realista. Si bien pudiera considerarse que la utilidad de un marco de trabajo como el aquí propuesto carece de interés más allá del mero ejercicio de comprobación citado, en esta tesis se propone un sistema basado en este planteamiento cuya finalidad es la validación automática de un corpus de voz expresiva destinado a síntesis, ya que en síntesis sí es necesario que el corpus esté grabado en condiciones óptimas puesto que será empleado para la generación de nuevas locuciones. En segundo lugar la tesis profundiza en el análisis del corpus FAU Aibo, un corpus multilocutor de voz expresiva espontánea grabado en alemán a partir de interacciones naturales de un grupo de niños y niñas con un robot dotado de un micrófono. En este caso el planteamiento es completamente distinto al anterior partiendo de la definición del propio corpus, en el que las locuciones no responden a un guion previo y las etiquetas afectivas se asignan posteriormente a partir de la evaluación subjetiva de las mismas. Asimismo, el grado de expresividad emocional de estas locuciones es inferior al de las grabadas por un actor o una actriz en tanto que son espontáneas y las emociones, dado que se generan de forma natural, no responden necesariamente a una definición prototípica. Todo ello sin considerar que las condiciones de grabación no son las mismas que las que se obtendrían en un estudio de grabación profesional. En este escenario los resultados son muy diferentes a los obtenidos en el escenario anterior por lo que se requiere un estudio más detallado. En este sentido se plantean dos parametrizaciones, una a nivel acústico y otra a nivel lingüístico, ya que la segunda podría no verse tan afectada por los elementos que pueden degradar la primera, tales como ruido u otros artefactos. Se proponen distintos sistemas de clasificación de complejidad variable a pesar de que, a menudo, los sistemas más sencillos producen resultados buenos. También se proponen distintas agrupaciones de parámetros intentando conseguir un conjunto de datos lo más pequeño posible que sea capaz de llevar a cabo un reconocimiento afectivo automático de forma eficaz. Los resultados obtenidos en el análisis de las expresiones espontáneas ponen de manifiesto la complejidad del problema tratado y se corresponden con valores inferiores a los obtenidos a partir de corpus grabados en condiciones ideales. Sin embargo, los esquemas propuestos logran obtener resultados que superan los publicados hasta la fecha en estudios realizados en condiciones análogas y abren, por lo tanto, la puerta a investigaciones futuras en este ámbito.
The topic of this thesis is about automatic spontaneous emotion recognition from the analysis of the speech signal. It is carried out in the Grup de recerca de Tecnologies Mèdia of Enginyeria i Arquitectura La Salle, and it was started when several research lines related to the synthesis of emotions were in progress but no one related to its analysis. The motivation is to improve human-machine interaction by developing an analysis module to be adapted as an input to the devices able to generate an appropriate answer at the output through their synthesis modules. The highlight is the expression of emotion, trying to give emotional intelligence skills to systems of artificial intelligence. The main goal is to make human-machine interaction more similar to human communication. First, we carried out a preliminary analysis of utterances recorded under ideal conditions. Vocal expression was, in this case, acted and the recordings followed a script which determined the descriptive label of their emotional content. Although this was not the paradigm of interaction in a realistic scenario, this previous step was useful to test the first approaches to parameterisation of corpora, feature selection methods and their utility optimizing the proposed procedures, and to determine whether the consideration of the emotion recognition problem as a categorical classification exercise is viable. Moreover, it allowed the comparison of the results in this scenario with the results obtained in the realistic environment. This framework can be useful in other contexts, additionally to this comparison utility. In this thesis we propose a system based on it with the goal of validating automatically an expressive speech corpus for synthesis. In the synthesis field, corpora must be recorded under real conditions to create new speech utterances. Second, we present an analysis of the FAU Aibo corpus, a multispeaker corpus of emotional spontaneous speech recorded in German from the interaction of a group of children with a robot with a microphone. In this case the approach was different because of the definition of the corpus. The recordings of the FAU Aibo corpus did not follow a script and the emotion category labels were assigned after a subjective evaluation process. Moreover, the emotional content of these recordings was lower than in those recorded by actors because of their spontaneity and emotions were not prototypical because they were generated naturally, not following a script. Furthermore, recording conditions were not the same that in a professional recording studio. In this scenario, results were very different to those obtained in the previous one. For this reason a more accurate analysis was required. In this sense we used two parameterisations, adding linguistic parameters to the acoustic information because the first one could be more robust to noise or some other artefacts than the second one. We considered several classifiers of different complexity although, often, simple systems get the better results. Moreover, we defined several sets of features trying to get a reduced set of data able to work efficiently in the automatic emotion recognition task. Results related to the analysis of the spontaneous emotions confirmed the complexity of the problem and revealed lower values than those associated to the corpus recorded under ideal conditions. However, the schemas got better results than those published so far in works carried out under similar conditions. This opens a door to future research in this area.

وصف الملف: application/pdf

الوصول الحر: http://hdl.handle.net/10803/125335Test

استعراض التسجيلة في TDX

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 4
4

Exploring the performance of automatic speaker recognition using twin speech and deep learning-based artificial neural networks

المؤلفون: Cavalcanti, Julio Cesar, da Silva, Ronaldo Rodrigues, Eriksson, Anders, Professor, 1939, Barbosa, Plinio A.

المصدر: Frontiers in Artificial Intelligence. 7

مصطلحات موضوعية: speech analysis, phonetics, acoustic-phonetics, forensic phonetics, automatic speaker recognition, Phonetics, fonetik, datalogi, Computer Science

الوصف: This study assessed the influence of speaker similarity and sample length on the performance of an automatic speaker recognition (ASR) system utilizing the SpeechBrain toolkit. The dataset comprised recordings from 20 male identical twin speakers engaged in spontaneous dialogues and interviews. Performance evaluations involved comparing identical twins, all speakers in the dataset (including twin pairs), and all speakers excluding twin pairs. Speech samples, ranging from 5 to 30 s, underwent assessment based on equal error rates (EER) and Log cost-likelihood ratios (Cllr). Results highlight the substantial challenge posed by identical twins to the ASR system, leading to a decrease in overall speaker recognition accuracy. Furthermore, analyses based on longer speech samples outperformed those using shorter samples. As sample size increased, standard deviation values for both intra and inter-speaker similarity scores decreased, indicating reduced variability in estimating speaker similarity/dissimilarity levels in longer speech stretches compared to shorter ones. The study also uncovered varying degrees of likeness among identical twins, with certain pairs presenting a greater challenge for ASR systems. These outcomes align with prior research and are discussed within the context of relevant literature.

وصف الملف: electronic

الوصول الحر: https://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-226393Test
https://doi.org/10.3389/frai.2024.1287877Test
https://su.diva-portal.org/smash/get/diva2:1836320/FULLTEXT01.pdfTest

View record in SwePub

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 5
5

رسالة جامعية

Caracterización de la entonación del español hablado por brasileños

المؤلفون: Fonseca de Oliveira, Aline

المساهمون: University/Department: Universitat de Barcelona. Departament de Didàctica de la Llengua i la Literatura

مرشدي الرسالة: aline.fonsecadeoliveira@gmail.com, Cantero Serena, Francisco José, 1964-

المصدر: TDX (Tesis Doctorals en Xarxa)

مصطلحات موضوعية: Aprenentatge integrat de continguts i llengües estrangeres, Aprendizaje Integrado de Contenidos y Lenguas Extranjeras, Content and Language Integrated Learning, Lingüística aplicada, Applied linguistics, Entonació (Fonètica), Entonación (Fonética), Intonation (Phonetics), Castellà (Llengua), Español (Lengua), Spanish language, Brasiler, Brasileño, Brazilian Portuguese language, Análisis melódico del habla, Anàlisi melòdica de la parla, Melodic speech analysis, Ciències de l'Educació

الوصف: En esta investigación presentamos la descripción de las características de la entonación del español hablado por brasileños a partir de un corpus de análisis de habla espontánea extraído de entrevistas con doce informantes, todos ellos brasileños con un nivel de español avanzado, y siguiendo el método Análisis melódico del Habla (Cantero 2002). El objetivo general de la investigación es caracterizar los rasgos melódicos del español hablado por brasileños a través de la descripción de la entonación prelingüística la cual engloba los rasgos que cumplen la función de organizar fónicamente el discurso, mediante el juego acento/ritmo/melodía y cuya manifestación permite describir en este caso el llamado "acento extranjero"—, y también, a través de la especificación de la entonación lingüística que se caracteriza por los rasgos de la entonación que permiten identificar y diferenciar las modalidades oracionales del enunciado: declarativas, interrogativas, enfáticas, suspendidas. Al tratarse de lenguas romances y con un parecido evidente, el español y el portugués presentan pocas diferencias en lo que respeta a la entonación lingüística; sin embargo, no se puede ignorar que, del mismo modo que ocurre en el léxico, también en la entonación puede aparecer el fenómeno de los “falsos amigos”, que podría generar dificultades comunicativas entre los hablantes. Por ello, es necesario describir los patrones melódicos de la entonación lingüística de la interlengua de los brasileños cuando hablan en español y detallar los procesos de interferencia y/o transferencia que aparecen en la interlengua entonativa del español hablado por brasileños, por su utilidad para la enseñanza del español como lengua extranjera. Este trabajo está estructurado en ocho capítulos. El primer capítulo está dedicado a la justificación e interés de la investigación. El segundo presenta el marco teórico en que se inserta el estudio; el tercero describe el método de análisis melódico del habla (Cantero, 2002) por su rigor y objetividad se ha considerado adecuado para la realización de los análisis melódicos. Además, en este mismo capítulo se describen los patrones melódicos del español y los patrones melódicos interrogativos descritos para el portugués de Brasil, los cuales sirvieron de parámetro comparativo para la descripción de la entonación lingüística del español hablado por brasileños. El cuarto especifica la metodología que se va a seguir y los objetivos definidos para la investigación. El quinto presenta el corpus de análisis. El sexto expone los procedimientos de análisis incluyendo los problemas para su realización. El séptimo presenta los análisis y discusiones considerando los distintos tipos de entonación: neutra, enfática, interrogativa y suspendida. Y el octavo presenta las conclusiones a que se llegó a partir de la investigación realizada en base a los objetivos planteados, así como propuestas para futuras investigaciones y las implicaciones didácticas derivadas de los resultados del estudio.

الوصف (مترجم): In this study we present the description of the features of the intonation of Spanish spoken by Brazilians from a corpus of spontaneous speech analysis following the method Melodic Speech Analysis (Cantero 2002). The overall objective is to characterize the melodic features of Spanish spoken by Brazilians through the description of intonation prelinguistic, which includes features that perform the function of organizing the speech phonetically and whose expression to describe the so-called "foreign accent" - and also, through the specification of linguistic intonation is characterized by the features of intonation to identify and differentiate the modalities sentence of the statement. Being Romance languages, Spanish and Portuguese have few differences in what respects linguistic intonation, but you can not ignore it, just as happens in the lexicon, intonation also may appear the phenomenon of "false friends", which could lead to difficulties communication between speakers. Therefore it is necessary to describe the melodic patterns of linguistic interlanguage intonation of Brazilians when they speak Spanish and detail the interference processes and / or transfer that appear in the interlanguage intonation of Spanish spoken by Brazilians, for their usefulness to the Teaching Spanish as a foreign language. This study is structured into eight chapters. The first dedicated to the justification and research interest. The second presents the theoretical framework and the third describes the method of analysis melodic speech (Cantero, 2002), plus Spanish melodic patterns and melodic patterns interrogative described for Brazilian Portuguese. The fourth specifies the methodology to be followed and the objectives. The fifth analysis shows the corpus. The sixth sets including analysis procedures for implementation problems. The seventh analysis and discussion presented by considering the types of intonation. On the eighth presents research findings based on the objectives and proposals for future research and the educational implications derived from the results of the study.

وصف الملف: application/pdf

الوصول الحر: http://hdl.handle.net/10803/134929Test

استعراض التسجيلة في TDX

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 6
6

دورية أكاديمية

Real-time emotion identification system using voice information

المؤلفون: Riki FUKUYOSHI, Masashi NAKAYAMA

المصدر: Nihon Kikai Gakkai ronbunshu, Vol 90, Iss 933, Pp 23-00293-23-00293 (2024)

مصطلحات موضوعية: speech analysis, machine learning, acoustic feature, emotion estimation, real-time recognition, Mechanical engineering and machinery, TJ1-1570, Engineering machinery, tools, and implements, TA213-215

الوصف: Conventional speech emotion identification often uses sentence units as analysis length generally. However, human emotions frequently change their emotions instantaneously when they hear a specific word or keyword that affects each speaker’s emotion, and it is important to capture more detailed emotional expressions for recognition of the emotion. We propose an emotion identification by using acoustic features that analyze speech at each frame, which are shorter than conventional units such as sentences and phrases for capturing and expressing actual emotion. Therefore, we propose a real-time emotion identification system that uses frames as the unit of analysis for acoustic features to the emotion in units of words and morphemes, which are shorter than conventional linguistic units.

وصف الملف: electronic resource

العلاقة: https://www.jstage.jst.go.jp/article/transjsme/90/933/90_23-00293/_pdf/-char/enTest; https://doaj.org/toc/2187-9761Test

الوصول الحر: https://doaj.org/article/c0da19328956442491988042c5f816d6Test

View record in DOAJ

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 7
7

دورية أكاديمية

Connected speech features in non-English speakers with Alzheimer’s disease: protocol for scoping review

المؤلفون: Arpita Bose, Samrah Ahmed, Yesi Cheng, Aida Suárez-Gonzalez

المصدر: Systematic Reviews, Vol 13, Iss 1, Pp 1-6 (2024)

مصطلحات موضوعية: Alzheimer’s disease, Dementia, Connected speech analysis, Spontaneous speech, Naturalistic speech, Lexicon, Medicine

الوصف: Abstract Background A large body of literature indicates that connected speech profiles in patients with Alzheimer’s disease (AD) can be utilized for diagnosis, disease monitoring, and for developing communication strategies for patients. Most connected speech research has been conducted in English, with little work in some European languages. Therefore, significant drawback remains with respect to the diversity of languages studied, and how the fragmentation of linguistic features differs across languages in AD. Accordingly, existing reviews on connected speech in AD have focused on findings from English-speaking patients; none have specifically focused on the linguistic diversity of AD populations. This scoping review is undertaken to provide the currently reported characteristics of connected speech in AD in languages other than English. It also seeks to identify the type of assessments, methods to elicit speech samples, type of analysis and linguistic frameworks used, and micro- and macro-linguistic features of speech reported in non-English speakers with AD. Method We will conduct a scoping review of published studies that have quantitively assessed connected speech in AD in languages other than English. The inclusion criteria for the studies would be subject/s with a clinical diagnosis of AD. The search will include the electronic databases PubMed, Ovid-Embase, PsycINFO, Linguistic and Language Behaviour Abstracts (LLBA), and Web of Science up until March 2023. Findings will be mapped and described according to the languages studied, the methodology employed (e.g., patient characteristics, tasks used, linguistic analysis framework utilized), and connected speech profiles derived (e.g., micro- and macro-linguistic reported). Discussion The scoping review will provide an overview of languages studied in connected speech research in AD with variation in linguistic features across languages, thus allowing comparison with the established key features that distinguish AD patients from healthy controls. The findings will inform future research in connected speech in different languages to facilitate robust connected speech research in linguistically and ethnically diverse populations.

وصف الملف: electronic resource

العلاقة: https://doaj.org/toc/2046-4053Test

الوصول الحر: https://doaj.org/article/197df40b99e44a649494c1b33d78d162Test

View record in DOAJ النص الكامل

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 8
8

دورية أكاديمية

Editorial: Data-driven clinical biosignatures and treatment for neurodegenerative diseases, volume II

المؤلفون: Nizhuan Wang, Lei Chen, Wei Kong, Chung Y. Hsu, I-Shiang Tzeng

المصدر: Frontiers in Neuroscience, Vol 18 (2024)

مصطلحات موضوعية: speech analysis, glymphatic system, early diagnosis, digital therapy, sex difference, neurodegenerative disease, Neurosciences. Biological psychiatry. Neuropsychiatry, RC321-571

وصف الملف: electronic resource

العلاقة: https://www.frontiersin.org/articles/10.3389/fnins.2024.1396702/fullTest; https://doaj.org/toc/1662-453XTest

الوصول الحر: https://doaj.org/article/6cd3a5ed301f4dfe8a3d9abf30920117Test

View record in DOAJ النص الكامل

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 9
9

دورية أكاديمية

Exploring the performance of automatic speaker recognition using twin speech and deep learning-based artificial neural networks

المؤلفون: Julio Cesar Cavalcanti, Ronaldo Rodrigues da Silva, Anders Eriksson, Plinio A. Barbosa

المصدر: Frontiers in Artificial Intelligence, Vol 7 (2024)

مصطلحات موضوعية: speech analysis, phonetics, acoustic-phonetics, forensic phonetics, automatic speaker recognition, Electronic computers. Computer science, QA75.5-76.95

الوصف: This study assessed the influence of speaker similarity and sample length on the performance of an automatic speaker recognition (ASR) system utilizing the SpeechBrain toolkit. The dataset comprised recordings from 20 male identical twin speakers engaged in spontaneous dialogues and interviews. Performance evaluations involved comparing identical twins, all speakers in the dataset (including twin pairs), and all speakers excluding twin pairs. Speech samples, ranging from 5 to 30 s, underwent assessment based on equal error rates (EER) and Log cost-likelihood ratios (Cllr). Results highlight the substantial challenge posed by identical twins to the ASR system, leading to a decrease in overall speaker recognition accuracy. Furthermore, analyses based on longer speech samples outperformed those using shorter samples. As sample size increased, standard deviation values for both intra and inter-speaker similarity scores decreased, indicating reduced variability in estimating speaker similarity/dissimilarity levels in longer speech stretches compared to shorter ones. The study also uncovered varying degrees of likeness among identical twins, with certain pairs presenting a greater challenge for ASR systems. These outcomes align with prior research and are discussed within the context of relevant literature.

وصف الملف: electronic resource

العلاقة: https://www.frontiersin.org/articles/10.3389/frai.2024.1287877/fullTest; https://doaj.org/toc/2624-8212Test

الوصول الحر: https://doaj.org/article/5d390e0020ad4f0f802478e57d5426c5Test

View record in DOAJ النص الكامل

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في:
تحديد النتيجة رقم 10
10

كتاب

O fim do silêncio: Visibilidade mediada de histórias de vida como estratégia no caso da campanha brasileira #EuVouContar

المؤلفون: Maia, J. V., Santos, S.

المساهمون: Anália Torres, Dália Costa, Diana Maciel, Teresa Janela Pinto

مصطلحات موضوعية: Análise do discurso -- Speech analysis, Estudos de género, Aborto -- Abortion, Internet, Histórias de vida, Domínio/Área Científica::Ciências Sociais::Sociologia, Domínio/Área Científica::Ciências Sociais::Ciências da Comunicação

الوصف: A campanha brasileira online #EuVouContar, entre os anos 2017 e 2019, reuniu e publicou 52 histórias de mulheres que fizeram abortos, na maior parte clandestinos, e atenderam à convocatória pública para contá-las. A partir de uma discussão teórica sobre discurso, histórias de vida e visibilidade me- diada, este trabalho tenta analisar como este conjunto de narrativas articula simultaneamente diver- sos elementos de realidade que dão forma a uma estratégia discursiva construída especificamente em redes sociais online em defesa da legalização do aborto no Brasil. ; info:eu-repo/semantics/publishedVersion

وصف الملف: application/pdf

العلاقة: Estudos de género, feministas e sobre as mulheres: Reflexividade, resistência e ação; Maia, J. V., & Santos, S. (2023). O fim do silêncio: Visibilidade mediada de histórias de vida como estratégia no caso da campanha brasileira #EuVouContar. In A. Torres, D. Costa, D. Maciel, & T. J. Pinto (Eds.). Estudos de género, feministas e sobre as mulheres: Reflexividade, resistência e ação (pp. 283-292). ISCSP – Instituto Superior de Ciências Sociais e Políticas. http://hdl.handle.net/10071/31395Test; http://hdl.handle.net/10071/31395Test

الإتاحة: http://hdl.handle.net/10071/31395Test

View record in BASE

عرض رمز QR

أضف إلى السلة حذف من سلة الكتب
أضف إلى المفضلة

محفوظ في: