Aplicación de métodos de aprendizaje semi-supervisados para el reconocimiento del habla en personas con afasia

Romero Ferrón, Mónica

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/136086

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Romero Ferrón, Mónica	-
dc.contributor.other	Conesa, Jordi	-
dc.coverage.spatial	Madrid, ESP	-
dc.date.accessioned	2021-11-22T19:10:31Z	-
dc.date.available	2021-11-22T19:10:31Z	-
dc.date.issued	2021-06-06	-
dc.identifier.uri	http://hdl.handle.net/10609/136086	-
dc.description.abstract	Tradicionalmente, los sistemas de reconocimiento automático del habla (RAH) requieren de algoritmos que utilizan bases de datos etiquetadas para su aprendizaje. Sin embargo, un reciente y novedoso enfoque desarrolla modelos semi-supervisados que tienen la capacidad de realizar una parte de su entrenamiento con datos no etiquetados, facilitando así su uso en entornos donde los datos etiquetados son escasos. Este trabajo de investigación esta centrado en la aplicación de estos métodos de aprendizaje en el ámbito de la salud y, más concretamente, en voces patológicas proveniente de hablantes con diferentes tipos de afasia. Se ha trabajado con la base de datos de referencia AphasiaBank, que contiene 78 horas de audios de pacientes con diferentes grados de afasia, y que ya ha sido empleada por otros grupos de investigación. A nivel de modelado, se ha optimizado y a nado la arquitectura de aprendizaje semi-supervisado empleada sobre estos datos de dominio, a través de la aplicación de la técnica Grid Search y de la búsqueda exhaustiva de los hiperparámetros del modelo. En este estudio se comparan los resultados obtenidos con los que se reflejan en el estado del arte. Se demuestra que el modelo de reconocimiento obtenido presenta resultados que mejoran otro tipo de enfoques publicados anteriormente.	es
dc.description.abstract	Tradicionalment, els sistemes de reconeixement automàtic de la parla (RAH) requereixen d'algorismes que utilitzen bases de dades etiquetades per al seu aprenentatge. No obstant això, un recent i nou enfocament desenvolupa models semi-supervisats que tenen la capacitat de realitzar una part del seu entrenament amb dades no etiquetades, facilitant així el seu ús en entorns on les dades etiquetades són escassos. Aquest treball de recerca aquesta centrat en l'aplicació d'aquests mètodes d'aprenentatge en l'àmbit de la salut i, més concretament, en veus patològiques provinent de parlants amb diferents tipus d'afàsia. S'ha treballat amb la base de dades de referència AphasiaBank, que conté 78 hores d'àudios de pacients amb diferents graus d'afàsia, i que ja ha estat emprada per altres grups de recerca. A nivell de modelatge, s'ha optimitzat i nadant l'arquitectura d'aprenentatge semi-supervisat empleada sobre aquestes dades de domini, a través de l'aplicació de la tècnica Grid Search i de la cerca exhaustiva dels hiperparámetros del model. En aquest estudi es comparen els resultats obtinguts amb els quals es reflecteixen en l'estat de l'art. Es demostra que el model de reconeixement obtingut presenta resultats que milloren un altre tipus d'enfocaments publicats anteriorment.	ca
dc.description.abstract	Traditionally, automatic speech recognition (ASR) systems require algorithms that use labeled databases for learning. However, a recent novel approach develops semi-supervised models that have the ability to perform part of their training on unlabeled data, thus facilitating their use in environments where labeled data is scarce. This research work is focused on the application of these learning methods in the health domain and, more specifically, on pathological voices coming from speakers with different types of aphasia. We have worked with the reference database AphasiaBank, which contains 78 hours of audios from patients with different degrees of aphasia, and which has already been used by other research groups. At the modeling level, the semi-supervised learning architecture used on this domain data has been optimized and tuned through the application of the Grid Search technique and the exhaustive search of the hyperparameters of the model. In this study, the results obtained are compared with those reflected in the state of the art. It is shown that the obtained recognition model presents results that improve other types of previously published approaches.	en
dc.format.mimetype	application/pdf	-
dc.language.iso	spa	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	reconocimiento automático del habla	es
dc.subject	RAH	es
dc.subject	wav2vec2.0	es
dc.subject	afasia	es
dc.subject	redes neuronales	es
dc.subject	NLP	en
dc.subject	reconeixement automàtic de la parla	ca
dc.subject	RAH	ca
dc.subject	wav2vec2.0	ca
dc.subject	fàsia	ca
dc.subject	xarxes neuronals	ca
dc.subject	NLP	ca
dc.subject	automatic speech recognition	en
dc.subject	RAH	en
dc.subject	wav2vec2.0	en
dc.subject	aphasia	en
dc.subject	aphasia	en
dc.subject	neural networks	en
dc.subject	NLP	en
dc.subject.lcsh	Neural networks (Computer science) -- TFM	en
dc.title	Aplicación de métodos de aprendizaje semi-supervisados para el reconocimiento del habla en personas con afasia	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudis de Màster	ca
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.subject.lemac	Xarxes neuronals (Informàtica) --TFM	ca
dc.subject.lcshes	Redes neuronales -- TFM	es
dc.contributor.tutor	González Torre, Iván	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Bachelor thesis, research projects, etc.