Detección de discurso de odio contra la comunidad LGTBI+ mexicana mediante el uso de arquitecturas transformer

Fernández Rosauro, Carlos

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/10609/148703

Títol:	Detección de discurso de odio contra la comunidad LGTBI+ mexicana mediante el uso de arquitecturas transformer
Autoria:	Fernández Rosauro, Carlos
Tutor:	Cuadros Oller, Montse
Resum:	El objetivo de este Trabajo de Fin de Grado es contribuir en la búsqueda de la igualdad para las personas del colectivo LGTBI+ a través de la detección de contenido LGTBI-fóbico en el contexto de las redes sociales. Para ello se trabaja sobre dos subtareas organizadas bajo el nombre de HOMO-MEX por parte de la conferencia IberLEF 2023. La primera subtarea consiste en un problema de clasificación multiclase para detectar tweets LGTBI-fóbicos, mientras que la segunda subtarea consiste en detectar el tipo concreto de LGTBI-fobia que exhiben estos tweets a través de un problema de clasificación multi-etiqueta. La resolución de las dos subtareas se ha abordado como problemas de clasificación de texto mediante técnicas básicas y avanzadas de Procesamiento de Lenguaje Natural. En concreto, se han utilizado modelos umbral de tipo estadístico, así como modelos Transformer basados en arquitecturas BERT y similares para ambas subtareas. Los modelos Transformer han obtenido unos resultados excelentes en la fase de validación tanto en el entorno experimental, como en la clasificación oficial de la tarea, donde el modelo RoBERTuito obtuvo la segunda posición en ambas subtareas. El modelo umbral Linear SVC de tipo tradicional y de menor coste computacional obtuvo resultados muy similares a los de los modelos Transformer en el contexto experimental, dando espacio a la utilización de modelos más simples en condiciones de textos como las de las redes sociales. The goal of this thesis is to contribute to the improvement of equality for people from the LGTBI+ collective through the detection of LGTB-phobic content in the context of social networks. The technical side of the project is defined by two subtasks organized under the name of HOMO-MEX by the IberLEF 2023 conference. The first subtask consists of a multiclass classification problem to detect LGTBI-phobic tweets, while the second subtask consists of detecting the type specific LGTB-phobia exhibited by the LGTB-phobic tweets through a multilabel classification problem. The two subtasks have been tackled as text classification problems with both basic and advanced Natural Language Processing techniques. More specifically, baseline models, as well as Transformer models based on BERT and similar architectures have been used for both subtasks. The Transformer models have obtained excellent results in the validation phase both in the experimental environment and in the classification leaderboard of the task, as the RoBERTuito model obtained the second position in both subtasks. The Linear SVC baseline model of the traditional type and with lower computational cost obtained very similar results to those of the Transformer models in the experimental context, giving space to the use of simpler models in text classification tasks applied to social networks.
Paraules clau:	Estudis de gènere
Tipus de document:	info:eu-repo/semantics/bachelorThesis
Data de publicació:	18-jun-2023
Llicència de publicació:	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Apareix a les col·leccions:	Bachelor thesis, research projects, etc.