Análisis de sentimiento de textos basado en opiniones de películas usando algoritmos de aprendizaje computacional

Chulilla Alcalde, Jorge

Please use this identifier to cite or link to this item: http://hdl.handle.net/10609/132328

Full metadata record

DC Field	Value	Language
dc.contributor.author	Chulilla Alcalde, Jorge	-
dc.contributor.other	Ventura, Carles	-
dc.coverage.spatial	Barcelona, ESP	-
dc.date.accessioned	2021-06-27T19:12:14Z	-
dc.date.available	2021-06-27T19:12:14Z	-
dc.date.issued	2021-06-27	-
dc.identifier.uri	http://hdl.handle.net/10609/132328	-
dc.description.abstract	Dentro del campo del Procesamiento de Lenguaje Natural (NLP) se ha generado un ecosistema de algoritmos que permiten el análisis y clasificación de datos a partir del aprendizaje automatizado. Este trabajo se focaliza en el llamado análisis de sentimiento, por el cual, es posible clasificar textos en idioma inglés según una polaridad, en nuestro caso positiva o negativa. Como caso de uso concreto nos hemos decidido por textos de opiniones de películas o series en IMDB, considerando la importancia que el sector audiovisual tiene en la actualidad y la gran cantidad de recursos que destina esta industria al análisis de las preferencias de los usuarios. Se ha definido y seguido una planificación standard de tareas a tres meses vista, utilizando una metodología de tipo CRISP-DM, que es la utilizada para proyectos basados en 'Machine Learning'. Dentro del análisis inicial y después de ver las diferentes técnicas y algoritmos dedicados al NLP se han implementado y probado tres algoritmos diferentes, basados en conceptos distintos: por un lado, los algoritmos más clásicos, Multinomial Naïve Bayes y Logistic Regression, y por otro lado ULMFiT, basado en técnicas de 'Transfer Learning'. Finalmente, comprobamos que los resultados han sido muy buenos con unas tasas en los tres casos entorno al 90%, siendo ULMFiT el que mejores resultados obtiene. En este sentido, los recursos necesarios para este tipo de algoritmos pueden no justificar su utilización, considerando que la diferencia de resultados no ha sido demasiado grande, pero sí plasma su potencial.	es
dc.description.abstract	Within the field of Natural Language Processing (NLP) an ecosystem of algorithms has been generated, allowing data analysis and classification using machine learning techniques. This work is focused on the so-called sentiment analysis, which allows to classify texts in the English language according to a polarity, in our case positive or negative. As a specific use case, we have decided on texts of opinions of movies or series using IMDB, considering the importance that the audiovisual sector has and the large amount of resources that this industry allocates for user preferences analysis. A standard three-month planning of tasks has been defined and followed, using a CRISP-DM type methodology, which is used for projects based on 'Machine Learning'. Within the initial analysis and after seeing the different techniques and algorithms dedicated to NLP, three different algorithms have been developed and tested, based on different concepts: firstly, the more classical algorithms, Multinomial Naïve Bayes and Logistic Regression, and finally ULMFiT, based on 'Transfer Learning' techniques. Finally, the results have been very good, with accuracies of around 90% in all three cases, being ULMFiT the best of all. In this sense, the resources necessary for this type of algorithm may not justify its use, considering that the differences has not been too big, but it does reflect its potential.	en
dc.description.abstract	Dins del camp del Processament del Llenguatge Natural (NLP) s'ha generat un ecosistema d'algoritmes que permeten l'anàlisi i classificació de dades a partir de l'aprenentatge automatitzat. Aquest treball es focalitza en l'anomenat anàlisi de sentiment, per el qual, és possible classificar text en idioma anglès segons una polaritat, en el nostre cas positiva o negativa. Com a cas d'ús concretament ens hem decidit per text d'opinions de pel·lícules o series en IMDB, considerant la importància que el sector audiovisual té en la actualitat i la gran quantitat de recursos que destina aquesta indústria a l'anàlisi de les preferències dels usuaris. S'ha definit i seguit una planificació estàndard de tasques a tres mesos vista, utilitzant una metodologia de tipus CRISP-DM, que és la utilitzada per a projectes basats en 'Machine Learning'. Dins de l'anàlisi inicial i després de veure les diferents tècniques i algoritmes dedicats al NLP s'han implementat i provat tres algoritmes diferents, basats en conceptes diferents: per una banda, els algoritmes més clàssics, Multinomial Naïve Bayes i Logistic Regression, i per l'altre ULMFiT, basat en tècniques de 'Transfer Learning'. Finalment, comprovem que els resultats han sigut molt bons amb unes tasses en tots tres casos sobre el 90%, sent ULMFiT el que millors resultats obté. En aquest sentit, els recursos necessaris per aquest tipus d'algoritmes poden no justificar la seva utilització, considerant que la diferència de resultats no ha sigut massa gran, però sí plasma el seu potencial.	ca
dc.format.mimetype	application/pdf	-
dc.language.iso	spa	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	análisis de sentimiento	es
dc.subject	machine learning	es
dc.subject	procesamiento del lenguaje natural	es
dc.subject	anàlisi de sentiment	ca
dc.subject	machine learning	ca
dc.subject	processament de el llenguatge natural	ca
dc.subject	sentiment analysis	en
dc.subject	machine learning	en
dc.subject	natural language processing	en
dc.subject.lcsh	Algorithms -- TFG	en
dc.title	Análisis de sentimiento de textos basado en opiniones de películas usando algoritmos de aprendizaje computacional	-
dc.type	info:eu-repo/semantics/bachelorThesis	-
dc.audience.educationlevel	Estudis de Grau	ca
dc.audience.educationlevel	Estudios de Grado	es
dc.audience.educationlevel	University degrees	en
dc.subject.lemac	Algorismes -- TFG	ca
dc.subject.lcshes	Algoritmos -- TFG	es
dc.contributor.tutor	Isern, David	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Appears in Collections:	Bachelor thesis, research projects, etc.