Please use this identifier to cite or link to this item:
http://hdl.handle.net/10609/132328
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Chulilla Alcalde, Jorge | - |
dc.contributor.other | Ventura, Carles | - |
dc.coverage.spatial | Barcelona, ESP | - |
dc.date.accessioned | 2021-06-27T19:12:14Z | - |
dc.date.available | 2021-06-27T19:12:14Z | - |
dc.date.issued | 2021-06-27 | - |
dc.identifier.uri | http://hdl.handle.net/10609/132328 | - |
dc.description.abstract | Dentro del campo del Procesamiento de Lenguaje Natural (NLP) se ha generado un ecosistema de algoritmos que permiten el análisis y clasificación de datos a partir del aprendizaje automatizado. Este trabajo se focaliza en el llamado análisis de sentimiento, por el cual, es posible clasificar textos en idioma inglés según una polaridad, en nuestro caso positiva o negativa. Como caso de uso concreto nos hemos decidido por textos de opiniones de películas o series en IMDB, considerando la importancia que el sector audiovisual tiene en la actualidad y la gran cantidad de recursos que destina esta industria al análisis de las preferencias de los usuarios. Se ha definido y seguido una planificación standard de tareas a tres meses vista, utilizando una metodología de tipo CRISP-DM, que es la utilizada para proyectos basados en 'Machine Learning'. Dentro del análisis inicial y después de ver las diferentes técnicas y algoritmos dedicados al NLP se han implementado y probado tres algoritmos diferentes, basados en conceptos distintos: por un lado, los algoritmos más clásicos, Multinomial Naïve Bayes y Logistic Regression, y por otro lado ULMFiT, basado en técnicas de 'Transfer Learning'. Finalmente, comprobamos que los resultados han sido muy buenos con unas tasas en los tres casos entorno al 90%, siendo ULMFiT el que mejores resultados obtiene. En este sentido, los recursos necesarios para este tipo de algoritmos pueden no justificar su utilización, considerando que la diferencia de resultados no ha sido demasiado grande, pero sí plasma su potencial. | es |
dc.description.abstract | Within the field of Natural Language Processing (NLP) an ecosystem of algorithms has been generated, allowing data analysis and classification using machine learning techniques. This work is focused on the so-called sentiment analysis, which allows to classify texts in the English language according to a polarity, in our case positive or negative. As a specific use case, we have decided on texts of opinions of movies or series using IMDB, considering the importance that the audiovisual sector has and the large amount of resources that this industry allocates for user preferences analysis. A standard three-month planning of tasks has been defined and followed, using a CRISP-DM type methodology, which is used for projects based on 'Machine Learning'. Within the initial analysis and after seeing the different techniques and algorithms dedicated to NLP, three different algorithms have been developed and tested, based on different concepts: firstly, the more classical algorithms, Multinomial Naïve Bayes and Logistic Regression, and finally ULMFiT, based on 'Transfer Learning' techniques. Finally, the results have been very good, with accuracies of around 90% in all three cases, being ULMFiT the best of all. In this sense, the resources necessary for this type of algorithm may not justify its use, considering that the differences has not been too big, but it does reflect its potential. | en |
dc.description.abstract | Dins del camp del Processament del Llenguatge Natural (NLP) s'ha generat un ecosistema d'algoritmes que permeten l'anàlisi i classificació de dades a partir de l'aprenentatge automatitzat. Aquest treball es focalitza en l'anomenat anàlisi de sentiment, per el qual, és possible classificar text en idioma anglès segons una polaritat, en el nostre cas positiva o negativa. Com a cas d'ús concretament ens hem decidit per text d'opinions de pel·lícules o series en IMDB, considerant la importància que el sector audiovisual té en la actualitat i la gran quantitat de recursos que destina aquesta indústria a l'anàlisi de les preferències dels usuaris. S'ha definit i seguit una planificació estàndard de tasques a tres mesos vista, utilitzant una metodologia de tipus CRISP-DM, que és la utilitzada per a projectes basats en 'Machine Learning'. Dins de l'anàlisi inicial i després de veure les diferents tècniques i algoritmes dedicats al NLP s'han implementat i provat tres algoritmes diferents, basats en conceptes diferents: per una banda, els algoritmes més clàssics, Multinomial Naïve Bayes i Logistic Regression, i per l'altre ULMFiT, basat en tècniques de 'Transfer Learning'. Finalment, comprovem que els resultats han sigut molt bons amb unes tasses en tots tres casos sobre el 90%, sent ULMFiT el que millors resultats obté. En aquest sentit, els recursos necessaris per aquest tipus d'algoritmes poden no justificar la seva utilització, considerant que la diferència de resultats no ha sigut massa gran, però sí plasma el seu potencial. | ca |
dc.format.mimetype | application/pdf | - |
dc.language.iso | spa | - |
dc.publisher | Universitat Oberta de Catalunya (UOC) | - |
dc.rights | CC BY-NC-ND | - |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ | - |
dc.subject | análisis de sentimiento | es |
dc.subject | machine learning | es |
dc.subject | procesamiento del lenguaje natural | es |
dc.subject | anàlisi de sentiment | ca |
dc.subject | machine learning | ca |
dc.subject | processament de el llenguatge natural | ca |
dc.subject | sentiment analysis | en |
dc.subject | machine learning | en |
dc.subject | natural language processing | en |
dc.subject.lcsh | Algorithms -- TFG | en |
dc.title | Análisis de sentimiento de textos basado en opiniones de películas usando algoritmos de aprendizaje computacional | - |
dc.type | info:eu-repo/semantics/bachelorThesis | - |
dc.audience.educationlevel | Estudis de Grau | ca |
dc.audience.educationlevel | Estudios de Grado | es |
dc.audience.educationlevel | University degrees | en |
dc.subject.lemac | Algorismes -- TFG | ca |
dc.subject.lcshes | Algoritmos -- TFG | es |
dc.contributor.tutor | Isern, David | - |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | - |
Appears in Collections: | Bachelor thesis, research projects, etc. |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
jchulillaTFG0621memoria.pdf | Memoria del TFG | 3,17 MB | Adobe PDF | View/Open |
jchulillaTFG0621presentación.pdf | Presentación del TFG | 2 MB | Adobe PDF | View/Open |
Share:
This item is licensed under a Creative Commons License