Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/121326
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorGhiringhelli, Juan Carlos-
dc.date.accessioned2020-07-27T10:11:52Z-
dc.date.available2020-07-27T10:11:52Z-
dc.date.issued2020-06-24-
dc.identifier.urihttp://hdl.handle.net/10609/121326-
dc.description.abstractThe process of Information Retrieval (IR) by query driven search engines have become an essential part of the customer experience in any data related digital product. The accuracy and completeness of the search results is a matter of great interest and a crucial key performance indicator. An important enhancer for search engines is query expansion Query Expansion (QE), where equivalent search queries Equivalent Search Query (ESQ) are added to the original request to increase recall. ESQs can be discovered using the same tools as synonym discovery given certain considerations, taking advantage of the fact that synonym discovery is a well developed field of Natural Language Processing (NLP) with many available techniques. The motivation for this project is to use the tools available in NLP Machine Learning (ML) to automatically detect ESQs. For this a large sample of logs describing search query customer behavior was used. This data set was obtained from a live enterprise product that publishes repair documents for automobiles. Graph embeddings through an implementation method called node2Vec and vector cosine similarity is the chosen discovery method for the ESQs. The conclusion of the experiment is that while usable search expansion queries are discovered, extra human intervention or further automatic selection is necessary to filter the valuable cases from the large number of found cases, even working within a strict similarity threshold.en
dc.description.abstractEl proceso de recuperación de información (IR) de los sistemas de búsqueda centrados en consultas se ha vuelto un elemento fundamental para la experiencia del cliente en cualquier producto que almacene datos digitales. La exactitud y completitud de los resultados resulta de gran interés y es uno de los principales indicadores clave del negocio. Expandir la consulta original con términos relacionados es una potente herramienta para incrementar el retorno. Aunque con ciertas consideraciones, las consultas de búsqueda equivalentes pueden ser detectadas utilizando las mismas herramientas que para el descubrimiento de sinónimos, algo que resulta provechoso dado lo prolífico que es este campo del 'Natural Language Processing' (NLP por sus siglas en inglés). La motivación principal del proyecto es la detección de estas consultas por medio de las herramientas propias del NLP. Para esto se utilizó un gran conjunto de datos detallando el comportamiento de usuarios al utilizar sistemas de búsqueda. El conjunto de datos fue extraído del sistema de búsqueda de un producto empresarial que publica documentos de reparación de automóviles. Se seleccionó el método conocido como node2Vec donde se generan grafos embebidos sumada a la similitud dada por el coseno de los vectores para hallar las consultas equivalentes. La conclusión del experimento es que si bien se encontraron consultas equivalentes útiles aún es necesario una intervención de expertos o mejorar la selectividad para una mejor discriminación de las consultas valiosas dentro del gran número de equivalencias encontradas, incluso al utilizar un umbral muy estricto de similitud.es
dc.description.abstractEl procés de recuperació d'informació (IR) dels sistemes de recerca centrats en consultes s'ha tornat un element fonamental per a l'experiència de client en qualsevol producte que emmagatzemi dades digitals. L'exactitud i completesa dels resultats resulta de gran interès i és un dels principals indicadors clau del negoci. Expandir la consulta original amb termes relacionats és una potent eina per incrementar el retorn. Encara que amb certes consideracions, les consultes de cerca equivalents poden ser detectades utilitzant les mateixes eines que per al descobriment de sinònims, alguna cosa que resulta profitós donat el prolífic que és aquest camp 'Natural Language Processing' (PNL per les sigles en anglès). La motivació principal del projecte és la detecció d'aquestes consultes per mitjà de les eines pròpies de l'NLP. Per això es va utilitzar un gran conjunt de dades detallant el comportament d'usuaris a l'utilitzar sistemes de cerca. El conjunt de dades va ser extret del sistema de recerca d'un producte empresarial que publica documents de reparació d'automòbils. Es va seleccionar el mètode conegut com node2Vec on es generen grafs encastats sumada a la similitud donada pel cosinus dels vectors per trobar les consultes equivalents. La conclusió de l'experiment és que si bé es van trobar consultes equivalents útils encara cal una intervenció d'experts o millorar la selectivitat per a una millor discriminació de les consultes valuoses dins el gran nombre d'equivalències trobades, fins i tot a l'utilitzar un llindar molt estricte de similitud.ca
dc.format.mimetypeapplication/pdf-
dc.language.isoeng-
dc.publisherUniversitat Oberta de Catalunya (UOC)-
dc.rightsCC BY-NC-ND-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/-
dc.subjectnlpen
dc.subjectembeddingsen
dc.subjectquery expansionen
dc.subjectsynonymsen
dc.subjectplnes
dc.subjectincorporacioneses
dc.subjectexpansión de consultases
dc.subjectsinónimoses
dc.subjectplnca
dc.subjectincorporacionsca
dc.subjectexpansió de consultesca
dc.subjectsinònimsca
dc.subject.lcshArtificial intelligence -- TFMen
dc.titleAutomatic query expansion for vehicle repair documents through user behavior-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelMaster's degreesen
dc.subject.lemacIntel·ligència artificial -- TFMca
dc.subject.lcshesInteligencia artificial -- TFMes
dc.contributor.tutorBouayad-Agha, Nadjet-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Bachelor thesis, research projects, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
jghiringhelliTFM0620memory.pdfMemory of TFM3,9 MBAdobe PDFVista previa
Visualizar/Abrir