Automatic query expansion for vehicle repair documents through user behavior

Ghiringhelli, Juan Carlos

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/121326

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Ghiringhelli, Juan Carlos	-
dc.date.accessioned	2020-07-27T10:11:52Z	-
dc.date.available	2020-07-27T10:11:52Z	-
dc.date.issued	2020-06-24	-
dc.identifier.uri	http://hdl.handle.net/10609/121326	-
dc.description.abstract	The process of Information Retrieval (IR) by query driven search engines have become an essential part of the customer experience in any data related digital product. The accuracy and completeness of the search results is a matter of great interest and a crucial key performance indicator. An important enhancer for search engines is query expansion Query Expansion (QE), where equivalent search queries Equivalent Search Query (ESQ) are added to the original request to increase recall. ESQs can be discovered using the same tools as synonym discovery given certain considerations, taking advantage of the fact that synonym discovery is a well developed field of Natural Language Processing (NLP) with many available techniques. The motivation for this project is to use the tools available in NLP Machine Learning (ML) to automatically detect ESQs. For this a large sample of logs describing search query customer behavior was used. This data set was obtained from a live enterprise product that publishes repair documents for automobiles. Graph embeddings through an implementation method called node2Vec and vector cosine similarity is the chosen discovery method for the ESQs. The conclusion of the experiment is that while usable search expansion queries are discovered, extra human intervention or further automatic selection is necessary to filter the valuable cases from the large number of found cases, even working within a strict similarity threshold.	en
dc.description.abstract	El proceso de recuperación de información (IR) de los sistemas de búsqueda centrados en consultas se ha vuelto un elemento fundamental para la experiencia del cliente en cualquier producto que almacene datos digitales. La exactitud y completitud de los resultados resulta de gran interés y es uno de los principales indicadores clave del negocio. Expandir la consulta original con términos relacionados es una potente herramienta para incrementar el retorno. Aunque con ciertas consideraciones, las consultas de búsqueda equivalentes pueden ser detectadas utilizando las mismas herramientas que para el descubrimiento de sinónimos, algo que resulta provechoso dado lo prolífico que es este campo del 'Natural Language Processing' (NLP por sus siglas en inglés). La motivación principal del proyecto es la detección de estas consultas por medio de las herramientas propias del NLP. Para esto se utilizó un gran conjunto de datos detallando el comportamiento de usuarios al utilizar sistemas de búsqueda. El conjunto de datos fue extraído del sistema de búsqueda de un producto empresarial que publica documentos de reparación de automóviles. Se seleccionó el método conocido como node2Vec donde se generan grafos embebidos sumada a la similitud dada por el coseno de los vectores para hallar las consultas equivalentes. La conclusión del experimento es que si bien se encontraron consultas equivalentes útiles aún es necesario una intervención de expertos o mejorar la selectividad para una mejor discriminación de las consultas valiosas dentro del gran número de equivalencias encontradas, incluso al utilizar un umbral muy estricto de similitud.	es
dc.description.abstract	El procés de recuperació d'informació (IR) dels sistemes de recerca centrats en consultes s'ha tornat un element fonamental per a l'experiència de client en qualsevol producte que emmagatzemi dades digitals. L'exactitud i completesa dels resultats resulta de gran interès i és un dels principals indicadors clau del negoci. Expandir la consulta original amb termes relacionats és una potent eina per incrementar el retorn. Encara que amb certes consideracions, les consultes de cerca equivalents poden ser detectades utilitzant les mateixes eines que per al descobriment de sinònims, alguna cosa que resulta profitós donat el prolífic que és aquest camp 'Natural Language Processing' (PNL per les sigles en anglès). La motivació principal del projecte és la detecció d'aquestes consultes per mitjà de les eines pròpies de l'NLP. Per això es va utilitzar un gran conjunt de dades detallant el comportament d'usuaris a l'utilitzar sistemes de cerca. El conjunt de dades va ser extret del sistema de recerca d'un producte empresarial que publica documents de reparació d'automòbils. Es va seleccionar el mètode conegut com node2Vec on es generen grafs encastats sumada a la similitud donada pel cosinus dels vectors per trobar les consultes equivalents. La conclusió de l'experiment és que si bé es van trobar consultes equivalents útils encara cal una intervenció d'experts o millorar la selectivitat per a una millor discriminació de les consultes valuoses dins el gran nombre d'equivalències trobades, fins i tot a l'utilitzar un llindar molt estricte de similitud.	ca
dc.format.mimetype	application/pdf	-
dc.language.iso	eng	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	nlp	en
dc.subject	embeddings	en
dc.subject	query expansion	en
dc.subject	synonyms	en
dc.subject	pln	es
dc.subject	incorporaciones	es
dc.subject	expansión de consultas	es
dc.subject	sinónimos	es
dc.subject	pln	ca
dc.subject	incorporacions	ca
dc.subject	expansió de consultes	ca
dc.subject	sinònims	ca
dc.subject.lcsh	Artificial intelligence -- TFM	en
dc.title	Automatic query expansion for vehicle repair documents through user behavior	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudis de Màster	ca
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.subject.lemac	Intel·ligència artificial -- TFM	ca
dc.subject.lcshes	Inteligencia artificial -- TFM	es
dc.contributor.tutor	Bouayad-Agha, Nadjet	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Bachelor thesis, research projects, etc.