Implementación de algoritmos de machine learning para la identificación de relaciones familiares e identificación de desaparecidos mediante STRs de ADN autosómico

Luque Gutiérrez, Juan Antonio

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/90946

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Luque Gutiérrez, Juan Antonio	-
dc.contributor.other	Sánchez-Pla, Alex	-
dc.date.accessioned	2019-01-30T18:20:29Z	-
dc.date.available	2019-01-30T18:20:29Z	-
dc.date.issued	2019-02	-
dc.identifier.uri	http://hdl.handle.net/10609/90946	-
dc.description.abstract	En el presente TFM, se han implementado y evaluado la efectividad de diversos algoritmos de machine learning para determinar la relación familiar entre dos individuos, con el fin de poder aplicar estos algoritmos en la identificación de desaparecidos en el ámbito forense. Todo el proceso ha sido implementado con R y Rstudio. Siguiendo la herencia mendeliana, se generaron los perfiles de ADN de marcadores Short Tandem Repeat (STR) autosómicos para un conjunto de grandes familias "sintéticas". Para entrenar y validar los diversos modelos ensayados, se crearon varios conjuntos de datos seleccionando en estas familias sintéticas diversas relaciones familiares entre dos individuos. Tras la evaluación de los diversos modelos, el algoritmo se ha implementado y entrenado como una red neuronal con keras/tensorflow, de forma que pueda ser empleado posteriormente para la predicción de la relación familiar en base a los perfiles de ADN que se puedan obtener en un suceso de víctimas múltiples para las víctimas y los familiares. Se han simulado 10 escenarios de sucesos de víctimas múltiples (desde 6 hasta 200 víctimas) con diverso grado de dificultad. La aplicación de la red neuronal a dichos escenarios ha resuelto la mayoría de las identificaciones en pocos minutos. En algunos escenarios con un 100% de efectividad. En el escenario más complejo con relaciones lejanas, la clasificación ha sido del 50%.	es
dc.description.abstract	The goal of this TFM has been to implement and evaluate several machine learning algorithms in order to determine the kinship between two individuals in the context of Disaster Victim Identification (DVI). The development has been done with R and Rstudio. Following the mendelian transmission, the DNA profiles of autosomal Short Tandem Repeat (STR) markers were generated for a group of extensive synthetic families. The different machine learning models were trained and validated using as input data pairs of individuals selected from these synthetic families, with diverse kinships. After evaluating several models, a keras/tensorflow neural network was implemented and trained so that it could be used to predict the relationship of two individuals given the multiple DNA profiles obtained in a DVI. Ten settings of events with multiple victims (from 6 to 200 victims) were simulated, with different levels of difficulty. The inference of the neural network in such settings has solved most of the identifications in a few minutes. In some of the settings, the identifications were solved with a 100% accuracy, while the most complicated setting with the farthest family relationships could only obtain a 50% of accuracy.	en
dc.description.abstract	En el present TFM, s'han implementat i avaluat l'efectivitat de diversos algoritmes de machine learning per determinar la relació familiar entre dos individus, per tal de poder aplicar aquests algoritmes en la identificació de desapareguts en l'àmbit forense. Tot el procés ha estat implementat amb R i Rstudio. Seguint l'herència mendeliana, es van generar els perfils d'ADN de marcadors Short Tandem Repeat (STR) autosòmics per a un conjunt de grans famílies "sintètiques". Per entrenar i validar els diversos models assajats, es van crear diversos conjunts de dades seleccionant en aquestes famílies sintètiques diverses relacions familiars entre dos individus. Després de l'avaluació dels diversos models, l'algoritme s'ha implementat i entrenat com una xarxa neuronal amb keras / tensorflow, de manera que pugui ser emprat posteriorment per a la predicció de la relació familiar en base als perfils d'ADN que es puguin obtenir en un succés de víctimes múltiples per les víctimes i els familiars. S'han simulat 10 escenaris de successos de víctimes múltiples (de 6 a 200 víctimes) amb divers grau de dificultat. L'aplicació de la xarxa neuronal a aquests escenaris ha resolt la majoria de les identificacions en pocs minuts. En alguns escenaris amb un 100% d'efectivitat. A l'escenari més complex amb relacions llunyanes, la classificació ha estat del 50%.	ca
dc.format.mimetype	application/pdf	-
dc.language.iso	spa	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	machine learning	en
dc.subject	ADN	es
dc.subject	identificación de desaparecidos	es
dc.subject	aprendizaje automático	es
dc.subject	aprenentatge automàtic	ca
dc.subject	ADN	ca
dc.subject	DNA	en
dc.subject	missing persons identification	en
dc.subject	identificació de desapareguts	ca
dc.subject.lcsh	Algorithms -- TFM	en
dc.title	Implementación de algoritmos de machine learning para la identificación de relaciones familiares e identificación de desaparecidos mediante STRs de ADN autosómico	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudis de Màster	ca
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.subject.lemac	Algorismes -- TFM	ca
dc.subject.lcshes	Algoritmos -- TFM	es
dc.contributor.tutor	Vegas Lozano, Esteban	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Trabajos finales de carrera, trabajos de investigación, etc.