Herramienta para analizar matrices de expresión génicas con machine learning

Rodríguez Pérez, Domingo Javier

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/109506

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Rodríguez Pérez, Domingo Javier	-
dc.contributor.other	Adsuar Gómez, Antonio Jesús	-
dc.date.accessioned	2020-02-12T15:26:55Z	-
dc.date.available	2020-02-12T15:26:55Z	-
dc.date.issued	2020-01	-
dc.identifier.uri	http://hdl.handle.net/10609/109506	-
dc.description.abstract	En el campo de las aplicaciones biomédicas, es tan importante obtener una alta precisión como hacer que los modelos generados sean explicables para el personal clínico. Por esta razón, es esencial aplicar técnicas inteligentes que sean capaces de aprender de manera efectiva en estos escenarios. En esta ocasión se trata de crear un software en R para proporcionar una manera sencilla de construir un análisis explicativo de la causalidad entre la expresión génica y las condiciones del paciente. El software creado está muy automatizado facilitando las entradas de datos para estudiar diferentes matrices de expresión, con un flujo lineal, con una lectura de datos a través del código GEO, un preprocesamiento en el que se facilita un contraste de hipótesis,una normalización para hacer los datos comparables entre ellos y un filtrado de genes que reduce el cálculo computacional del posterior entrenamiento de los modelos machine learning el cual conlleva diferentes técnicas de selección de genes para, a través de la validación del modelo, detectar la relación entre la expresión génica y la condición del paciente y compartir los resultados de los genes realmente implicados en la respuesta Pongo a prueba esta herramienta con uno de los temas mas actuales en cuanto a diagnostico clínico, la detección del cáncer a través de la expresión génica de las plaquetas. Los datos se han obtenido del experimento con código GSE89843. Se obtienen AUC por encima del 90% con tan solo 10 genes, lo que supone un gran avance en este campo. El AUC se puede interpretar como la probabilidad de clasificarlos correctamente. Debido a su bajo coste por el número reducido de genes y su poca invasividad puede realizarse a modo de test preventivo y reducir su tasa de mortalidad.	es
dc.description.abstract	In the field of biomedical applications, it is as important to obtain high precision as to make the generated models explainable to clinical staff. For this reason, it is essential to apply intelligent techniques that are able to learn effectively in these scenarios. This time it is about creating software in R to provide a simple way to construct an explanatory analysis of the causality between gene expression and patient conditions. The software created is highly automated, facilitating data entry to study different expression matrices, with a linear flow, with a reading of data through the GEO code, a preprocessing in which a hypothesis contrast is facilitated, a normalization to make the comparable data between them and a gene filtration that reduces the computational calculation of the subsequent training of machine learning models which entails different gene selection techniques to, through the validation of the model, detect the relationship between gene expression and the patient's condition and share the results of the genes really involved in the response I test this tool with one of the most current issues in terms of clinical diagnosis, the detection of cancer through the gene expression of platelets. The data were obtained from the experiment with code GSE89843. AUC above 90% are obtained with only 10 genes, which is a great advance in this field. The AUC can be interpreted as the probability of classifying them correctly. Due to its low cost due to the reduced number of genes and its low invasiveness, it can be carried out as a preventive test and reduce its mortality rate.	en
dc.description.abstract	En el camp de les aplicacions biomèdiques, és tan important obtenir una alta precisió com fer que els models generats siguin explicables per al personal clínic. Per aquesta raó, és essencial aplicar tècniques intel·ligents que siguin capaces d'aprendre de manera efectiva en aquests escenaris. En aquesta ocasió es tracta de crear un programari en R per a proporcionar una manera senzilla de construir una anàlisi explicativa de la causalitat entre l'expressió gènica i les condicions del pacient. El programari creat està molt automatitzat facilitant les entrades de dades per a estudiar diferents matrius d'expressió, amb un flux lineal, amb una lectura de dades a través del codi GEO, un preprocesamiento en el qual es facilita un contrast d'hipòtesi,una normalització per a fer les dades comparables entre ells i un filtrat de gens que redueix el càlcul computacional del posterior entrenament dels models machine learning el qual comporta diferents tècniques de selecció de gens per a, a través de la validació del model, detectar la relació entre l'expressió gènica i la condició del pacient i compartir els resultats dels gens realment implicats en la resposta. Poso a prova aquesta eina amb un dels temes mes actuals quant a diagnostico clínic, la detecció del càncer a través de l'expressió gènica de les plaquetes. Les dades s'han obtingut de l'experiment amb codi GSE89843. S'obtenen AUC per sobre del 90% amb tan sols 10 gens, la qual cosa suposa un gran avanç en aquest camp. El AUC es pot interpretar com la probabilitat de classificar-los correctament. A causa del seu baix cost pel nombre reduït de gens i la seva poca invasividad pot realitzar-se a manera de test preventiu i reduir la seva taxa de mortalitat.	ca
dc.format.mimetype	application/pdf	-
dc.language.iso	spa	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	RNA-seq	es
dc.subject	RNA-seq	ca
dc.subject	RNA-seq	en
dc.subject	feature selectión	en
dc.subject	selección de atributos	es
dc.subject	selecció d'atributs	ca
dc.subject	biopsia líquida	es
dc.subject	biòpsia liquida	ca
dc.subject	liquid biopsy	en
dc.subject	random forest	ca
dc.subject	random forest	es
dc.subject	random forest	en
dc.subject.lcsh	Bioinformatics -- TFM	en
dc.title	Herramienta para analizar matrices de expresión génicas con machine learning	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudis de Màster	ca
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.subject.lemac	Bioinformàtica -- TFM	ca
dc.subject.lcshes	Bioinformática -- TFM	es
dc.contributor.tutor	Fernandez Hilario, Alberto	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Trabajos finales de carrera, trabajos de investigación, etc.