Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/82245
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorNou Castell, Ramon-
dc.contributor.otherMarco-Galindo, Maria-Jesús-
dc.date.accessioned2018-07-03T06:31:35Z-
dc.date.available2018-07-03T06:31:35Z-
dc.date.issued2018-06-
dc.identifier.urihttp://hdl.handle.net/10609/82245-
dc.description.abstractGran parte del conocimiento biológico se encuentra dividido en varias bases de datos. Gracias a los avances en la potencia de cálculo todos estos datos se pueden analizar utilizando técnicas basadas en minería de datos, estadística y machine learning. En este trabajo nos hemos centrado en dos grandes bases de datos que se pueden utilizar para encontrar relaciones entre poblaciones y distintos fenotipos utilizando SNPs (Single Nucleotide Polymorphism). En este caso, se utilizará información de la base de datos de 1000Genome, que contiene el genoma completo de más de 1000 humanos de distintas poblaciones y los datos de la base de datos GWAS que contiene los SNPs y su relación con distintos rasgos (asma, cáncer...) Mostraremos distintas formas para extraer información, incluyendo machine learning y posteriormente aplicaremos distintos métodos para mejorar su rendimiento tanto en el plano de la computación (añadiendo paralelismo) como mejorando la entrada/salida (mejorando la distribución y la utilización de los datos). Finalmente analizaremos la parte de aprendizaje y extracción de conocimiento comparando distintos algoritmos y métodos, realizando un análisis más detallado de los datos.es
dc.description.abstractThe biological knowledge, or at least a big part of it, is divided in different databases. Thanks to the advances in the computation power, we can analyse all this data using data mining, statistical methods and machine learning techniques. In this work, we will focus in two important databases that can be used to find relations between populations and fenotypes using SNPs (Single Nucleotide Polymorphism) as features. For this work, we will use information from 1000Genome, a database containing the sequentiation of more than 1000 humans' genome and from GWAS, another database that contains the relation between SNPs and traits (i.e., asthma or cancer). Different ways of extracting information will be presented, including machine learning. After that, a performance analysis and optimization techniques will be applied both to computation speed (parallelism) and I/O (data distribution). Finally, a comparative analysis of machine learning algorithms will be presented.en
dc.description.abstractGran part del coneixement biològic es troba dividit en diverses bases de dades. Gràcies als avanços en la potència de càlcul totes aquestes dades es poden analitzar utilitzant tècniques basades en mineria de dades, estadística i machine learning. En aquest treball ens hem centrat en dues grans bases de dadesque es poden utilitzar per trobar relacions entre poblacions i diferents fenotips utilitzant SNPs (Single Nucleotide Polymorphism). En aquest cas, s'utilitzarà informació de la base de dades de 1000Genome, que conté el genoma complet de més de 1000 humans de diferents poblacions i les dades de la base de dades GWAS que conté els SNPs i la seva relació amb diferents trets (asma, càncer...) Mostrarem diferents formes per extreure informació, incloent machine learning i posteriorment aplicarem diferents mètodes per millorar el seu rendiment tant en el plànol de la computació (afegint paral·lelisme) com millorant l'entrada/sortida (millorant la distribució i la utilització de les dades). Finalment analitzarem la part d'aprenentatge i extracció de coneixement comparant diferents algorismes i mètodes, realitzant una anàlisi més detallada de les dades.ca
dc.format.mimetypeapplication/pdf-
dc.language.isospa-
dc.publisherUniversitat Oberta de Catalunya (UOC)-
dc.rightsCC BY-NC-ND-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/-
dc.subjectaprenentatge automàticca
dc.subjectaprendizaje automáticoes
dc.subjectmachine learningen
dc.subjectgenomaes
dc.subjectgenomaca
dc.subjectgenomeen
dc.subjectSNPes
dc.subjectSNPca
dc.subjectSNPen
dc.subject.lcshBioinformatics -- TFMen
dc.titleConocimiento en 1000Genome y GWAS-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelPostgraduate degreesen
dc.subject.lemacBioinformàtica -- TFMca
dc.subject.lcshesBioinformática -- TFMes
dc.contributor.tutorAndrio, Pau-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
rnouTFM0618memoria.pdfMemoria del TFM1,95 MBAdobe PDFVista previa
Visualizar/Abrir
Comparte:
Exporta:
Consulta las estadísticas

Los ítems del Repositorio están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.