Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/97387
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorVergara Gómez, Andrea-
dc.contributor.otherCanovas Izquierdo, Javier Luis-
dc.date.accessioned2019-07-02T08:22:12Z-
dc.date.available2019-07-02T08:22:12Z-
dc.date.issued2019-06-04-
dc.identifier.urihttp://hdl.handle.net/10609/97387-
dc.description.abstractLa secuenciación masiva ha permitido analizar el contenido genómico de todos los microorganismos de una muestra (metagenómica), sin necesidad de cultivarlos. El análisis de datos shotgun representa un gran reto. Agrupar las secuencias obtenidas en distintas especies metagenómicas basándose en referencias externas supone que muchas secuencias quedan sin asignar, por lo que parecen más adecuados los métodos independientes de referencia (binning). El objetivo de este trabajo fue comparar dos métodos de ensamblaje y dos métodos de binning analizando datos metagenómicos reales. Se realizó el ensamblaje de-novo de las secuencias depuradas con dos ensambladores: MEGAHIT y MetaSPAdes. La bondad de estos ensamblajes se analizó con QUAST. A partir de los contigs, se generó un catálogo de genes únicos y se realizó el binning con Canopy y MetaBAT2. La bondad de los binning se evaluó con CheckM. Se trabajó en un clúster de supercomputadores y, siempre que fue posible, los trabajos se ejecutaron en paralelo, para optimizar el tiempo de análisis. En relación al ensamblaje, se obtuvieron mejores resultados utilizando MetaSPAdes que MEGAHIT. Respecto al binning, los resultados obtenidos indican que Canopy generó muchos más bins que MetaBAT2, pero al visualizar los bins obtenidos se comprobó que los resultados eran sub-óptimos para ambos. Trabajar en un clúster de PCs permite ahorrar tiempo de análisis y optimizar recursos. Teniendo en cuenta estos datos, son necesarios nuevos enfoques para conseguir mejores resultados: estrategia single-sample basada en contigs, usar contigs completos en lugar de genes y testear el resultado de co-ensamblaje múltiple para varias muestras.es
dc.description.abstractThanks to the next generation sequencing it is possible to analyze the genes of all the microorganisms in a sample (metagenomics), without the need to cultivate them. The analysis of shotgun data represents a great challenge. Grouping sequences from different metagenomic species based on external references means that many sequences will remain unassigned, so it seems more appropriate to use the reference independent methods (binning). The objective of this study was to compare two assemblers and two binning methods with real metagenomic data. The de-novo assembly of trimmed reads was performed with two assemblers: MEGAHIT and MetaSPAdes. The performance of these assemblies was analyzed with QUAST. A catalog of unique genes was generated from the contigs and binning with Canopy and MetaBAT2 was carried out. The performance of the binning was evaluated with CheckM. A cluster of supercomputers was used and, whenever possible, jobs were executed in parallel, in order to optimize time of analysis. Regarding the assembly, better results were obtained using MetaSPAdes than MEGAHIT. Regarding the binning, Canopy generated many more bins than MetaBAT2, but the visualization of the bins showed that the results were suboptimal for both. Working in a cluster of PCs allows you to save analysis time and optimize resources. According to these data, new approaches are necessary to achieve better results: the single-sample strategy based on contigs, using complete contigs instead of genes and testing the result of multiple co-assembly for several samples.en
dc.description.abstractLa seqüenciació massiva ha permès analitzar el contingut genòmic de tots els microorganismes d'una mostra (metagenòmica), sense necessitat de cultivar-los. L'anàlisi de dades shotgun representa un gran repte. Agrupar les seqüències obtingudes en diferents espècies metagenòmiques basant-se en referències externes suposa que moltes seqüències queden sense assignar, de manera que semblen més adequats els mètodes independents de referència (binning). L'objectiu d'aquest treball va ser comparar dos mètodes d'assemblatge i dos mètodes de binning analitzant dades metagenòmics reals. Es va realitzar l'assemblatge de-novo de les seqüències depurades amb dos assembladors: MEGAHIT i MetaSPAdes. La bondat d'aquests assemblatges es va analitzar amb QUAST. A partir dels contigs, es va generar un catàleg de gens únics i es va realitzar el binning amb Canopy i MetaBAT2. La bondat dels binning es va avaluar amb CheckM. Es va treballar en un clúster de supercomputadors i, sempre que va ser possible, els treballs es van executar en paral·lel, per optimitzar el temps d'anàlisi. En relació a l'assemblatge, es van obtenir millors resultats utilitzant MetaSPAdes que MEGAHIT. Pel que fa al binning, els resultats obtinguts indiquen que Canopy va generar molts més bins que MetaBAT2, però en visualitzar els bins obtinguts es va comprovar que els resultats eren subòptims per a tots dos. Treballar en un clúster de PC permet estalviar temps d'anàlisi i optimitzar recursos. Tenint en compte aquestes dades, calen nous enfocaments per aconseguir millors resultats: estratègia single-sample basada en contigs, usar contigs complets en lloc de gens i testejar el resultat de co-assemblatge múltiple per diverses mostres.ca
dc.format.mimetypeapplication/pdf-
dc.language.isospa-
dc.publisherUniversitat Oberta de Catalunya (UOC)-
dc.rightsCC BY-NC-ND-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/-
dc.subjectmetagenómicaes
dc.subjectmetagenomicsen
dc.subjectmetagenòmicaca
dc.subjectensamblajees
dc.subjectbinninges
dc.subjectassemblatgeca
dc.subjectbinningca
dc.subjectassemblyen
dc.subjectbinningen
dc.subject.lcshBioinformatics -- TFMen
dc.titleEvaluación y comparación de métodos de ensamblaje y binning a partir de datos metagenómicos reales-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelMaster's degreesen
dc.subject.lemacBioinformàtica -- TFMca
dc.subject.lcshesBioinformàtica -- TFMes
dc.contributor.tutorGuillén Montalbán, Yolanda-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
avergaragoTFM0619memoria.pdfMemoria del TFM2,12 MBUnknownVisualizar/Abrir