Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/145466
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorBaena Miret, Sergi-
dc.coverage.spatialBarcelona, ESP-
dc.date.accessioned2022-06-22T05:42:00Z-
dc.date.available2022-06-22T05:42:00Z-
dc.date.issued2022-06-02-
dc.identifier.urihttp://hdl.handle.net/10609/145466-
dc.description.abstractOn many occasions the information that one can gather is not complete, since for some observations not all data sources are available (what is known as block-wise missing data) so the question that arises is how we could implement an integrative process with block-wise missing data based on a Lasso's type approximation that then could be applied to real omics data. Indeed, in this thesis we will solve an optimization regression problem consisting on a unified feature learning model for heterogeneous block-wise missing (or even complete) data that performs both feature-level and source-level analysis simultaneously. The novelty on this thesis relies on that although one can find the formulation and the theoretical optimization of the problem, we have not been able to find its code implementation anywhere, so it has been impossible for us (until we have succeed implementing them) to give a reasonable evaluation of the model. Indeed, for the evaluation of the model (the study of its effectiveness and performance) we will use synthetic data generated by a linear regression model and real data drawn from a new collaborative research project called the Human Early-Life Exposome (HELIX). All in all, in this manuscript we have studied a bi-level feature learning model motivated by the exposome data and we have implemented a code that approaches for both complete and block-wise missing data. Specifically, we have introduced a unified feature learning model for complete data, which contains several classical convex models that has been easily extended to handling the more challenging case: the block-wise missing data. At the end we have succeed in presenting an optimization regression model that given complete or block-wise missing data, we can obtain information from it in order to make predictions for similar structured data. In particular, we have observed great results for the simulated data and quite good results for this exposome data.en
dc.description.abstractEn muchas ocasiones la información que se puede recopilar no es completa, ya que para algunas observaciones no se dispone de todas las fuentes de datos (lo que se conoce como datos perdidos por bloques) por ello, la cuestión que se plantea es cómo se podría implementar un proceso integrador con datos perdidos por bloques basado en una aproximación tipo Lasso que luego podría aplicarse a datos ómicos reales. De hecho, en este trabajo se resolverá un problema de regresión de optimización que consiste en un modelo de aprendizaje de características unificado para datos heterogéneos faltantes en bloque (o incluso completos) que realiza el análisis a nivel de característica y a nivel de fuente simultáneamente. La novedad de esto, radica en que aunque se puede encontrar la formulación y la optimización teórica del problema, no se ha podido encontrar su implementación en código en ningún sitio, por lo que ha sido imposible (hasta que no se ha conseguido implementarlos) dar una evaluación razonable del modelo. De hecho, para la evaluación del modelo (el estudio de su eficacia y rendimiento) se utilizaron datos sintéticos generados por un modelo de regresión lineal y datos reales extraídos de un nuevo proyecto de investigación en colaboración llamado Human Early-Life Exposome (HELIX). En definitiva, en este trabajo se ha estudiado un modelo de aprendizaje de características de dos niveles motivado por los datos del exposoma y se ha implementado un código que se aproxima tanto a los datos completos como a los que faltan en bloque. Específicamente, introduciendo un modelo de aprendizaje de características unificado para datos completos, que contiene varios modelos convexos clásicos que han sido fácilmente extendidos para manejar el caso más desafiante: los datos perdidos por bloques. Al final, se ha conseguido presentar un modelo de regresión de optimización que, dados los datos completos o los que faltan en bloque, nos permite obtener información de ellos para hacer predicciones para datos estructurados similares. En particular, se ha observado grandes resultados para los datos simulados y resultados bastante buenos para estos datos del exposoma.es
dc.description.abstractEn moltes ocasions la informació que es pot recopilar no és completa, ja que per a algunes observacions no es disposa de totes les fonts de dades (el que es coneix com a dades perdudes per blocs) per això, la qüestió que es planteja és com es podria implementar un procés integrador amb dades perdudes per blocs basat en una aproximació tipus Lasso que després podria aplicar-se a dades ómicos reals. De fet, en aquest treball es resoldrà un problema de regressió d'optimització que consisteix en un model d'aprenentatge de característiques unificat per a dades heterogènies que manca en bloc (o fins i tot complets) que realitza l'anàlisi a nivell de característica i a nivell de font simultàniament. La novetat d'això, radica en el fet que encara que es pot trobar la formulació i l'optimització teòrica del problema, no s'ha pogut trobar la seva implementació en codi en cap lloc, per la qual cosa ha estat impossible (fins que no s'ha aconseguit implementar-los) donar una avaluació raonable del model. De fet, per a l'avaluació del model (l'estudi de la seva eficàcia i rendiment) es van utilitzar dades sintètiques generades per un model de regressió lineal i dades reals extretes d'un nou projecte de recerca en col·laboració anomenat Human Early-Life Exposome (HELIX). En definitiva, en aquest treball s'ha estudiat un model d'aprenentatge de característiques de dos nivells motivat per les dades del exposoma i s'ha implementat un codi que s'aproxima tant a les dades completes com als que falten en bloc. Específicament, introduint un model d'aprenentatge de característiques unificat per a dades completes, que conté diversos models convexos clàssics que han estat fàcilment estesos per a manejar el cas més desafiador: les dades perdudes per blocs. Al final, s'ha aconseguit presentar un model de regressió d'optimització que, donats les dades completes o els que falten en bloc, ens permet obtenir informació d'ells per a fer prediccions per a dades estructurades similars. En particular, s'ha observat grans resultats per a les dades simulades i resultats bastant bons per a aquestes dades del exposoma.ca
dc.format.mimetypeapplication/pdf-
dc.language.isoeng-
dc.rightsCC BY-
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/es/-
dc.subjectmodel de regressió d'optimitzacióca
dc.subjectaprenentatge automàticca
dc.subjectdades òhmiquesca
dc.subjectmodelo de regresión de optimizaciónes
dc.subjectaprendizaje automáticoes
dc.subjectdatos óhmicoses
dc.subjectoptimization regression modelen
dc.subjectmachine learningen
dc.subjectomics dataen
dc.subject.lcshBioinformatic -- TFMen
dc.titleIntegrative learning for heterogeneous blockwise missing omics data-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelMaster's degreesen
dc.subject.lemacBioinformàtica -- TFMca
dc.subject.lcshesBioinformática -- TFMes
dc.contributor.tutorReverter, Ferran-
dc.contributor.tutorVegas Lozano, Esteban-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
sbaenamFMDP0622report.pdfReport of TFM4,14 MBAdobe PDFVista previa
Visualizar/Abrir