Integrative learning for heterogeneous blockwise missing omics data

Baena Miret, Sergi

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/10609/145466

Títol:	Integrative learning for heterogeneous blockwise missing omics data
Autoria:	Baena Miret, Sergi
Tutor:	Reverter, Ferran Vegas Lozano, Esteban
Resum:	En moltes ocasions la informació que es pot recopilar no és completa, ja que per a algunes observacions no es disposa de totes les fonts de dades (el que es coneix com a dades perdudes per blocs) per això, la qüestió que es planteja és com es podria implementar un procés integrador amb dades perdudes per blocs basat en una aproximació tipus Lasso que després podria aplicar-se a dades ómicos reals. De fet, en aquest treball es resoldrà un problema de regressió d'optimització que consisteix en un model d'aprenentatge de característiques unificat per a dades heterogènies que manca en bloc (o fins i tot complets) que realitza l'anàlisi a nivell de característica i a nivell de font simultàniament. La novetat d'això, radica en el fet que encara que es pot trobar la formulació i l'optimització teòrica del problema, no s'ha pogut trobar la seva implementació en codi en cap lloc, per la qual cosa ha estat impossible (fins que no s'ha aconseguit implementar-los) donar una avaluació raonable del model. De fet, per a l'avaluació del model (l'estudi de la seva eficàcia i rendiment) es van utilitzar dades sintètiques generades per un model de regressió lineal i dades reals extretes d'un nou projecte de recerca en col·laboració anomenat Human Early-Life Exposome (HELIX). En definitiva, en aquest treball s'ha estudiat un model d'aprenentatge de característiques de dos nivells motivat per les dades del exposoma i s'ha implementat un codi que s'aproxima tant a les dades completes com als que falten en bloc. Específicament, introduint un model d'aprenentatge de característiques unificat per a dades completes, que conté diversos models convexos clàssics que han estat fàcilment estesos per a manejar el cas més desafiador: les dades perdudes per blocs. Al final, s'ha aconseguit presentar un model de regressió d'optimització que, donats les dades completes o els que falten en bloc, ens permet obtenir informació d'ells per a fer prediccions per a dades estructurades similars. En particular, s'ha observat grans resultats per a les dades simulades i resultats bastant bons per a aquestes dades del exposoma.
Paraules clau:	model de regressió d'optimització aprenentatge automàtic dades òhmiques
Tipus de document:	info:eu-repo/semantics/masterThesis
Data de publicació:	2-jun-2022
Llicència de publicació:	http://creativecommons.org/licenses/by/3.0/es/
Apareix a les col·leccions:	Trabajos finales de carrera, trabajos de investigación, etc.