Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/109166
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorPérez López, Carlos-
dc.contributor.otherCanovas Izquierdo, Javier Luis-
dc.date.accessioned2020-02-05T09:39:47Z-
dc.date.available2020-02-05T09:39:47Z-
dc.date.issued2020-01-08-
dc.identifier.urihttp://hdl.handle.net/10609/109166-
dc.description.abstractLa enfermedad del Alzheimer (EA) es una enfermedad neurodegenerativa que afecta a una gran cantidad de personas en la actualidad. Todavía se está trabajando en multitud de terapias, sin embargo, los estudios para la elaboración de nuevos medicamentos, son procesos muy costosos; por lo que se está recurriendo a técnicas computacionales de machine learning para abaratar costes. En este trabajo se van a entrenar modelos de machine learning para intentar predecir si dos proteínas interaccionan o no. Para ello, se recogen datos de proteínas que intervienen en el proceso de la EA y se estudia que proteínas interaccionan con ellas (PPIs); por otra parte, también se recogen datos de los repositorios de Intact y Negatome sobre proteínas que se tienen pruebas experimentales de que no interaccionan (nPPIs); también, se emparejan proteínas al azar de Uniprot y se asume que son nPPIs. A partir de estas bases de datos, se obtienen las estructuras primarias de las proteínas y se generan características en forma de datos cuantitativos empleando las metodologías de Composición de aminoácidos (AAC), Composición de dipéptidos (DPC), Composición/Transición/Distribución (CTD) y Composición de pseudoaminoácidos (PAAC). Para elaborar los modelos, a partir de estas características, se emplean los algoritmos Support Vector Machine (SVM) y Random Forest (RF). Finalmente se obtiene que el modelo generado mediante SVM, empleando AAC y empleando la base de datos de Uniprot como fuente de nPPIs es el que mayor capacidad de predicción y robustez presenta.es
dc.description.abstractAlzheimer's disease (AD) is a neurodegenerative disease that affects a large number of people at this time. Nowadays, numerous therapies are being used to treat it. However, studies on the development of new medications turn out to be expensive processes; therefore, machine learning techniques are being used to reduce costs. In this thesis, machine learning models will be trained to try to predict whether two proteins interact or not. In order to do this, protein data involved in the AD process are collected, and it is then studied which proteins interact with them (PPIs). Data are also collected from the Intact and Negatome repositories on proteins that have experimental evidence showing that they don't have interactions (nPPIs); while random proteins from Uniprot are paired and assumed to be nPPIs. Drawing from these databases, the primary structures of the proteins are obtained and characteristics are generated in the form of quantitative data using the methodologies of Amino Acid Composition (AAC), Dipeptide Composition (DPC), Composition / Transition / Distribution (CTD) and Composition of pseudo-amino acids (PAAC). To develop the models, based on these characteristics, the algorithms Support Vector Machine (SVM) and Random Forest (RF) are used. Ultimately, it is shown that the model generated by SVM, using AAC and using the Uniprot database as a source of nPPIs, is the one with the greatest prediction and robustness.en
dc.description.abstractLa malaltia de l'Alzheimer (EA) és una malaltia neurodegenerativa que afecta una gran quantitat de persones en l'actualitat. Encara s'està treballant en multitud de teràpies, no obstant això, els estudis per a l'elaboració de nous medicaments, són processos molt costosos; pel que s'està recorrent a tècniques computacionals de machine learning per a abaratir costos. En aquest treball s'entrenaran models de machine learning per a intentar predir si dues proteïnes interaccionen o no. Per a això, es recullen dades de proteïnes que intervenen en el procés de l'EA i s'estudia que proteïnes interaccionen amb elles (PPIs); d'altra banda, també es recullen dades dels repositoris de Intact i Negatome sobre proteïnes que es tenen proves experimentals que no interaccionen (nPPIs); també, s'aparellen proteïnes a l'atzar de Uniprot i s'assumeix que són nPPIs. A partir d'aquestes bases de dades, s'obtenen les estructures primàries de les proteïnes i es generen característiques en forma de dades quantitatives emprant les metodologies de Composició d'aminoàcids (AAC), Composició de dipéptids (DPC), Composició/Transició/Distribució (CTD) i Composició de pseudoaminoácids (PAAC). Per a elaborar els models, a partir d'aquestes característiques, s'empren els algorismes Support Vector Machine (SVM) i Random Forest (RF). Finalment s'obté que el model generat mitjançant SVM, emprant AAC i emprant la base de dades de Uniprot com a font de nPPIs és el que major capacitat de predicció i robustesa presenta.ca
dc.format.mimetypeapplication/pdf-
dc.language.isospa-
dc.publisherUniversitat Oberta de Catalunya (UOC)-
dc.rightsCC BY-NC-ND-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/-
dc.subjectsupport vector machinees
dc.subjectrandom forestes
dc.subjectrandom forestca
dc.subjectrandom foresten
dc.subjectinteracción entre proteínases
dc.subjectinteracció entre proteïnesca
dc.subjectprotein interactionen
dc.subjectmáquinas de vectores de soportees
dc.subjectmàquines de vectors de suportca
dc.subject.lcshBioinformatics -- TFMen
dc.titlePredicción de la interacción de proteínas relacionadas con el Alzheimer a partir de su estructura primaria-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelMaster's degreesen
dc.subject.lemacBioinformàtica -- TFMca
dc.subject.lcshesBioinformática -- TFMes
dc.contributor.tutorSanchez-Martinez, Melchor-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
cperezlopezTFM0120memoria.pdfMemoria del TFM619,82 kBAdobe PDFVista previa
Visualizar/Abrir