Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/91506
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorColmenarejo Sánchez, Gonzalo-
dc.contributor.otherSánchez-Pla, Alex-
dc.date.accessioned2019-02-08T11:29:43Z-
dc.date.available2019-02-08T11:29:43Z-
dc.date.issued2018-12-31-
dc.identifier.urihttp://hdl.handle.net/10609/91506-
dc.description.abstractThe recent semisupervised variational autoencoder (SSVAE) of Kang & Chao (2018, J. Chem. Inf. Model., Article ASAP DOI: 10.1021/acs.jcim.8b00263) has been analyzed and optimized as Deep Learning inverse QSAR model for conditional molecular design. The aim is to characterize the output of the model (correctness, diversity and novelty, properties distribution) based on different factors: size and diversity of the training set, size of output, type of molecules (drug-like vs natural products) and conditioning properties (MWt, logP and QED vs TPSA, MR and LASA). TensorFlow has been used for the simulations and RDKit and chemfp as chemoinformatic libraries. The model, in its unconditioned mode, generates sets of molecules with high diversity (measured as number of unique molecules, number of clusters, and number of frameworks) and relatively low novelty (measured as percentage of molecules with no analogs, and percentage of new frameworks), while in the conditioned mode the diversity decreases and the novelty increases. Correction is slightly higher in the conditioned mode, but always showing very high values (>90%). Diversity increases with the size of the output set (at a lower rate in conditioned mode), and is not dependent on the size of the training set. Novelty decreases with the size of the training set, and increases with that of the output set. Both diversity and novelty increase with the intensive diversity of the training set. Moreover, the SSVAE has been modified to generate natural products and conditioned analogs (via multiobjective conditioning) thus extending the original molecular design capabilities of the model.en
dc.description.abstractSe ha analizado y optimizado el reciente autoencoder variacional semisupervisado (SSVAE) de Kang y Chao (2018, J. Chem. Inf. Model., Article ASAP DOI: 10.1021/acs.jcim.8b00263) como modelo de Deep Learning de QSAR inverso para diseño molecular condicionado. El objetivo es caracterizar el output del modelo (corrección, diversidad y novedad, distribución de propiedades) en función de distintos factores: tamaño y diversidad del conjunto de entrenamiento, tamaño del output, tipo de conjunto de moléculas (drug-like vs productos naturales), y propiedades de condicionamiento (MWt, logP y QED vs TPSA, MR y LASA). Se ha utilizado TensorFlow en las simulaciones y RDKit y chemfp como librerías quimioinformáticas. El modelo, en su modo incondicionado, genera colecciones de moléculas con alta diversidad (medida como moléculas únicas, número de clusters y número de frameworks) y relativamente baja novedad (medida como porcentaje de moléculas sin análogos y porcentaje de frameworks nuevos), disminuyendo la diversidad y aumentando la novedad en el condicionado. La corrección aumenta en el modo condicionado, siendo siempre muy alta (> 90%). La diversidad aumenta con el tamaño del conjunto de output, más lentamente en las moléculas condicionadas, y no depende del tamaño del conjunto de entrenamiento. La novedad disminuye significativamente con el tamaño del conjunto de entrenamiento, y aumenta con el del conjunto de output. La diversidad y novedad aumentan con la diversidad intensiva del conjunto de entrenamiento. Además, se ha modificado el SSVAE para generar con éxito tanto productos naturales como análogos condicionados, vía condicionamiento multiobjetivo, extendiendo las capacidades originales del SSVAE para diseño molecular.es
dc.description.abstractS'ha analitzat i optimitzat el recent autoencoder variacional semisupervisado (SSVAE) de Kang i Chao (2018, J. Chem. Inf. Model., Article ASAP DOI: 10.1021 / acs.jcim.8b00263) com a model de Deep Learning de QSAR invers per disseny molecular condicionat. L'objectiu és caracteritzar l'output del model (correcció, diversitat i novetat, distribució de propietats) en funció de diferents factors: mida i diversitat del conjunt d'entrenament, mida de l'output, tipus de conjunt de molècules (drug-like vs productes naturals) , i propietats de condicionament (MWt, logP i QED vs TPSA, MR i LASA). S'ha utilitzat TensorFlow en les simulacions i RDKit i chemfp com llibreries quimioinformàtiques. El model, en la seva manera incondicionat, genera col·leccions de molècules amb alta diversitat (mesura com a molècules úniques, nombre de clústers i nombre de frameworks) i relativament baixa novetat (mesura com a percentatge de molècules sense anàlegs i percentatge de frameworks nous), disminuint la diversitat i augmentant la novetat en el condicionat. La correcció augmenta en la manera condicionat, sent sempre molt alta (> 90%). La diversitat augmenta amb la mida del conjunt d'output, més lentament en les molècules condicionades, i no depèn de la mida del conjunt d'entrenament. La novetat disminueix significativament amb la mida del conjunt d'entrenament, i augmenta amb el del conjunt d'output. La diversitat i novetat augmenten amb la diversitat intensiva del conjunt d'entrenament. A més, s'ha modificat el SSVAE per generar amb èxit tant productes naturals com anàlegs condicionats, via condicionament multiobjectiu, estenent les capacitats originals del SSVAE per a disseny molecular.ca
dc.format.mimetypeapplication/pdf-
dc.language.isospa-
dc.publisherUniversitat Oberta de Catalunya (UOC)-
dc.rightsCC BY-NC-ND-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/-
dc.subjectdeep learningen
dc.subjectaprendizaje profundoes
dc.subjectaprenentatge profundca
dc.subjectmolecular designen
dc.subjectdiseño moleculares
dc.subjectdisseny molecularca
dc.subjectautoencoder variacionalca
dc.subjectvariational autoencoderen
dc.subjectautoencoder variacionales
dc.titleAnálisis y optimización de un autoencoder variacional semisupervisado para diseño molecular condicionado-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelMaster's degreesen
dc.subject.lemacBioinformàtica -- TFMca
dc.subject.lcshesBioinformática -- TFMes
dc.contributor.tutorVegas Lozano, Esteban-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  

PresentaTFMGonzaloColmenarejoUOC.mp4

Presentación del TFM216,65 MBMP4Visualizar/Abrir
gcolmenarejoTFM1218memoria.pdfMemoria del TFM2,23 MBAdobe PDFVista previa
Visualizar/Abrir