Predicció dels resultats d'edició genòmica amb CRISPR-Cas9 i base editors a partir de la seqüència de la regió modificada

Expòsit Goy, Marc

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/120447

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Expòsit Goy, Marc	-
dc.contributor.other	Prados Carrasco, Ferran	-
dc.date.accessioned	2020-07-16T08:52:21Z	-
dc.date.available	2020-07-16T08:52:21Z	-
dc.date.issued	2020-06-24	-
dc.identifier.uri	http://hdl.handle.net/10609/120447	-
dc.description.abstract	The potential use of gene editing technologies as therapeutics is limited by the lack of control in the outcomes of gene editing. These outcomes are determined, in part, by the sequence of the edited region. In this work, a machine learning model is used to predict the outcomes of CRISPR-Cas9 gene editing from the sequence of the gRNA. This model could be used to improve gRNA design so that gene editing outcomes are controlled. While previous studies introduce mutations in synthetic target sequences, in this work insertions are done in 1785 unique regions of the genome. Hence, experimental data reflect more closely the conditions in which the techniques would be applied in the clinic. Analyzing the target genomic regions reveals that sequencing coverage is not enough to quantify gene editing outcomes. Hence, these are simulated using previously developed models. Simulated data is treated in the same was as it would be done with experimental data. The gRNA efficiency prediction model is developed as a binary classifier, and logistic regression is the algorithm with the higher accuracy. The predictions are similar between this model and the original model used to simulate the data. The model to predict gene editing outcomes is planned using two different approaches that require further development. In brief, this work defines the steps and develops all the processes needed to go from experimental genomic data to the training of a computational model that predicts gene editing outcomes from the gRNA sequence.	en
dc.description.abstract	L'ús de les tècniques d'edició genòmica com a teràpia està limitat per un control gairebé nul dels productes d'edició genètica. La seqüència de la regió editada determina en gran part les mutacions introduïdes. En aquest treball, s'utilitzen models d'aprenentatge automàtic per predir els productes d'edició genètica de CRISPR-Cas9 a partir de la seqüència del gRNA. Així, es podria fer un disseny intel·ligent de la regió a editar per controlar els productes d'edició genètica, acostant aquestes tècniques a la pràctica clínica. A diferència dels estudis previs, que introdueixen modificacions en seqüències sintètiques, en aquest estudi es realitzen edicions en 1785 regions úniques del genoma. Per tant, les dades experimentals reflecteixen de forma més realista les condicions clíniques. A través de l'anàlisi de les regions genòmiques d'interès per seqüenciació de nova generació es conclou que falta profunditat de seqüenciació per observar edicions genètiques en les dades experimentals. Per això, es simulen les dades a partir de models computacionals ja existents. El model de predicció de l'eficiència es planteja com un classificador binari, i l'algoritme que aconsegueix major exactitud és el logistic regression. Aquest model recrea les eficiències del model utilitzat per simular les dades de forma eficaç. El problema de predicció dels resultats d'edició es planteja en dues aproximacions diferents que cal seguir desenvolupant. En resum, aquest treball planteja l'aproximació que cal seguir i desenvolupa tots els processos necessaris per passar de les dades genòmiques experimentals a l'entrenament d'un model computacional per predir els resultats d'edició genètica a partir de la seqüència.	ca
dc.description.abstract	El uso de las técnicas de edición genómica como terapia está limitado por un control casi nulo de los productos de edición genética. La secuencia de la región editada determina en gran parte las mutaciones introducidas. En este trabajo, se utilizan modelos de aprendizaje automático para predecir los productos de edición genética de CRISPR-Cas9 a partir de la secuencia del gRNA. Así, se podría hacer un diseño inteligente de la región a editar para controlar los productos de edición genética, acercando estas técnicas a la práctica clínica. A diferencia de los estudios previos, que introducen modificaciones en secuencias sintéticas, en este estudio se realizan ediciones en 1785 regiones únicas del genoma. Por lo tanto, los datos experimentales reflejan de forma más realista las condiciones clínicas. A través del análisis de las regiones genómicas de interés por secuenciación de nueva generación se concluye que falta profundidad de secuenciación para observar ediciones genéticas en los datos experimentales. Por eso, se simulan los datos a partir de modelos computacionales ya existentes. El modelo de predicción de la eficiencia se plantea como un clasificador binario, y el algoritmo que consigue mayor exactitud es lo logistic regression. Este modelo recrea las eficiencias del modelo utilizado para simular los datos de forma eficaz. El problema de predicción de los resultados de edición se plantea en dos aproximaciones diferentes que hay que seguir desarrollando. En resumen, este trabajo plantea la aproximación que hay que seguir y desarrolla todos los procesos necesarios para pasar de los datos genómicas experimentales al entrenamiento de un modelo computacional para predecir los resultados de edición genética a partir de la secuencia.	es
dc.format.mimetype	application/pdf	-
dc.language.iso	cat	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	CRISPR gene editing outcomes	en
dc.subject	classification models	en
dc.subject	machine learning	en
dc.subject	resultats de l'edició de gens CRISPR	ca
dc.subject	models de classificació	ca
dc.subject	aprenentatge automàtic	ca
dc.subject	resultados de la edición de genes CRISPR	es
dc.subject	modelos de clasificación	es
dc.subject	aprendizaje automático	es
dc.subject.lcsh	Bioinformatics -- TFM	en
dc.title	Predicció dels resultats d'edició genòmica amb CRISPR-Cas9 i base editors a partir de la seqüència de la regió modificada	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.audience.educationlevel	Estudis de Màster	ca
dc.subject.lemac	Bioinformàtica -- TFM	ca
dc.subject.lcshes	Bioinformática -- TFM	es
dc.contributor.tutor	Pla Planas, Albert	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Trabajos finales de carrera, trabajos de investigación, etc.