Técnicas de machine learning aplicadas a la búsqueda de biomarcadores de cáncer de mama

Pérez Córdova, Javier

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/127711

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Pérez Córdova, Javier	-
dc.coverage.spatial	Amés	-
dc.date.accessioned	2021-02-02T14:36:39Z	-
dc.date.available	2021-02-02T14:36:39Z	-
dc.date.issued	2021-01	-
dc.identifier.uri	http://hdl.handle.net/10609/127711	-
dc.description.abstract	El cáncer de mama es el cáncer más prominente entre la población femenina con una prevalencia del 16% entre los cánceres femeninos atendiendo a datos de la Organización Mundial de la Salud (1). Aunque está ligado mayoritariamente al mundo desarrollado, las mayores ratios de mortalidad se producen en países en vías de desarrollo (69% de las muertes (1)) Esto se debe a la diferente capacidad para la detección precoz. Partiendo de esta base, en la realización de este trabajo se procederá al estudio de diversas bases de datos con valores antropométricos y valores obtenidos a partir de análisis de sangre como sería el dataset Breast Cancer Coimbra (2). Durante la ejecución se aplica la metodología CRISP-DM (3) para todo el ciclo de minería de datos realizándose un estudio exhaustivo de las diferentes variables, así como una revisión minuciosa de las diferentes técnicas de aprendizaje automático existentes y aquellas ya aplicadas al cribado de cáncer de mama, para la posterior aplicación árboles de decisión, random forest y gradient boosting machines para encontrar aquellas variables que puedan servir como diana en procesos de cribado y detección precoz de cáncer de mama. Finalmente se proporciona para uso clínico una herramienta que ayude en la toma de decisiones partiendo de la aplicación de los mejores modelos obtenidos para cada algoritmo, como un modelo random forest con valor ROC de 79.4%, buscando así la mejora en la adherencia de los facultativos al uso de los conocimientos extraídos del análisis incentivando su confianza en los resultados.	es
dc.description.abstract	Breast cancer is the most prominent cancer in the female population with a prevalence of 16% among all female cancers according to data from the World Health Organization (1). Although it is mainly linked to the ha developed world, the highest mortality rates occur in developing countries (69% of deaths (1)). On this basis, this work will proceed to the study of various databases with anthropometric values and values obtained from blood tests such as the dataset Breast Cancer Coimbra (2). During the execution, the CRISP-DM methodology (3) is applied for the whole cycle of data mining, carrying out an exhaustive study of the different variables, as well as a thorough review of the different existing machine learning techniques and those already to breast cancer screening, for the subsequent application of decision trees, random forest and gradient boosting machines to find those variables that can serve as targets in screening processes and early detection of breast cancer. Finally, a tool is provided for clinical use to help in decision-making based on the application of of the best models obtained for each algorithm, such as a random forest model with a ROC value of 79.4%, thus seeking to improve the adherence of doctors to the use of the knowledge extracted from the analysis and encouraging their confidence in the results.	en
dc.description.abstract	El càncer de mama és el càncer més prominent entre la població femenina amb una prevalença del 16% entre els càncers femenins atenent dades de l'Organització Mundial de la Salut (1). Encara que està lligat majoritàriament al món desenvolupat, les majors ràtios de mortalitat es produeixen en països en vies de desenvolupament (69% de les morts (1)) Això es deu a la diferent capacitat per a la detecció precoç. Partint d'aquesta base, en la realització d'aquest treball es procedirà a l'estudi de diverses bases de dades amb valors antropomètrics i valors obtinguts a partir d'anàlisis de sang com seria el dataset Breast Cancer Coïmbra (2). Durant l'execució s'aplica la metodologia CRISP-DM (3) per a tot el cicle de mineria de dades realitzant-se un estudi exhaustiu de les diferents variables, així com una revisió minuciosa de les diferents tècniques d'aprenentatge automàtic existents i aquelles ja aplicades al garbellat de càncer de mama, per a la posterior aplicació arbres de decisió, random forest i gradient boosting machines per a trobar aquelles variables que puguin servir com a diana en processos de garbellat i detecció precoç de càncer de mama. Finalment es proporciona per a ús clínic una eina que ajudi en la presa de decisions partint de l'aplicació dels millors models obtinguts per a cada algorisme, com un model random forest amb valor ROC de 79.4%, buscant així la millora en l'adherència dels facultatius a l'ús dels coneixements extrets de l'anàlisi incentivant la seva confiança en els resultats.	ca
dc.format.mimetype	application/pdf	-
dc.language.iso	spa	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	cáncer de mama	es
dc.subject	breast cancer	en
dc.subject	aprenentatge automàtic	ca
dc.subject	aprendizaje automático	es
dc.subject	machine learning	en
dc.subject	mineria de dades	ca
dc.subject	minería de datos	es
dc.subject	data mining	en
dc.subject	càncer de mama	ca
dc.subject.lcsh	Data mining -- TFM	en
dc.title	Técnicas de machine learning aplicadas a la búsqueda de biomarcadores de cáncer de mama	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.audience.educationlevel	Estudis de Màster	ca
dc.subject.lemac	Mineria de dades -- TFM	ca
dc.subject.lcshes	Minería de datos -- TFM	es
dc.contributor.director	Rius, Àngels	-
dc.contributor.tutor	Iglesias Allones, Jose Luis	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Bachelor thesis, research projects, etc.