Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/146007
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorProl Castelo, Guillermo-
dc.contributor.otherVentura, Carles-
dc.coverage.spatialO Grove-
dc.date.accessioned2022-06-30T09:51:35Z-
dc.date.available2022-06-30T09:51:35Z-
dc.date.issued2022-06-02-
dc.identifier.urihttp://hdl.handle.net/10609/146007-
dc.description.abstractMinimum sample size estimation is a useful technique to produce cost-effective and, at the same time, significant experiments. However, this estimation is not straightforward in machine learning, where we have a training and a testing step. The former is the object of this study, as it establishes a relationship between the predictor and predicted data. In this project we tackle the supervised machine learning problem for classification, considering several machine learning techniques (kNN, logistic regression, naive Bayes, and random forest), by developing an algorithm, based on already-existing methodologies, that obtains a learning curve where the training set size is the independent variable and the dependent variable is a metric: either accuracy or Cohen's , obtained in the testing step. The algorithm fits an inverse power law to the learning curve and proves effective in estimating minimum sample size in the training step for some datasets and machine learning algorithms. However, when we increase the number of different training sizes we see the tendency of the learning curve to deviate from the ever-increasing initial inverse power formula. We propose other possible directions to improve the decrease in accuracy and Cohen's " as the sample size surpasses a threshold. However, it is clear that there is a "sweet spot" where increasing the training sample size does not improve predictions further.en
dc.description.abstractLa estimación n del tamaño mínimo de la muestra es una técnica útiil para producir experimentos rentables y, al mismo tiempo, significativos. Sin embargo, esta estimación no es sencilla en machine learning, donde tenemos una etapa de entrenamiento y otra de prueba. La primera es el objeto de este estudio, ya que establece una relación n entre los datos predictores y los datos predichos. En este proyecto abordamos el problema del machine learning supervisado para la clasificación, considerando varias técnicas de aprendizaje automático (kNN, regresión logística, naive Bayes y random forest), mediante el desarrollo de un algoritmo, basado en metodologías ya existentes, que obtiene una curva de aprendizaje en la que el tamaño del conjunto de entrenamiento es la variable independiente y la variable dependiente es una métrica: la precisión o la κ de Cohen, obtenida en el paso de test. El algoritmo ajusta una ley de potencia inversa a la curva de aprendizaje y resulta eficaz para estimar el tamaño mínimo de la muestra en el paso de entrenamiento para algunos conjuntos de datos y algoritmos de aprendizaje automático. Sin embargo, cuando aumentamos el tamaño muestral en el paso de entrenamiento vemos como la curva de aprendizaje tiende a desviarse de la fórmula de potencia inversa inicial, que aumenta sin parar. Proponemos otras direcciones posibles para mejorar la disminución de la precisión y la κ de Cohen a medida que el tamaño de la muestra supera un umbral. Sin embargo, está claro que existe un "punto optimo" tras el cual aumentar el tamaño de la muestra de entrenamiento no mejora las predicciones.es
dc.description.abstractL'estimació n de la grandària mínima de la mostra és una téccnica útiil per a produir experiments rendibles i, al mateix temps, significatius. No obstant això, aquesta estimació no és senzilla en machine learning, on tenim una etapa d'entrenament i una altra de prova. La primera és l'objecte d'aquest estudi, ja que estableix una relació n entre les dades predictores i les dades predites. En aquest projecte abordem el problema del machine learning supervisat per a la classificació, considerant diverses tècniques d'aprenentatge automàtic (kNN, regressió logística, naive Bayes i random forest), mitjançant el desenvolupament d'un algorisme, basat en metodologies ja existents, que obté una corba d'aprenentatge en la qual la grandària del conjunt d'entrenament és la variable independent i la variable dependent és una mètrica: la precisió o la κ de Cohen, obtinguda en el pas de test. L'algorisme ajusta una llei de potència inversa a la corba d'aprenentatge i resulta eficaç per a estimar la grandària mínima de la mostra en el pas d'entrenament per a alguns conjunts de dades i algorismes d'aprenentatge automàtic. No obstant això, quan augmentem la grandària mostral en el pas d'entrenament veiem com la corba d'aprenentatge tendeix a desviar-se de la fórmula de potència inversa inicial, que augmenta sense parar. Proposem altres direccions possibles per a millorar la disminució de la precisió i la κ de Cohen a mesura que la grandària de la mostra supera un llindar. No obstant això, és clar que existeix un "punt optimo" després del qual augmentar la grandària de la mostra d'entrenament no millora les prediccions.ca
dc.format.mimetypeapplication/pdf-
dc.language.isoeng-
dc.publisherUniversitat Oberta de Catalunya (UOC)-
dc.rightsCC BY*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/es/-
dc.subjectsample size estimationen
dc.subjectmachine learningen
dc.subjectcomparison of algorithmsen
dc.subjectlearning curveen
dc.subjectcálculo del tamaño de la muestraes
dc.subjectcàlcul de la grandària de la mostraca
dc.subjectaprendizaje automáticoes
dc.subjectaprenentatge automàticca
dc.subjectcomparación de algoritmoses
dc.subjectcomparació d'algorismesca
dc.subjectcurva de aprendizajees
dc.subjectcorba d'aprenentatgeca
dc.subject.lcshBioinformatics -- TFMen
dc.titleMinimum sample size estimation in Machine Learning-
dc.typeinfo:eu-repo/semantics/masterThesis-
dc.audience.educationlevelEstudis de Màsterca
dc.audience.educationlevelEstudios de Másteres
dc.audience.educationlevelMaster's degreesen
dc.subject.lemacBioinformàtica -- TFMca
dc.subject.lcshesBioinformática -- TFMes
dc.contributor.tutorMosquera Mayo, Jose Luis-
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
gprolcasteloTFM0622report.pdf769,94 kBAdobe PDFVista previa
Visualizar/Abrir
Comparte:
Exporta:
Consulta las estadísticas

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons