Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/146007
Título : Minimum sample size estimation in Machine Learning
Autoría: Prol Castelo, Guillermo
Tutor: Mosquera Mayo, Jose Luis
Otros: Ventura, Carles  
Resumen : La estimación n del tamaño mínimo de la muestra es una técnica útiil para producir experimentos rentables y, al mismo tiempo, significativos. Sin embargo, esta estimación no es sencilla en machine learning, donde tenemos una etapa de entrenamiento y otra de prueba. La primera es el objeto de este estudio, ya que establece una relación n entre los datos predictores y los datos predichos. En este proyecto abordamos el problema del machine learning supervisado para la clasificación, considerando varias técnicas de aprendizaje automático (kNN, regresión logística, naive Bayes y random forest), mediante el desarrollo de un algoritmo, basado en metodologías ya existentes, que obtiene una curva de aprendizaje en la que el tamaño del conjunto de entrenamiento es la variable independiente y la variable dependiente es una métrica: la precisión o la κ de Cohen, obtenida en el paso de test. El algoritmo ajusta una ley de potencia inversa a la curva de aprendizaje y resulta eficaz para estimar el tamaño mínimo de la muestra en el paso de entrenamiento para algunos conjuntos de datos y algoritmos de aprendizaje automático. Sin embargo, cuando aumentamos el tamaño muestral en el paso de entrenamiento vemos como la curva de aprendizaje tiende a desviarse de la fórmula de potencia inversa inicial, que aumenta sin parar. Proponemos otras direcciones posibles para mejorar la disminución de la precisión y la κ de Cohen a medida que el tamaño de la muestra supera un umbral. Sin embargo, está claro que existe un "punto optimo" tras el cual aumentar el tamaño de la muestra de entrenamiento no mejora las predicciones.
Palabras clave : cálculo del tamaño de la muestra
aprendizaje automático
comparación de algoritmos
curva de aprendizaje
Tipo de documento: info:eu-repo/semantics/masterThesis
Fecha de publicación : 2-jun-2022
Licencia de publicación: http://creativecommons.org/licenses/by/3.0/es/  
Aparece en las colecciones: Trabajos finales de carrera, trabajos de investigación, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
gprolcasteloTFM0622report.pdf769,94 kBAdobe PDFVista previa
Visualizar/Abrir
Comparte:
Exporta:
Consulta las estadísticas

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons