Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/10609/146007
Títol: Minimum sample size estimation in Machine Learning
Autoria: Prol Castelo, Guillermo
Tutor: Mosquera Mayo, Jose Luis
Altres: Ventura, Carles  
Resum: L'estimació n de la grandària mínima de la mostra és una téccnica útiil per a produir experiments rendibles i, al mateix temps, significatius. No obstant això, aquesta estimació no és senzilla en machine learning, on tenim una etapa d'entrenament i una altra de prova. La primera és l'objecte d'aquest estudi, ja que estableix una relació n entre les dades predictores i les dades predites. En aquest projecte abordem el problema del machine learning supervisat per a la classificació, considerant diverses tècniques d'aprenentatge automàtic (kNN, regressió logística, naive Bayes i random forest), mitjançant el desenvolupament d'un algorisme, basat en metodologies ja existents, que obté una corba d'aprenentatge en la qual la grandària del conjunt d'entrenament és la variable independent i la variable dependent és una mètrica: la precisió o la κ de Cohen, obtinguda en el pas de test. L'algorisme ajusta una llei de potència inversa a la corba d'aprenentatge i resulta eficaç per a estimar la grandària mínima de la mostra en el pas d'entrenament per a alguns conjunts de dades i algorismes d'aprenentatge automàtic. No obstant això, quan augmentem la grandària mostral en el pas d'entrenament veiem com la corba d'aprenentatge tendeix a desviar-se de la fórmula de potència inversa inicial, que augmenta sense parar. Proposem altres direccions possibles per a millorar la disminució de la precisió i la κ de Cohen a mesura que la grandària de la mostra supera un llindar. No obstant això, és clar que existeix un "punt optimo" després del qual augmentar la grandària de la mostra d'entrenament no millora les prediccions.
Paraules clau: càlcul de la grandària de la mostra
aprenentatge automàtic
comparació d'algorismes
corba d'aprenentatge
Tipus de document: info:eu-repo/semantics/masterThesis
Data de publicació: 2-jun-2022
Llicència de publicació: http://creativecommons.org/licenses/by/3.0/es/  
Apareix a les col·leccions:Trabajos finales de carrera, trabajos de investigación, etc.

Arxius per aquest ítem:
Arxiu Descripció MidaFormat 
gprolcasteloTFM0622report.pdf769,94 kBAdobe PDFThumbnail
Veure/Obrir
Comparteix:
Exporta:
Consulta les estadístiques

Aquest ítem està subjecte a una llicència de Creative CommonsLlicència Creative Commons Creative Commons