Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/10609/128606
Títol: Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats
Autoria: Castaño Ribes, Rafel
Director: Ventura, Carles  
Tutor: Kanaan-Izquierdo, Samir  
Resum: CONTEXT: L'objecte d'estudi d'aquest Treball Final de Màster és el control autònom de la locomoció bípeda (biped locomotion) mitjançant la intel·ligència artificial. FINALITAT: Conèixer l'estat de l'art d'aquest camp d'estudi i implementar una solució moderna a aquest problema en un entorn simplificat i simulat per programari. METODOLOGIA: 1) Es descriu amb detall el problema i es relaciona amb la disciplina de l'Aprenentatge (Profund) per Reforç ((Deep) Reinforcement Learning). 2) S'analitzen els fonaments teòrics d'aquesta disciplina i els principals mètodes d'aplicació al problema en qüestió. 3) S'analitza la plataforma OpenAI Gym i els entorns que ofereix; s'accepta com a plataforma sobre la qual desenvolupar el producte. 4) S'analitzen diferents biblioteques disponibles per a DRL i se n'escull una (la TF-Agents). 5) S'escull l'algorisme a implementar (l'algorisme NAF), i es dissenya el producte a desenvolupar. El disseny inclou un conjunt d'eines necessàries per al seu funcionament. Així mateix, es desenvolupa un wrapper per compactar sèries d'observacions de l'entorn, a l'estil de Mnih et al. (2015) amb les DQN contra Atari. 6) S'implementa el producte en Python. RESULTATS: 1) El wrapper implementat té un efecte positiu sobre l'aprenentatge dels agents. 2) L'agent desenvolupat funciona correctament i és capaç de resoldre el problema quan es combina amb el wrapper implementat. CONCLUSIONS: * El DRL és una disciplina complexa, especialment quan l'espai d'accions del problema és continu. * S'ha pogut aproximar una solució al problema mitjançant DRL. * La biblioteca TF-Agents, malgrat en desenvolupament, ha estat molt útil per aprofundir en el coneixement del DRL i llurs components.
Paraules clau: aprenentatge de reforç profund
locomoció bípeda
robòtica simulada
Tipus de document: info:eu-repo/semantics/masterThesis
Data de publicació: 5-gen-2021
Llicència de publicació: http://creativecommons.org/licenses/by-nc-nd/3.0/es/  
Apareix a les col·leccions:Bachelor thesis, research projects, etc.

Arxius per aquest ítem:
Arxiu Descripció MidaFormat 
producte.zip137,07 kBUnknownVeure/Obrir
rcastariTFM0121Presentacio.pdf1,26 MBAdobe PDFThumbnail
Veure/Obrir
videos.zip10,56 MBUnknownVeure/Obrir
rcastariTFM0121memòria.pdfMemòria del TFM2,72 MBAdobe PDFThumbnail
Veure/Obrir
Comparteix:
Exporta:
Consulta les estadístiques

Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons