Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats

Castaño Ribes, Rafel

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/10609/128606

Títol:	Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats
Autoria:	Castaño Ribes, Rafel
Director:	Ventura, Carles
Tutor:	Kanaan-Izquierdo, Samir
Resum:	CONTEXT: L'objecte d'estudi d'aquest Treball Final de Màster és el control autònom de la locomoció bípeda (biped locomotion) mitjançant la intel·ligència artificial. FINALITAT: Conèixer l'estat de l'art d'aquest camp d'estudi i implementar una solució moderna a aquest problema en un entorn simplificat i simulat per programari. METODOLOGIA: 1) Es descriu amb detall el problema i es relaciona amb la disciplina de l'Aprenentatge (Profund) per Reforç ((Deep) Reinforcement Learning). 2) S'analitzen els fonaments teòrics d'aquesta disciplina i els principals mètodes d'aplicació al problema en qüestió. 3) S'analitza la plataforma OpenAI Gym i els entorns que ofereix; s'accepta com a plataforma sobre la qual desenvolupar el producte. 4) S'analitzen diferents biblioteques disponibles per a DRL i se n'escull una (la TF-Agents). 5) S'escull l'algorisme a implementar (l'algorisme NAF), i es dissenya el producte a desenvolupar. El disseny inclou un conjunt d'eines necessàries per al seu funcionament. Així mateix, es desenvolupa un wrapper per compactar sèries d'observacions de l'entorn, a l'estil de Mnih et al. (2015) amb les DQN contra Atari. 6) S'implementa el producte en Python. RESULTATS: 1) El wrapper implementat té un efecte positiu sobre l'aprenentatge dels agents. 2) L'agent desenvolupat funciona correctament i és capaç de resoldre el problema quan es combina amb el wrapper implementat. CONCLUSIONS: * El DRL és una disciplina complexa, especialment quan l'espai d'accions del problema és continu. * S'ha pogut aproximar una solució al problema mitjançant DRL. * La biblioteca TF-Agents, malgrat en desenvolupament, ha estat molt útil per aprofundir en el coneixement del DRL i llurs components.
Paraules clau:	aprenentatge de reforç profund locomoció bípeda robòtica simulada
Tipus de document:	info:eu-repo/semantics/masterThesis
Data de publicació:	5-gen-2021
Llicència de publicació:	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Apareix a les col·leccions:	Bachelor thesis, research projects, etc.

Arxius per aquest ítem:

Arxiu	Descripció	Mida	Format
producte.zip		137,07 kB	Unknown	Veure/Obrir
rcastariTFM0121Presentacio.pdf		1,26 MB	Adobe PDF	Veure/Obrir
videos.zip		10,56 MB	Unknown	Veure/Obrir
rcastariTFM0121memòria.pdf	Memòria del TFM	2,72 MB	Adobe PDF	Veure/Obrir