Empreu aquest identificador per citar o enllaçar aquest ítem:
http://hdl.handle.net/10609/128606
Títol: | Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats |
Autoria: | Castaño Ribes, Rafel |
Director: | Ventura, Carles |
Tutor: | Kanaan-Izquierdo, Samir |
Resum: | CONTEXT: L'objecte d'estudi d'aquest Treball Final de Màster és el control autònom de la locomoció bípeda (biped locomotion) mitjançant la intel·ligència artificial. FINALITAT: Conèixer l'estat de l'art d'aquest camp d'estudi i implementar una solució moderna a aquest problema en un entorn simplificat i simulat per programari. METODOLOGIA: 1) Es descriu amb detall el problema i es relaciona amb la disciplina de l'Aprenentatge (Profund) per Reforç ((Deep) Reinforcement Learning). 2) S'analitzen els fonaments teòrics d'aquesta disciplina i els principals mètodes d'aplicació al problema en qüestió. 3) S'analitza la plataforma OpenAI Gym i els entorns que ofereix; s'accepta com a plataforma sobre la qual desenvolupar el producte. 4) S'analitzen diferents biblioteques disponibles per a DRL i se n'escull una (la TF-Agents). 5) S'escull l'algorisme a implementar (l'algorisme NAF), i es dissenya el producte a desenvolupar. El disseny inclou un conjunt d'eines necessàries per al seu funcionament. Així mateix, es desenvolupa un wrapper per compactar sèries d'observacions de l'entorn, a l'estil de Mnih et al. (2015) amb les DQN contra Atari. 6) S'implementa el producte en Python. RESULTATS: 1) El wrapper implementat té un efecte positiu sobre l'aprenentatge dels agents. 2) L'agent desenvolupat funciona correctament i és capaç de resoldre el problema quan es combina amb el wrapper implementat. CONCLUSIONS: * El DRL és una disciplina complexa, especialment quan l'espai d'accions del problema és continu. * S'ha pogut aproximar una solució al problema mitjançant DRL. * La biblioteca TF-Agents, malgrat en desenvolupament, ha estat molt útil per aprofundir en el coneixement del DRL i llurs components. |
Paraules clau: | aprenentatge de reforç profund locomoció bípeda robòtica simulada |
Tipus de document: | info:eu-repo/semantics/masterThesis |
Data de publicació: | 5-gen-2021 |
Llicència de publicació: | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Apareix a les col·leccions: | Bachelor thesis, research projects, etc. |
Arxius per aquest ítem:
Arxiu | Descripció | Mida | Format | |
---|---|---|---|---|
producte.zip | 137,07 kB | Unknown | Veure/Obrir | |
rcastariTFM0121Presentacio.pdf | 1,26 MB | Adobe PDF | Veure/Obrir | |
videos.zip | 10,56 MB | Unknown | Veure/Obrir | |
rcastariTFM0121memòria.pdf | Memòria del TFM | 2,72 MB | Adobe PDF | Veure/Obrir |
Comparteix:
Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons