Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10609/128606
Título : | Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats |
Autoría: | Castaño Ribes, Rafel |
Director: | Ventura, Carles |
Tutor: | Kanaan-Izquierdo, Samir |
Resumen : | CONTEXTO: El objeto de estudio de este Trabajo Final de Máster es el control autónomo de la locomoción bípeda (BIPED Locomotion) mediante la inteligencia artificial. FINALIDAD: Conocer el estado del arte de este campo de estudio e implementar una solución moderna a este problema en un entorno simplificado y simulado por software. METODOLOGÍA: 1) Se describe con detalle el problema y se relaciona con la disciplina del Aprendizaje (Profundo) para Refuerzo ((Deep) Reinforcement Learning). 2) Se analizan los fundamentos teóricos de esta disciplina y los principales métodos de aplicación al problema en cuestión. 3) Se analiza la plataforma Openair Gym y los entornos que ofrece; se acepta como plataforma sobre la que desarrollar el producto. 4) Se analizan diferentes bibliotecas disponibles para DRL y se escoge una (la TF-Agentes). 5) Se escoge el algoritmo a implementar (el algoritmo NAF), y se diseña el producto a desarrollar. El diseño incluye un conjunto de herramientas necesarias para su funcionamiento. Asimismo, se desarrolla un wrapper para compactar series de observaciones del entorno, al estilo de Mnih et al. (2015) con las DQN contra Atari. 6) Se implementa el producto en Python. RESULTADOS: 1) El wrapper implementado tiene un efecto positivo sobre el aprendizaje de los agentes. 2) El agente desarrollado funciona correctamente y es capaz de resolver el problema cuando se combina con el wrapper implementado. CONCLUSIONES: * El DRL es una disciplina compleja, especialmente cuando el espacio de acciones del problema es continuo. * Se ha podido aproximar una solución al problema mediante DRL. * La biblioteca TF-Agentes, a pesar en desarrollo, ha sido muy útil para profundizar en el conocimiento del DRL y sus componentes. |
Palabras clave : | aprendizaje por refuerzo profundo locomoción bípeda robótica simulada |
Tipo de documento: | info:eu-repo/semantics/masterThesis |
Fecha de publicación : | 5-ene-2021 |
Licencia de publicación: | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Aparece en las colecciones: | Bachelor thesis, research projects, etc. |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
producte.zip | 137,07 kB | Unknown | Visualizar/Abrir | |
rcastariTFM0121Presentacio.pdf | 1,26 MB | Adobe PDF | Visualizar/Abrir | |
videos.zip | 10,56 MB | Unknown | Visualizar/Abrir | |
rcastariTFM0121memòria.pdf | Memòria del TFM | 2,72 MB | Adobe PDF | Visualizar/Abrir |
Comparte:
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons