Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/128606
Título : Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats
Autoría: Castaño Ribes, Rafel
Director: Ventura, Carles  
Tutor: Kanaan-Izquierdo, Samir  
Resumen : CONTEXTO: El objeto de estudio de este Trabajo Final de Máster es el control autónomo de la locomoción bípeda (BIPED Locomotion) mediante la inteligencia artificial. FINALIDAD: Conocer el estado del arte de este campo de estudio e implementar una solución moderna a este problema en un entorno simplificado y simulado por software. METODOLOGÍA: 1) Se describe con detalle el problema y se relaciona con la disciplina del Aprendizaje (Profundo) para Refuerzo ((Deep) Reinforcement Learning). 2) Se analizan los fundamentos teóricos de esta disciplina y los principales métodos de aplicación al problema en cuestión. 3) Se analiza la plataforma Openair Gym y los entornos que ofrece; se acepta como plataforma sobre la que desarrollar el producto. 4) Se analizan diferentes bibliotecas disponibles para DRL y se escoge una (la TF-Agentes). 5) Se escoge el algoritmo a implementar (el algoritmo NAF), y se diseña el producto a desarrollar. El diseño incluye un conjunto de herramientas necesarias para su funcionamiento. Asimismo, se desarrolla un wrapper para compactar series de observaciones del entorno, al estilo de Mnih et al. (2015) con las DQN contra Atari. 6) Se implementa el producto en Python. RESULTADOS: 1) El wrapper implementado tiene un efecto positivo sobre el aprendizaje de los agentes. 2) El agente desarrollado funciona correctamente y es capaz de resolver el problema cuando se combina con el wrapper implementado. CONCLUSIONES: * El DRL es una disciplina compleja, especialmente cuando el espacio de acciones del problema es continuo. * Se ha podido aproximar una solución al problema mediante DRL. * La biblioteca TF-Agentes, a pesar en desarrollo, ha sido muy útil para profundizar en el conocimiento del DRL y sus componentes.
Palabras clave : aprendizaje por refuerzo profundo
locomoción bípeda
robótica simulada
Tipo de documento: info:eu-repo/semantics/masterThesis
Fecha de publicación : 5-ene-2021
Licencia de publicación: http://creativecommons.org/licenses/by-nc-nd/3.0/es/  
Aparece en las colecciones: Bachelor thesis, research projects, etc.

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
producte.zip137,07 kBUnknownVisualizar/Abrir
rcastariTFM0121Presentacio.pdf1,26 MBAdobe PDFVista previa
Visualizar/Abrir
videos.zip10,56 MBUnknownVisualizar/Abrir
rcastariTFM0121memòria.pdfMemòria del TFM2,72 MBAdobe PDFVista previa
Visualizar/Abrir