Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats

Castaño Ribes, Rafel

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/128606

Título :	Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats
Autoría:	Castaño Ribes, Rafel
Director:	Ventura, Carles
Tutor:	Kanaan-Izquierdo, Samir
Resumen :	CONTEXTO: El objeto de estudio de este Trabajo Final de Máster es el control autónomo de la locomoción bípeda (BIPED Locomotion) mediante la inteligencia artificial. FINALIDAD: Conocer el estado del arte de este campo de estudio e implementar una solución moderna a este problema en un entorno simplificado y simulado por software. METODOLOGÍA: 1) Se describe con detalle el problema y se relaciona con la disciplina del Aprendizaje (Profundo) para Refuerzo ((Deep) Reinforcement Learning). 2) Se analizan los fundamentos teóricos de esta disciplina y los principales métodos de aplicación al problema en cuestión. 3) Se analiza la plataforma Openair Gym y los entornos que ofrece; se acepta como plataforma sobre la que desarrollar el producto. 4) Se analizan diferentes bibliotecas disponibles para DRL y se escoge una (la TF-Agentes). 5) Se escoge el algoritmo a implementar (el algoritmo NAF), y se diseña el producto a desarrollar. El diseño incluye un conjunto de herramientas necesarias para su funcionamiento. Asimismo, se desarrolla un wrapper para compactar series de observaciones del entorno, al estilo de Mnih et al. (2015) con las DQN contra Atari. 6) Se implementa el producto en Python. RESULTADOS: 1) El wrapper implementado tiene un efecto positivo sobre el aprendizaje de los agentes. 2) El agente desarrollado funciona correctamente y es capaz de resolver el problema cuando se combina con el wrapper implementado. CONCLUSIONES: * El DRL es una disciplina compleja, especialmente cuando el espacio de acciones del problema es continuo. * Se ha podido aproximar una solución al problema mediante DRL. * La biblioteca TF-Agentes, a pesar en desarrollo, ha sido muy útil para profundizar en el conocimiento del DRL y sus componentes.
Palabras clave :	aprendizaje por refuerzo profundo locomoción bípeda robótica simulada
Tipo de documento:	info:eu-repo/semantics/masterThesis
Fecha de publicación :	5-ene-2021
Licencia de publicación:	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Aparece en las colecciones:	Bachelor thesis, research projects, etc.

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
producte.zip		137,07 kB	Unknown	Visualizar/Abrir
rcastariTFM0121Presentacio.pdf		1,26 MB	Adobe PDF	Visualizar/Abrir
videos.zip		10,56 MB	Unknown	Visualizar/Abrir
rcastariTFM0121memòria.pdf	Memòria del TFM	2,72 MB	Adobe PDF	Visualizar/Abrir