Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats

Castaño Ribes, Rafel

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/128606

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Castaño Ribes, Rafel	-
dc.coverage.spatial	Lleida, ESP	-
dc.date.accessioned	2021-02-22T22:04:14Z	-
dc.date.available	2021-02-22T22:04:14Z	-
dc.date.issued	2021-01-05	-
dc.identifier.uri	http://hdl.handle.net/10609/128606	-
dc.description.abstract	CONTEXT: L'objecte d'estudi d'aquest Treball Final de Màster és el control autònom de la locomoció bípeda (biped locomotion) mitjançant la intel·ligència artificial. FINALITAT: Conèixer l'estat de l'art d'aquest camp d'estudi i implementar una solució moderna a aquest problema en un entorn simplificat i simulat per programari. METODOLOGIA: 1) Es descriu amb detall el problema i es relaciona amb la disciplina de l'Aprenentatge (Profund) per Reforç ((Deep) Reinforcement Learning). 2) S'analitzen els fonaments teòrics d'aquesta disciplina i els principals mètodes d'aplicació al problema en qüestió. 3) S'analitza la plataforma OpenAI Gym i els entorns que ofereix; s'accepta com a plataforma sobre la qual desenvolupar el producte. 4) S'analitzen diferents biblioteques disponibles per a DRL i se n'escull una (la TF-Agents). 5) S'escull l'algorisme a implementar (l'algorisme NAF), i es dissenya el producte a desenvolupar. El disseny inclou un conjunt d'eines necessàries per al seu funcionament. Així mateix, es desenvolupa un wrapper per compactar sèries d'observacions de l'entorn, a l'estil de Mnih et al. (2015) amb les DQN contra Atari. 6) S'implementa el producte en Python. RESULTATS: 1) El wrapper implementat té un efecte positiu sobre l'aprenentatge dels agents. 2) L'agent desenvolupat funciona correctament i és capaç de resoldre el problema quan es combina amb el wrapper implementat. CONCLUSIONS: * El DRL és una disciplina complexa, especialment quan l'espai d'accions del problema és continu. * S'ha pogut aproximar una solució al problema mitjançant DRL. * La biblioteca TF-Agents, malgrat en desenvolupament, ha estat molt útil per aprofundir en el coneixement del DRL i llurs components.	ca
dc.description.abstract	CONTEXT: The subject of this Master's Thesis is the autonomous control of biped locomotion by means of artificial intelligence. PURPOSE: To know the state of the art of this field and to implement a modern solution to this problem in a simplified software-simulated environment. METHODOLOGY: 1) The problem is described in detail and related to the (Deep) Reinforcement Learning (DRL) field. 2) Theoretical foundations of DRL and its main methods applicable are analyzed. 3) The OpenAI Gym platform and its environments are analyzed; They are accepted as the platform on which to develop the product. 4) Different libraries available for DRL are analyzed and one is chosen (the TF-Agents library). 5) The algorithm to be implemented is chosen (the NAF algorithm), and the product to be developed is designed. The design includes a set of tools needed for its operation. A wrapper is also developed to compact series of observations of the environment, based on Mnih et al. (2015) in their DQN vs Atari experiment. 6) The designed product is implemented in Python. RESULTS: 1) The implemented wrapper has a positive effect on the learning of the agents. 2) The developed agent works properly and is able to solve the problem when combined with the wrapper. CONCLUSIONS: * DRL is a complex discipline, especially when the action space of the problem is continuous. * The problem can be approximatedly solved using DRL. * The TF-Agents library, although under development, has been very useful in deepening in the knowledge of DRL and its components.	en
dc.description.abstract	CONTEXTO: El objeto de estudio de este Trabajo Final de Máster es el control autónomo de la locomoción bípeda (BIPED Locomotion) mediante la inteligencia artificial. FINALIDAD: Conocer el estado del arte de este campo de estudio e implementar una solución moderna a este problema en un entorno simplificado y simulado por software. METODOLOGÍA: 1) Se describe con detalle el problema y se relaciona con la disciplina del Aprendizaje (Profundo) para Refuerzo ((Deep) Reinforcement Learning). 2) Se analizan los fundamentos teóricos de esta disciplina y los principales métodos de aplicación al problema en cuestión. 3) Se analiza la plataforma Openair Gym y los entornos que ofrece; se acepta como plataforma sobre la que desarrollar el producto. 4) Se analizan diferentes bibliotecas disponibles para DRL y se escoge una (la TF-Agentes). 5) Se escoge el algoritmo a implementar (el algoritmo NAF), y se diseña el producto a desarrollar. El diseño incluye un conjunto de herramientas necesarias para su funcionamiento. Asimismo, se desarrolla un wrapper para compactar series de observaciones del entorno, al estilo de Mnih et al. (2015) con las DQN contra Atari. 6) Se implementa el producto en Python. RESULTADOS: 1) El wrapper implementado tiene un efecto positivo sobre el aprendizaje de los agentes. 2) El agente desarrollado funciona correctamente y es capaz de resolver el problema cuando se combina con el wrapper implementado. CONCLUSIONES: * El DRL es una disciplina compleja, especialmente cuando el espacio de acciones del problema es continuo. * Se ha podido aproximar una solución al problema mediante DRL. * La biblioteca TF-Agentes, a pesar en desarrollo, ha sido muy útil para profundizar en el conocimiento del DRL y sus componentes.	es
dc.format.mimetype	application/pdf	-
dc.language.iso	cat	-
dc.publisher	Universitat Oberta de Catalunya (UOC)	-
dc.rights	CC BY-NC-ND	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	deep reinforcement learning	en
dc.subject	bipedal locomotion	en
dc.subject	simulated robotics	en
dc.subject	aprenentatge de reforç profund	ca
dc.subject	locomoció bípeda	ca
dc.subject	robòtica simulada	ca
dc.subject	aprendizaje por refuerzo profundo	es
dc.subject	locomoción bípeda	es
dc.subject	robótica simulada	es
dc.subject.lcsh	Computer software -- Development -- TFM	en
dc.title	Aprenentatge profund per reforç aplicat al control automàtic de la locomoció de robots bípedes simplificats en entorns simulats	-
dc.type	info:eu-repo/semantics/masterThesis	-
dc.audience.educationlevel	Estudis de Màster	ca
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.subject.lemac	Programari -- Desenvolupament -- TFM	ca
dc.subject.lcshes	Software -- Desarrollo -- TFM	es
dc.contributor.director	Ventura, Carles	-
dc.contributor.tutor	Kanaan-Izquierdo, Samir	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Bachelor thesis, research projects, etc.

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
producte.zip		137,07 kB	Unknown	Visualizar/Abrir
rcastariTFM0121Presentacio.pdf		1,26 MB	Adobe PDF	Visualizar/Abrir
videos.zip		10,56 MB	Unknown	Visualizar/Abrir
rcastariTFM0121memòria.pdf	Memòria del TFM	2,72 MB	Adobe PDF	Visualizar/Abrir