Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10609/119226
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.author | Montufo Rosal, Jose | - |
dc.contributor.other | Ventura, Carles | - |
dc.date.accessioned | 2020-07-02T18:58:48Z | - |
dc.date.available | 2020-07-02T18:58:48Z | - |
dc.date.issued | 2020-06 | - |
dc.identifier.uri | http://hdl.handle.net/10609/119226 | - |
dc.description.abstract | L'aplicació de tècniques d'aprenentatge per reforç als jocs de taula ha estat l'objecte en els darrers anys de multitud de projectes entre la comunitat científica especialitzada. Les mecàniques i les regles dels jocs de taula acostumen a formar un entorn idoni per ser utilitzats com a banc de proves de les eines que proporciona l'àrea de l'aprenentatge per reforç. Aquest projecte va néixer amb la finalitat d'utilitzar el joc de cartes Sushi Go com a base per a la creació de diversos agents intel·ligents capaços d'aprendre una estratègia que els hi permeti resultar competitius a un humà. Els objectius del projecte són la comparació del rendiment que proporcionen diverses tècniques d'aprenentatge per reforç, estudiar l'estratègia òptima que utilitzen, i crear una UI que permeti els usuaris enfrontar-se als agents. Per aconseguir aquesta finalitat, s'ha modificat una implementació preexistent per construir un entorn estàndard d'OpenAI Gym per a Sushi Go. Posteriorment, s'ha utilitzat l'entorn per aplicar els diferents algoritmes d'aprenentatge en la creació dels agents. Finalment, s'ha realitzat la comparació entre els agents per determinar els algoritmes més òptims, i s'ha descrit l'estratègia que segueixen els agents amb millor rendiment. Al final del projecte, l'autor s'ha enfrontat en una sèrie de partides amb el millor agent, sent capaç de guanyar gairebé la totalitat. Aquest fet no fa més que indicar que els agents encara tenen molt marge de millora, sigui aplicant nous algoritmes, o ampliant l'espai d'estats que utilitzen per obtenir informació de l'entorn. | ca |
dc.description.abstract | The application of reinforcement learning techniques to board games has been the subject in recent years of many projects among the specialized scientific community. The mechanics and rules of board games tend to form an ideal environment to be used as a test bed for the tools provided by the area of reinforcement learning. This project was born in order to use the Sushi Go card game as a basis for creating various intelligent agents capable of learning a strategy that would allow them to be competitive against a human. The goals of the project are to compare performance provided by various reinforcement learning techniques, study the optimal strategy they use, and create a UI that allows users to confront agents. To achieve this goal, a pre-existing implementation has been modified to build a standard OpenAI Gym environment for Sushi Go. Subsequently, the environment has been used to apply the different learning algorithms in the creation of the agents. Finally, the comparison between the agents to determine the most optimal algorithms was performed, and the strategy followed by the best performing agents was described. At the end of the project, the author has challenged in a series of games to the best agent, being able to win almost all. This fact only indicates that agents still have much room for improvement, either by applying new algorithms, or by expanding the state space they use to obtain information from the environment. | en |
dc.description.abstract | La aplicación de técnicas de aprendizaje por refuerzo a los juegos de mesa ha sido objeto en los últimos años de multitud de proyectos entre la comunidad científica especializada. Las mecánicas y las reglas de los juegos de mesa suelen formar un entorno idóneo para ser utilizados como banco de pruebas de las herramientas que proporciona el área del aprendizaje por refuerzo. Este proyecto nació con el fin de utilizar el juego de cartas Sushi Go como base para la creación de diversos agentes inteligentes capaces de aprender una estrategia que les permita resultar competitivos contra un humano. Los objetivos del proyecto son la comparación del rendimiento que proporcionan las diversas técnicas del aprendizaje por refuerzo, estudiar la estrategia óptima que utilizan, y crear una UI que permita a los usuarios enfrentarse a los agentes. Para conseguir este fin, se ha modificado una implementación preexistente para construir un entorno estándar de OpenAI Gym para Sushi Go. Posteriormente, se ha utilizado el entorno para aplicar los diferentes algoritmos de aprendizaje en la creación de los agentes. Finalmente, se ha realizado la comparación entre los agentes para determinar los algoritmos más óptimos, y se ha descrito la estrategia que siguen los agentes con mejor rendimiento. Al final del proyecto, el autor se ha enfrentado en una serie de partidas con el mejor agente, siendo capaz de ganar casi la totalidad. Este hecho no hace más que indicar que los agentes todavía tienen mucho margen de mejora, sea aplicando nuevos algoritmos, o ampliando el espacio de estados que utilizan para obtener información del entorno. | es |
dc.format.mimetype | application/pdf | - |
dc.language.iso | cat | - |
dc.publisher | Universitat Oberta de Catalunya (UOC) | - |
dc.rights | CC BY-NC-ND | - |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ | - |
dc.subject | reinforcement learning | en |
dc.subject | aprenentatge per reforç | ca |
dc.subject | aprendizaje por refuerzo | es |
dc.subject | OpenAI | es |
dc.subject | OpenAI | ca |
dc.subject | juegos de mesa | es |
dc.subject | jocs de taula | ca |
dc.subject | board games | en |
dc.subject | OpenAI | en |
dc.subject | aprenentatge per reforç | ca |
dc.subject.lcsh | Artificial intelligence -- TFG | en |
dc.title | Aplicació de tècniques d'aprenentatge computacional per la creació d'agents jugadors de Sushi Go | - |
dc.type | info:eu-repo/semantics/bachelorThesis | - |
dc.audience.educationlevel | Estudis de Grau | ca |
dc.audience.educationlevel | Estudios de Grado | es |
dc.audience.educationlevel | University degrees | en |
dc.subject.lemac | Intel·ligència artificial -- TFG | ca |
dc.subject.lcshes | Inteligencia artificial -- TFG | es |
dc.contributor.tutor | Nunez do Rio, Joan M | - |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | - |
Aparece en las colecciones: | Bachelor thesis, research projects, etc. |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
jmontufoTFG0620memòria.pdf | Memòria del TFG | 2,22 MB | Adobe PDF | Visualizar/Abrir |
jmontufoTFG0620presentació.pdf | Presentació del TFG | 537,51 kB | Adobe PDF | Visualizar/Abrir |
Comparte:
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons