Ús d'algorismes d'aprenentatge automàtic en entorns big data per a l'obtenció de models predictius de contaminació

Bonet-Vilela, Fidel

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/63587

Título :	Ús d'algorismes d'aprenentatge automàtic en entorns big data per a l'obtenció de models predictius de contaminació
Autoría:	Bonet-Vilela, Fidel
Tutor:	Isern, David
Otros:	Universitat Oberta de Catalunya Ventura, Carles
Resumen :	El objetivo de este trabajo fin de grado es el uso de algoritmos de aprendizaje automático en entornos big data para la obtención de modelos predictivos de contaminación atmosférica. A partir de conjuntos históricos de datos meteorológicos, de tráfico y de contaminación atmosférica procedentes de sensores distribuidos en el territorio se han obtenido diversos modelos de aprendizaje automático. Estos modelos han sido generados en un entorno big data ya que, hoy en día, el volumen de datos recogidos por los sensores es muy elevado. Para llevarlo a cabo, en primer lugar se han implementado clústeres Apache Hadoop en dos arquitecturas: una pseudo-distribuida en una máquina virtual y otra distribuida en la plataforma Amazon Web Services. A continuación, se ha usado Apache Hive para la carga de los datos en el sistema de ficheros distribuido HDFS y para el tratamiento previo a la generació del modelo. Finalmente, se ha utilizado Apache Mahout como biblioteca de aprendizaje automático. Los modelos obtenidos permiten afirmar que la meteorología y el tráfico tienen una afectación directa en el aumento de la concentración de dióxido de nitrógeno. En concreto, la inversión térmica, la intensidad de vehículo y la temperatura son las variables con un peso más importante en la modelización del comportamiento de este contaminante. Se puede concluir que los modelos obtenidos confirman la hipótesis inicial ya que permiten predecir episodios de contaminación mediante datos meteorológicos y de tráfico. El objetivo de este trabajo final de grado es la utilización de algoritmos de aprendizaje automático en entornos big data para la obtención de modelos predictivos de contaminación atmosférica. A partir de conjuntos históricos de datos meteorológicos, de tránsito y de contaminación atmosférica provenientes de sensores distribuidos en el territorio se han obtenido varios modelos de aprendizaje automático. Estos modelos se han generado en un entorno big data puesto que, hoy en día, el volumen de datos recogidos por los sensores es muy elevado. Para llevarlo a cabo, en primer lugar se han implementado clústeres Apache Hadoop en dos arquitecturas: una de pseudodistribuïda en una máquina virtual y otra de distribuida en la plataforma Amazon Web Services. A continuación, se ha empleado Apache Hive para cargar los datos en el sistema de ficheros distribuido HDFS y para el tratamiento previo a la generación del modelo. Finalmente, se ha utilizado Apache Mahout como biblioteca de aprendizaje automático.
Palabras clave :	aprendizaje automático big data Apache Hadoop
Tipo de documento:	info:eu-repo/semantics/bachelorThesis
Fecha de publicación :	1-jun-2017
Licencia de publicación:	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Aparece en las colecciones:	Bachelor thesis, research projects, etc.

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
fbonetviTFG0617memòria.pdf	Memòria del treball fi de grau	12,26 MB	Adobe PDF	Visualizar/Abrir
fbonetviTFG0617presentació.pdf	Presentació del treball fi de grau	17,62 MB	Adobe PDF	Visualizar/Abrir