Ús d'algorismes d'aprenentatge automàtic en entorns big data per a l'obtenció de models predictius de contaminació

Bonet-Vilela, Fidel

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/63587

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Bonet-Vilela, Fidel	-
dc.contributor.other	Universitat Oberta de Catalunya	-
dc.contributor.other	Ventura, Carles	-
dc.date.accessioned	2017-06-15T19:21:35Z	-
dc.date.available	2017-06-15T19:21:35Z	-
dc.date.issued	2017-06-01	-
dc.identifier.uri	http://hdl.handle.net/10609/63587	-
dc.description.abstract	L'objectiu d'aquest treball final de grau és la utilització d'algorismes d'aprenentatge automàtic en entorns big data per a l'obtenció de models predictius de contaminació atmosfèrica. A partir de conjunts històrics de dades meteorològiques, de trànsit i de contaminació atmosfèrica provinents de sensors distribuïts en el territori s'han obtingut diversos models d'aprenentatge automàtic. Aquests models s'han generat en un entorn big data ja que, avui en dia, el volum de dades recollides pels sensors és molt elevat. Per a dur-ho a terme, en primer lloc s'han implementat clústers Apache Hadoop en dues arquitectures: una de pseudodistribuïda en una màquina virtual i una altra de distribuïda en la plataforma Amazon Web Services. A continuació, s'ha emprat Apache Hive per a carregar les dades en el sistema de fitxers distribuït HDFS i per al tractament previ a la generació del model. Finalment, s'ha utilitzat Apache Mahout com a biblioteca d'aprenentatge automàtic.	ca
dc.description.abstract	El objetivo de este trabajo fin de grado es el uso de algoritmos de aprendizaje automático en entornos big data para la obtención de modelos predictivos de contaminación atmosférica. A partir de conjuntos históricos de datos meteorológicos, de tráfico y de contaminación atmosférica procedentes de sensores distribuidos en el territorio se han obtenido diversos modelos de aprendizaje automático. Estos modelos han sido generados en un entorno big data ya que, hoy en día, el volumen de datos recogidos por los sensores es muy elevado. Para llevarlo a cabo, en primer lugar se han implementado clústeres Apache Hadoop en dos arquitecturas: una pseudo-distribuida en una máquina virtual y otra distribuida en la plataforma Amazon Web Services. A continuación, se ha usado Apache Hive para la carga de los datos en el sistema de ficheros distribuido HDFS y para el tratamiento previo a la generació del modelo. Finalmente, se ha utilizado Apache Mahout como biblioteca de aprendizaje automático. Los modelos obtenidos permiten afirmar que la meteorología y el tráfico tienen una afectación directa en el aumento de la concentración de dióxido de nitrógeno. En concreto, la inversión térmica, la intensidad de vehículo y la temperatura son las variables con un peso más importante en la modelización del comportamiento de este contaminante. Se puede concluir que los modelos obtenidos confirman la hipótesis inicial ya que permiten predecir episodios de contaminación mediante datos meteorológicos y de tráfico.	es
dc.description.abstract	The goal of this project is the use of machine learning algorithms in big data environments for obtaining predictive models of air pollution. Based on historical weather, traffic and air pollution datasets from sensors distributed throughout the territory, several machine learning models have been obtained. These models have been created in a big data environment because, nowadays, the amount of data collected by sensors is very large. In order to accomplish this, firstly, Apache Hadoop clusters have been implemented in two architectures: a pseudo-distributed one, using a virtual machine, and a distributed one in the Amazon Web Services platform. Afterwards, Apache Hive has been used to load the data into an HDFS distributed file system and preprocess it. Finally, Apache Mahout has been used as a machine learning library.	en
dc.description.abstract	El objetivo de este trabajo final de grado es la utilización de algoritmos de aprendizaje automático en entornos big data para la obtención de modelos predictivos de contaminación atmosférica. A partir de conjuntos históricos de datos meteorológicos, de tránsito y de contaminación atmosférica provenientes de sensores distribuidos en el territorio se han obtenido varios modelos de aprendizaje automático. Estos modelos se han generado en un entorno big data puesto que, hoy en día, el volumen de datos recogidos por los sensores es muy elevado. Para llevarlo a cabo, en primer lugar se han implementado clústeres Apache Hadoop en dos arquitecturas: una de pseudodistribuïda en una máquina virtual y otra de distribuida en la plataforma Amazon Web Services. A continuación, se ha empleado Apache Hive para cargar los datos en el sistema de ficheros distribuido HDFS y para el tratamiento previo a la generación del modelo. Finalmente, se ha utilizado Apache Mahout como biblioteca de aprendizaje automático.	es
dc.language.iso	cat	-
dc.publisher	Universitat Oberta de Catalunya	-
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	aprenentatge automàtic	ca
dc.subject	dades massives	ca
dc.subject	Apache Hadoop	ca
dc.subject	aprendizaje automático	es
dc.subject	big data	es
dc.subject	Apache Hadoop	es
dc.subject	machine learning	en
dc.subject	big data	en
dc.subject	Apache Hadoop	en
dc.subject.lcsh	Algoritmos computacionals -- TFG	es
dc.title	Ús d'algorismes d'aprenentatge automàtic en entorns big data per a l'obtenció de models predictius de contaminació	-
dc.type	info:eu-repo/semantics/bachelorThesis	-
dc.subject.lemac	Computer algorithms -- TFG	en
dc.subject.lcshes	Algorismes computacionals -- TFG	ca
dc.contributor.tutor	Isern, David	-
Aparece en las colecciones:	Bachelor thesis, research projects, etc.

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
fbonetviTFG0617memòria.pdf	Memòria del treball fi de grau	12,26 MB	Adobe PDF	Visualizar/Abrir
fbonetviTFG0617presentació.pdf	Presentació del treball fi de grau	17,62 MB	Adobe PDF	Visualizar/Abrir