Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/10609/149868
Títol: Application of machine learning methods to predict phytoplankton blooms and determine microbial biomarkers using marine microbiomes
Autoria: Fernandez-Gonzalez, Nuria  
Tutor: Rebrij, Romina  
Altres: Ventura, Carles  
Resum: Understanding the relationship between bacterioplankton and coastal phytoplankton blooms is key to understand coastal ecosystems functioning, which are the most productive areas for fisheries. With that knowledge, we could predict and may be mitigate, the effects of global change or contamination events in these productive ecosystems. However, these microbial communities are governed by very complex relationships. In addition, the data used to study bacterioplankton diversity (Amplicon Sequence Variants of 16S rRNA gene) is highly dimensional, sparse, and noisy. In this project, Random Forest classifiers based on diversity data were used to predict coastal phytoplankton blooms and search for their biomarkers. After joining two oceanographic campaigns data, samples were classified as bloom or normal depending on the total chlorophyll concentrations. The resulting dataset was highly dimensional (166 instances, 7593 features) and imbalanced (31 instances bloom, 135 – normal). To reduce dimensionality, biological features with relative abundances below 0.01 were removed, or they were grouped into clusters at genus level. Random forest models were trained and tuned with a grid-search of the number of features included in the individual trees. The process was repeated using one hundred different data splits into train and test groups to ensure results’ representativity. Good performance values (kappa, sensitivity, and specificity > 0.8) were achieved only after using the synthetic minority oversampling technique to level the number of instances between the two categories. Using those models, the topmost important features, according to the predictive error rate of features, were selected as biomarkers.
El conocimiento de las relaciones entre el bacterioplancton y las proliferaciones de fitoplancton es clave para entender el funcionamiento de los ecosistemas, como también predecir y mitigar los efectos del cambio global sobre estos ecosistemas. Estas comunidades microbianas son gobernadas por relaciones complejas. Además, los datos para estudiar la diversidad del bacterioplancton (Variantes de secuencias de amplicones del gen del ARNr 16S) son altamente dimensionales, dispersos y ruidosos. En este proyecto, los clasificadores Random Forest basados en datos de diversidad se utilizaron para predecir proliferaciones costeras de fitoplancton y buscar biomarcadores de estos. Tras unir los datos de dos campañas oceanográficas, las muestras se clasificaron entre las categorías Bloom y normal según la concentración de clorofila. Los datos resultantes eran altamente dimensionales (166 muestras, 7593 variables) y desbalanceados (31 muestras bloom, 135 normales). Para reducir la dimensionalidad, las variables biológicas con abundancias relativas menores al 0,01% se eliminaron. Alternativamente, se agruparon a nivel de género. Los modelos Random Forest se entrenaron valorando diferente número de variables en los árboles individuales. El proceso se repitió con cien divisiones diferentes de los datos en los grupos de entrenamiento y test para asegurar la representatividad de los resultados. Los modelos sólo alcanzaron buenos niveles de desempeño (kappa, sensibilidad y especificidad medias > 0.8) tras utilizar la técnica de sobre muestreo sintético de la clase minoritaria, bloom, para balancear los datos. Finalmente, se determinaron los biomarcadores como las variables más importantes según su error predictivo.
Paraules clau: coastal blooms
biomarkers
random forest
Tipus de document: info:eu-repo/semantics/masterThesis
Data de publicació: 20-jun-2023
Llicència de publicació: http://creativecommons.org/licenses/by-nc-nd/3.0/es/  
Apareix a les col·leccions:Trabajos finales de carrera, trabajos de investigación, etc.

Arxius per aquest ítem:
Arxiu Descripció MidaFormat 
nuriafergonzalezFMDP1323report.pdfReport of FMDP3,04 MBAdobe PDFThumbnail
Veure/Obrir
Comparteix:
Exporta:
Consulta les estadístiques

Aquest ítem està subjecte a una llicència de Creative CommonsLlicència Creative Commons Creative Commons