Desarrollo de modelos de machine learning para la predicción de la calidad del agua utilizando datos históricos, Cuenca Azángaro – 2023

Descripción del Articulo

En años recientes, la ausencia de sistemas automatizados en la predicción de la calidad del agua ha ocasionado retrasos significativos en la obtención de datos precisos, lo cual ha impactado la fiabilidad de los cálculos y ha elevado los costos asociados a todo el proceso. La investigación está enfo...

Descripción completa

Detalles Bibliográficos
Autor: Cazasola Cuno, Zhaida Yoshy
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Cesar Vallejo
Repositorio:UCV-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ucv.edu.pe:20.500.12692/145196
Enlace del recurso:https://hdl.handle.net/20.500.12692/145196
Nivel de acceso:acceso abierto
Materia:Random forest
Métricas
Python
https://purl.org/pe-repo/ocde/ford#2.07.00
Descripción
Sumario:En años recientes, la ausencia de sistemas automatizados en la predicción de la calidad del agua ha ocasionado retrasos significativos en la obtención de datos precisos, lo cual ha impactado la fiabilidad de los cálculos y ha elevado los costos asociados a todo el proceso. La investigación está enfocada en desarrollar modelos de aprendizaje automático para automatizar el sistema para predecir calidad del agua en la cuenca de Azángaro. Los datos se consultaron de la base de datos que cuenta la institución nacional SNIRH de Perú dentro de la temática calidad del agua, obteniendo un total de 136 muestras, donde la metodología empleada para el desarrollo del modelo fue, recolección de datos históricos, selección de parámetros, procesamiento y limpieza de datos, división de datos (prueba - entrenamiento), entrenamiento del modelo y finalmente la etapa de validación de cada modelo, en este punto es donde se evaluó el rendimiento de que tan bien puede predecir cada modelo la calidad del agua. Los resultados fueron, de los 5 modelos de predicción desarrollados, Random Forest (RF) seguido de Decisión Trees (DTs) lograron un buen rendimiento en métricas de evaluación, en el modelo Random Forest se obtuvo un Root Mean Squared Error (RMSE) de 3.354, Mean Squared Error (MSE) de 12.886, un Mean Absolute Error (MAE) de 2.563 y Coefficient of Determination (R2) de 0.613. Por ende, se concluye que el desarrollo de este modelo presenta un desempeño óptimo para la predicción de la calidad del agua.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).