Modelo K vecinos más cercanos para optimizar la clasificación de datos según el índice de la calidad del agua de la cuenca superior de la ciudad de Huarmey
Descripción del Articulo
La calidad del agua en la cuenca del río Huarmey enfrenta desafíos significativos debido a la contaminación por metales pesados y parámetros fisicoquímicos que superan los estándares de calidad ambiental del agua en Perú. Tradicionalmente, la evaluación del Índice de Calidad de Agua (ICA) se realiza...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2025 |
| Institución: | Universidad Nacional Mayor de San Marcos |
| Repositorio: | UNMSM-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:cybertesis.unmsm.edu.pe:20.500.12672/26469 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12672/26469 |
| Nivel de acceso: | acceso abierto |
| Materia: | Calidad de agua Calidad ambiental - Agua Machine Learning https://purl.org/pe-repo/ocde/ford#2.02.04 |
| Sumario: | La calidad del agua en la cuenca del río Huarmey enfrenta desafíos significativos debido a la contaminación por metales pesados y parámetros fisicoquímicos que superan los estándares de calidad ambiental del agua en Perú. Tradicionalmente, la evaluación del Índice de Calidad de Agua (ICA) se realiza mediante fórmulas y macros de Excel, lo que implica largos tiempos de procesamiento, alta propensión a errores y limitaciones frente a grandes volúmenes de datos. La presente investigación propone la implementación de un modelo de clasificación basado en el algoritmo K-vecinos más cercanos (KNN) para optimizar la categorización de muestras de agua en las categorías de Consumo Humano (1-A2) y Bebida Animal (3-D2), conforme al ICA Perú. Además, se comparó su desempeño con los algoritmos Support Vector Machine (SVM) y Random Forest (RF), aplicando normalización Min-Max, validación cruzada 5-fold y ajuste de hiperparámetros. Los resultados demostraron que KNN alcanzó una precisión (accuracy) del 95.2%, un F1-Score de 0.94 y un coeficiente de determinación (R²) de 0.91, superando a SVM (accuracy 91.4%, F1-Score 0.89, R² 0.85) y Random Forest (accuracy 93.7%, F1-Score 0.92, R² 0.88). Estas métricas validan la efectividad y robustez de KNN en la clasificación multivariable de parámetros fisicoquímicos. La automatización del proceso permitió disminuir los tiempos de clasificación y reducir significativamente los errores en el cálculo del ICA, lo que beneficia la toma de decisiones de la gestión de los recursos hídricos de la cuenca de Huarmey. Este algoritmo de clasificación contribuye al fortalecimiento de las herramientas de monitoreo ambiental y representa un aporte relevante para optimizar la gestión de los recursos hídricos en contextos similares. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).