Preprocesamiento de datos mediante herramientas de Big Data
Descripción del Articulo
El preprocesamiento de datos en entornos de Big Data es una etapa crucial para garantizar la calidad y la utilidad de los datos antes de que sean utilizados en análisis o aplicaciones. En este proceso existen desafíos por resolver, como, por ejemplo, campos sin formato, fechas con diferentes formato...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2023 |
| Institución: | Universidad Nacional de San Antonio Abad del Cusco |
| Repositorio: | UNSAAC-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.unsaac.edu.pe:20.500.12918/7930 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12918/7930 |
| Nivel de acceso: | acceso abierto |
| Materia: | Big Data Apache spark Preprocesamiento Aprendizaje automático http://purl.org/pe-repo/ocde/ford#2.02.04 |
| Sumario: | El preprocesamiento de datos en entornos de Big Data es una etapa crucial para garantizar la calidad y la utilidad de los datos antes de que sean utilizados en análisis o aplicaciones. En este proceso existen desafíos por resolver, como, por ejemplo, campos sin formato, fechas con diferentes formatos, valores nulos, ruido, identificación de características relevantes. Superar estos problemas es fundamental para aprovechar al máximo el potencial de los datos y lograr análisis precisos y significativos. El objetivo principal de este trabajo es obtener conjuntos de datos limpios, libre de ruido que puedan considerarse correctos y útiles para el procesamiento de datos. Dado un dataset y eligiendo una herramienta como Apache Spark para el preprocesamiento de Big Data en un caso de uso, mediante los algoritmos existentes en esta librería se procede a limpiar, transformar, seleccionar características, manejo de valores atípicos, manejo de valores faltantes, normalización y estandarización, conversión de tipos de datos, reducción de ruido, muestreo de datos, para finalmente obtener como resultado datos preprocesados. También fueron aplicadas pruebas unitarias e integrales para cuantificar la calidad de datos de forma automática, preprocesando los datos en cada etapa. Se realizó casos de uso con datasets; COVID-19, sismos y diabetes, para demostrar la generación de datos de limpios mediante técnicas de preprocesamiento específicamente en Apache Spark. Como resultado ilustramos tareas de análisis y visualización. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).