Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
Descripción del Articulo
Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: aná...
Autor: | |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2024 |
Institución: | Universidad Nacional Mayor de San Marcos |
Repositorio: | UNMSM-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:cybertesis.unmsm.edu.pe:20.500.12672/22641 |
Enlace del recurso: | https://hdl.handle.net/20.500.12672/22641 |
Nivel de acceso: | acceso abierto |
Materia: | Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04 |
Sumario: | Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).