Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria

Descripción del Articulo

Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: aná...

Descripción completa

Detalles Bibliográficos
Autor: Yupanqui Caballero, Antoni Hubertus
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:UNMSM-Tesis
Lenguaje:español
OAI Identifier:oai:cybertesis.unmsm.edu.pe:20.500.12672/22641
Enlace del recurso:https://hdl.handle.net/20.500.12672/22641
Nivel de acceso:acceso abierto
Materia:Datos masivos
Procesamiento de datos
Procesos distribuidos
Scrum (Desarrollo de software para computadora)
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).