Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria

Descripción del Articulo

Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: aná...

Descripción completa

Detalles Bibliográficos
Autor: Yupanqui Caballero, Antoni Hubertus
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:UNMSM-Tesis
Lenguaje:español
OAI Identifier:oai:cybertesis.unmsm.edu.pe:20.500.12672/22641
Enlace del recurso:https://hdl.handle.net/20.500.12672/22641
Nivel de acceso:acceso abierto
Materia:Datos masivos
Procesamiento de datos
Procesos distribuidos
Scrum (Desarrollo de software para computadora)
https://purl.org/pe-repo/ocde/ford#2.02.04
id UNMS_30f2eb29c72b5b3f6973dfaf6d7dcce4
oai_identifier_str oai:cybertesis.unmsm.edu.pe:20.500.12672/22641
network_acronym_str UNMS
network_name_str UNMSM-Tesis
repository_id_str 410
dc.title.none.fl_str_mv Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
spellingShingle Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
Yupanqui Caballero, Antoni Hubertus
Datos masivos
Procesamiento de datos
Procesos distribuidos
Scrum (Desarrollo de software para computadora)
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_full Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_fullStr Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_full_unstemmed Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_sort Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
author Yupanqui Caballero, Antoni Hubertus
author_facet Yupanqui Caballero, Antoni Hubertus
author_role author
dc.contributor.advisor.fl_str_mv Moquillaza Henríquez, Santiago Domingo
dc.contributor.author.fl_str_mv Yupanqui Caballero, Antoni Hubertus
dc.subject.none.fl_str_mv Datos masivos
Procesamiento de datos
Procesos distribuidos
Scrum (Desarrollo de software para computadora)
topic Datos masivos
Procesamiento de datos
Procesos distribuidos
Scrum (Desarrollo de software para computadora)
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-07-03T16:21:56Z
dc.date.available.none.fl_str_mv 2024-07-03T16:21:56Z
dc.date.issued.fl_str_mv 2024
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.citation.none.fl_str_mv Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12672/22641
identifier_str_mv Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.
url https://hdl.handle.net/20.500.12672/22641
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional Mayor de San Marcos
dc.publisher.country.none.fl_str_mv PE
publisher.none.fl_str_mv Universidad Nacional Mayor de San Marcos
dc.source.none.fl_str_mv reponame:UNMSM-Tesis
instname:Universidad Nacional Mayor de San Marcos
instacron:UNMSM
instname_str Universidad Nacional Mayor de San Marcos
instacron_str UNMSM
institution UNMSM
reponame_str UNMSM-Tesis
collection UNMSM-Tesis
bitstream.url.fl_str_mv https://cybertesis.unmsm.edu.pe/bitstreams/a4c8be79-70b1-4d10-bd33-ea9c3c0cc975/download
https://cybertesis.unmsm.edu.pe/bitstreams/987cdb30-4bbe-4e65-be48-5a52441924be/download
https://cybertesis.unmsm.edu.pe/bitstreams/f0cb83d2-0fe2-41ce-b904-e4113b36cf12/download
https://cybertesis.unmsm.edu.pe/bitstreams/bc31fafb-a838-467d-a72f-4e2e08827541/download
https://cybertesis.unmsm.edu.pe/bitstreams/4ca1d734-e5a0-425c-b59a-3e3d6adf15f7/download
https://cybertesis.unmsm.edu.pe/bitstreams/83dd5c42-6808-41cb-9402-6c374f2e0179/download
https://cybertesis.unmsm.edu.pe/bitstreams/ce4714a1-fda8-4b53-b5d9-e2c286ed9457/download
https://cybertesis.unmsm.edu.pe/bitstreams/f4ec493e-869f-46ad-91be-30f9e3a2b90f/download
https://cybertesis.unmsm.edu.pe/bitstreams/341b55f2-486b-400a-bbbe-0825ce43026b/download
https://cybertesis.unmsm.edu.pe/bitstreams/3f528006-1c0d-4e64-bc83-a0abf9a2df62/download
https://cybertesis.unmsm.edu.pe/bitstreams/cb675cc4-63b7-4cf0-9cec-e0d61227ad6a/download
bitstream.checksum.fl_str_mv bb9bdc0b3349e4284e09149f943790b4
1f14487299a8a795dc379bc1df9968a0
c7d1770300a6377e28b33d6c35fffd42
c5a21638715f9a157b9505fd49407a2d
284f99675ff69ccf2f47d811905f4796
1f4aa4636ba38fc8a76a61b4f59d394d
73d64d07b1e1925bbde5cef4e12916ac
301bd9a6445fc3e9ec0b15333c8ffffd
f40192ef62ca809b14ec17f962393c0b
88c636d62a8dabaa00635dd9a948db8e
b8b07ab79de5e5ab683fb3331b4a9300
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Cybertesis UNMSM
repository.mail.fl_str_mv cybertesis@unmsm.edu.pe
_version_ 1841547394464874496
spelling Moquillaza Henríquez, Santiago DomingoYupanqui Caballero, Antoni Hubertus2024-07-03T16:21:56Z2024-07-03T16:21:56Z2024Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.https://hdl.handle.net/20.500.12672/22641Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables.application/pdfspaUniversidad Nacional Mayor de San MarcosPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Datos masivosProcesamiento de datosProcesos distribuidosScrum (Desarrollo de software para computadora)https://purl.org/pe-repo/ocde/ford#2.02.04Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancariainfo:eu-repo/semantics/bachelorThesisreponame:UNMSM-Tesisinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMSUNEDUIngeniero de SistemasUniversidad Nacional Mayor de San Marcos. Facultad de Ingeniería de Sistemas e Informática. Escuela Profesional de Ingeniería de SistemasIngeniería de Sistemas08280889https://orcid.org/0000-0001-9531-881X72802002612076Espinoza Robles, Armando DavidHuapaya Chumpitaz, Mario Agustinhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#trabajoDeSuficienciaProfesionalLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://cybertesis.unmsm.edu.pe/bitstreams/a4c8be79-70b1-4d10-bd33-ea9c3c0cc975/downloadbb9bdc0b3349e4284e09149f943790b4MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://cybertesis.unmsm.edu.pe/bitstreams/987cdb30-4bbe-4e65-be48-5a52441924be/download1f14487299a8a795dc379bc1df9968a0MD52ORIGINALYupanqui_ca.pdfYupanqui_ca.pdfapplication/pdf8694200https://cybertesis.unmsm.edu.pe/bitstreams/f0cb83d2-0fe2-41ce-b904-e4113b36cf12/downloadc7d1770300a6377e28b33d6c35fffd42MD53C1583_2024_Yupanqui_ca_autorización.pdfapplication/pdf235302https://cybertesis.unmsm.edu.pe/bitstreams/bc31fafb-a838-467d-a72f-4e2e08827541/downloadc5a21638715f9a157b9505fd49407a2dMD54C1583_2024_Yupanqui_ca_reporte.pdfapplication/pdf18499003https://cybertesis.unmsm.edu.pe/bitstreams/4ca1d734-e5a0-425c-b59a-3e3d6adf15f7/download284f99675ff69ccf2f47d811905f4796MD55TEXTYupanqui_ca.pdf.txtYupanqui_ca.pdf.txtExtracted texttext/plain101297https://cybertesis.unmsm.edu.pe/bitstreams/83dd5c42-6808-41cb-9402-6c374f2e0179/download1f4aa4636ba38fc8a76a61b4f59d394dMD56C1583_2024_Yupanqui_ca_autorización.pdf.txtC1583_2024_Yupanqui_ca_autorización.pdf.txtExtracted texttext/plain4024https://cybertesis.unmsm.edu.pe/bitstreams/ce4714a1-fda8-4b53-b5d9-e2c286ed9457/download73d64d07b1e1925bbde5cef4e12916acMD58C1583_2024_Yupanqui_ca_reporte.pdf.txtC1583_2024_Yupanqui_ca_reporte.pdf.txtExtracted texttext/plain2114https://cybertesis.unmsm.edu.pe/bitstreams/f4ec493e-869f-46ad-91be-30f9e3a2b90f/download301bd9a6445fc3e9ec0b15333c8ffffdMD510THUMBNAILYupanqui_ca.pdf.jpgYupanqui_ca.pdf.jpgGenerated Thumbnailimage/jpeg17155https://cybertesis.unmsm.edu.pe/bitstreams/341b55f2-486b-400a-bbbe-0825ce43026b/downloadf40192ef62ca809b14ec17f962393c0bMD57C1583_2024_Yupanqui_ca_autorización.pdf.jpgC1583_2024_Yupanqui_ca_autorización.pdf.jpgGenerated Thumbnailimage/jpeg23466https://cybertesis.unmsm.edu.pe/bitstreams/3f528006-1c0d-4e64-bc83-a0abf9a2df62/download88c636d62a8dabaa00635dd9a948db8eMD59C1583_2024_Yupanqui_ca_reporte.pdf.jpgC1583_2024_Yupanqui_ca_reporte.pdf.jpgGenerated Thumbnailimage/jpeg8842https://cybertesis.unmsm.edu.pe/bitstreams/cb675cc4-63b7-4cf0-9cec-e0d61227ad6a/downloadb8b07ab79de5e5ab683fb3331b4a9300MD51120.500.12672/22641oai:cybertesis.unmsm.edu.pe:20.500.12672/226412024-08-16 01:13:24.187http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://cybertesis.unmsm.edu.peCybertesis UNMSMcybertesis@unmsm.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.11166
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).