Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
Descripción del Articulo
Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: aná...
Autor: | |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2024 |
Institución: | Universidad Nacional Mayor de San Marcos |
Repositorio: | UNMSM-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:cybertesis.unmsm.edu.pe:20.500.12672/22641 |
Enlace del recurso: | https://hdl.handle.net/20.500.12672/22641 |
Nivel de acceso: | acceso abierto |
Materia: | Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04 |
id |
UNMS_30f2eb29c72b5b3f6973dfaf6d7dcce4 |
---|---|
oai_identifier_str |
oai:cybertesis.unmsm.edu.pe:20.500.12672/22641 |
network_acronym_str |
UNMS |
network_name_str |
UNMSM-Tesis |
repository_id_str |
410 |
dc.title.none.fl_str_mv |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
title |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
spellingShingle |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria Yupanqui Caballero, Antoni Hubertus Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04 |
title_short |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
title_full |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
title_fullStr |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
title_full_unstemmed |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
title_sort |
Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria |
author |
Yupanqui Caballero, Antoni Hubertus |
author_facet |
Yupanqui Caballero, Antoni Hubertus |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Moquillaza Henríquez, Santiago Domingo |
dc.contributor.author.fl_str_mv |
Yupanqui Caballero, Antoni Hubertus |
dc.subject.none.fl_str_mv |
Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) |
topic |
Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04 |
dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
description |
Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables. |
publishDate |
2024 |
dc.date.accessioned.none.fl_str_mv |
2024-07-03T16:21:56Z |
dc.date.available.none.fl_str_mv |
2024-07-03T16:21:56Z |
dc.date.issued.fl_str_mv |
2024 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
dc.identifier.citation.none.fl_str_mv |
Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM. |
dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12672/22641 |
identifier_str_mv |
Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM. |
url |
https://hdl.handle.net/20.500.12672/22641 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad Nacional Mayor de San Marcos |
dc.publisher.country.none.fl_str_mv |
PE |
publisher.none.fl_str_mv |
Universidad Nacional Mayor de San Marcos |
dc.source.none.fl_str_mv |
reponame:UNMSM-Tesis instname:Universidad Nacional Mayor de San Marcos instacron:UNMSM |
instname_str |
Universidad Nacional Mayor de San Marcos |
instacron_str |
UNMSM |
institution |
UNMSM |
reponame_str |
UNMSM-Tesis |
collection |
UNMSM-Tesis |
bitstream.url.fl_str_mv |
https://cybertesis.unmsm.edu.pe/bitstreams/a4c8be79-70b1-4d10-bd33-ea9c3c0cc975/download https://cybertesis.unmsm.edu.pe/bitstreams/987cdb30-4bbe-4e65-be48-5a52441924be/download https://cybertesis.unmsm.edu.pe/bitstreams/f0cb83d2-0fe2-41ce-b904-e4113b36cf12/download https://cybertesis.unmsm.edu.pe/bitstreams/bc31fafb-a838-467d-a72f-4e2e08827541/download https://cybertesis.unmsm.edu.pe/bitstreams/4ca1d734-e5a0-425c-b59a-3e3d6adf15f7/download https://cybertesis.unmsm.edu.pe/bitstreams/83dd5c42-6808-41cb-9402-6c374f2e0179/download https://cybertesis.unmsm.edu.pe/bitstreams/ce4714a1-fda8-4b53-b5d9-e2c286ed9457/download https://cybertesis.unmsm.edu.pe/bitstreams/f4ec493e-869f-46ad-91be-30f9e3a2b90f/download https://cybertesis.unmsm.edu.pe/bitstreams/341b55f2-486b-400a-bbbe-0825ce43026b/download https://cybertesis.unmsm.edu.pe/bitstreams/3f528006-1c0d-4e64-bc83-a0abf9a2df62/download https://cybertesis.unmsm.edu.pe/bitstreams/cb675cc4-63b7-4cf0-9cec-e0d61227ad6a/download |
bitstream.checksum.fl_str_mv |
bb9bdc0b3349e4284e09149f943790b4 1f14487299a8a795dc379bc1df9968a0 c7d1770300a6377e28b33d6c35fffd42 c5a21638715f9a157b9505fd49407a2d 284f99675ff69ccf2f47d811905f4796 1f4aa4636ba38fc8a76a61b4f59d394d 73d64d07b1e1925bbde5cef4e12916ac 301bd9a6445fc3e9ec0b15333c8ffffd f40192ef62ca809b14ec17f962393c0b 88c636d62a8dabaa00635dd9a948db8e b8b07ab79de5e5ab683fb3331b4a9300 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Cybertesis UNMSM |
repository.mail.fl_str_mv |
cybertesis@unmsm.edu.pe |
_version_ |
1841547394464874496 |
spelling |
Moquillaza Henríquez, Santiago DomingoYupanqui Caballero, Antoni Hubertus2024-07-03T16:21:56Z2024-07-03T16:21:56Z2024Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.https://hdl.handle.net/20.500.12672/22641Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables.application/pdfspaUniversidad Nacional Mayor de San MarcosPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Datos masivosProcesamiento de datosProcesos distribuidosScrum (Desarrollo de software para computadora)https://purl.org/pe-repo/ocde/ford#2.02.04Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancariainfo:eu-repo/semantics/bachelorThesisreponame:UNMSM-Tesisinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMSUNEDUIngeniero de SistemasUniversidad Nacional Mayor de San Marcos. Facultad de Ingeniería de Sistemas e Informática. Escuela Profesional de Ingeniería de SistemasIngeniería de Sistemas08280889https://orcid.org/0000-0001-9531-881X72802002612076Espinoza Robles, Armando DavidHuapaya Chumpitaz, Mario Agustinhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#trabajoDeSuficienciaProfesionalLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://cybertesis.unmsm.edu.pe/bitstreams/a4c8be79-70b1-4d10-bd33-ea9c3c0cc975/downloadbb9bdc0b3349e4284e09149f943790b4MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://cybertesis.unmsm.edu.pe/bitstreams/987cdb30-4bbe-4e65-be48-5a52441924be/download1f14487299a8a795dc379bc1df9968a0MD52ORIGINALYupanqui_ca.pdfYupanqui_ca.pdfapplication/pdf8694200https://cybertesis.unmsm.edu.pe/bitstreams/f0cb83d2-0fe2-41ce-b904-e4113b36cf12/downloadc7d1770300a6377e28b33d6c35fffd42MD53C1583_2024_Yupanqui_ca_autorización.pdfapplication/pdf235302https://cybertesis.unmsm.edu.pe/bitstreams/bc31fafb-a838-467d-a72f-4e2e08827541/downloadc5a21638715f9a157b9505fd49407a2dMD54C1583_2024_Yupanqui_ca_reporte.pdfapplication/pdf18499003https://cybertesis.unmsm.edu.pe/bitstreams/4ca1d734-e5a0-425c-b59a-3e3d6adf15f7/download284f99675ff69ccf2f47d811905f4796MD55TEXTYupanqui_ca.pdf.txtYupanqui_ca.pdf.txtExtracted texttext/plain101297https://cybertesis.unmsm.edu.pe/bitstreams/83dd5c42-6808-41cb-9402-6c374f2e0179/download1f4aa4636ba38fc8a76a61b4f59d394dMD56C1583_2024_Yupanqui_ca_autorización.pdf.txtC1583_2024_Yupanqui_ca_autorización.pdf.txtExtracted texttext/plain4024https://cybertesis.unmsm.edu.pe/bitstreams/ce4714a1-fda8-4b53-b5d9-e2c286ed9457/download73d64d07b1e1925bbde5cef4e12916acMD58C1583_2024_Yupanqui_ca_reporte.pdf.txtC1583_2024_Yupanqui_ca_reporte.pdf.txtExtracted texttext/plain2114https://cybertesis.unmsm.edu.pe/bitstreams/f4ec493e-869f-46ad-91be-30f9e3a2b90f/download301bd9a6445fc3e9ec0b15333c8ffffdMD510THUMBNAILYupanqui_ca.pdf.jpgYupanqui_ca.pdf.jpgGenerated Thumbnailimage/jpeg17155https://cybertesis.unmsm.edu.pe/bitstreams/341b55f2-486b-400a-bbbe-0825ce43026b/downloadf40192ef62ca809b14ec17f962393c0bMD57C1583_2024_Yupanqui_ca_autorización.pdf.jpgC1583_2024_Yupanqui_ca_autorización.pdf.jpgGenerated Thumbnailimage/jpeg23466https://cybertesis.unmsm.edu.pe/bitstreams/3f528006-1c0d-4e64-bc83-a0abf9a2df62/download88c636d62a8dabaa00635dd9a948db8eMD59C1583_2024_Yupanqui_ca_reporte.pdf.jpgC1583_2024_Yupanqui_ca_reporte.pdf.jpgGenerated Thumbnailimage/jpeg8842https://cybertesis.unmsm.edu.pe/bitstreams/cb675cc4-63b7-4cf0-9cec-e0d61227ad6a/downloadb8b07ab79de5e5ab683fb3331b4a9300MD51120.500.12672/22641oai:cybertesis.unmsm.edu.pe:20.500.12672/226412024-08-16 01:13:24.187http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://cybertesis.unmsm.edu.peCybertesis UNMSMcybertesis@unmsm.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
13.11166 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).