Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria

Yupanqui Caballero, Antoni Hubertus

Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria

Descripción del Articulo

Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: aná...

Descripción completa

Detalles Bibliográficos
Autor:	Yupanqui Caballero, Antoni Hubertus
Formato:	tesis de grado
Fecha de Publicación:	2024
Institución:	Universidad Nacional Mayor de San Marcos
Repositorio:	UNMSM-Tesis
Lenguaje:	español
OAI Identifier:	oai:cybertesis.unmsm.edu.pe:20.500.12672/22641
Enlace del recurso:	https://hdl.handle.net/20.500.12672/22641
Nivel de acceso:	acceso abierto
Materia:	Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04

id	UNMS_30f2eb29c72b5b3f6973dfaf6d7dcce4
oai_identifier_str	oai:cybertesis.unmsm.edu.pe:20.500.12672/22641
network_acronym_str	UNMS
network_name_str	UNMSM-Tesis
repository_id_str	410
dc.title.none.fl_str_mv	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
spellingShingle	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria Yupanqui Caballero, Antoni Hubertus Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04
title_short	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_full	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_fullStr	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_full_unstemmed	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
title_sort	Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria
author	Yupanqui Caballero, Antoni Hubertus
author_facet	Yupanqui Caballero, Antoni Hubertus
author_role	author
dc.contributor.advisor.fl_str_mv	Moquillaza Henríquez, Santiago Domingo
dc.contributor.author.fl_str_mv	Yupanqui Caballero, Antoni Hubertus
dc.subject.none.fl_str_mv	Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora)
topic	Datos masivos Procesamiento de datos Procesos distribuidos Scrum (Desarrollo de software para computadora) https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.none.fl_str_mv	https://purl.org/pe-repo/ocde/ford#2.02.04
description	Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables.
publishDate	2024
dc.date.accessioned.none.fl_str_mv	2024-07-03T16:21:56Z
dc.date.available.none.fl_str_mv	2024-07-03T16:21:56Z
dc.date.issued.fl_str_mv	2024
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
dc.identifier.citation.none.fl_str_mv	Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.
dc.identifier.uri.none.fl_str_mv	https://hdl.handle.net/20.500.12672/22641
identifier_str_mv	Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.
url	https://hdl.handle.net/20.500.12672/22641
dc.language.iso.none.fl_str_mv	spa
language	spa
dc.relation.ispartof.fl_str_mv	SUNEDU
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad Nacional Mayor de San Marcos
dc.publisher.country.none.fl_str_mv	PE
publisher.none.fl_str_mv	Universidad Nacional Mayor de San Marcos
dc.source.none.fl_str_mv	reponame:UNMSM-Tesis instname:Universidad Nacional Mayor de San Marcos instacron:UNMSM
instname_str	Universidad Nacional Mayor de San Marcos
instacron_str	UNMSM
institution	UNMSM
reponame_str	UNMSM-Tesis
collection	UNMSM-Tesis
bitstream.url.fl_str_mv	https://cybertesis.unmsm.edu.pe/bitstreams/a4c8be79-70b1-4d10-bd33-ea9c3c0cc975/download https://cybertesis.unmsm.edu.pe/bitstreams/987cdb30-4bbe-4e65-be48-5a52441924be/download https://cybertesis.unmsm.edu.pe/bitstreams/f0cb83d2-0fe2-41ce-b904-e4113b36cf12/download https://cybertesis.unmsm.edu.pe/bitstreams/bc31fafb-a838-467d-a72f-4e2e08827541/download https://cybertesis.unmsm.edu.pe/bitstreams/4ca1d734-e5a0-425c-b59a-3e3d6adf15f7/download https://cybertesis.unmsm.edu.pe/bitstreams/83dd5c42-6808-41cb-9402-6c374f2e0179/download https://cybertesis.unmsm.edu.pe/bitstreams/ce4714a1-fda8-4b53-b5d9-e2c286ed9457/download https://cybertesis.unmsm.edu.pe/bitstreams/f4ec493e-869f-46ad-91be-30f9e3a2b90f/download https://cybertesis.unmsm.edu.pe/bitstreams/341b55f2-486b-400a-bbbe-0825ce43026b/download https://cybertesis.unmsm.edu.pe/bitstreams/3f528006-1c0d-4e64-bc83-a0abf9a2df62/download https://cybertesis.unmsm.edu.pe/bitstreams/cb675cc4-63b7-4cf0-9cec-e0d61227ad6a/download
bitstream.checksum.fl_str_mv	bb9bdc0b3349e4284e09149f943790b4 1f14487299a8a795dc379bc1df9968a0 c7d1770300a6377e28b33d6c35fffd42 c5a21638715f9a157b9505fd49407a2d 284f99675ff69ccf2f47d811905f4796 1f4aa4636ba38fc8a76a61b4f59d394d 73d64d07b1e1925bbde5cef4e12916ac 301bd9a6445fc3e9ec0b15333c8ffffd f40192ef62ca809b14ec17f962393c0b 88c636d62a8dabaa00635dd9a948db8e b8b07ab79de5e5ab683fb3331b4a9300
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Cybertesis UNMSM
repository.mail.fl_str_mv	cybertesis@unmsm.edu.pe
_version_	1868179357706485760
spelling	Moquillaza Henríquez, Santiago DomingoYupanqui Caballero, Antoni Hubertus2024-07-03T16:21:56Z2024-07-03T16:21:56Z2024Yupanqui, A. (2024). Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria. [Trabajo de suficiencia profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.https://hdl.handle.net/20.500.12672/22641Comprende la implementación de una solución big data que posibilite el procesamiento distribuido en el proceso de generación de los reportes contables usando Spark, debido a que la volumetría de los datos usada para su generación está en constante crecimiento, se necesitó realizar procesos como: análisis funcional, elaboración de diccionario de datos, despliegue de esquemas, ingesta de datos, procesamiento de datos, aplicación de reglas de calidad, orquestación de pipelines. La arquitectura del proyecto se basó en tecnologías de Big Data como Apache Hadoop para el almacenamiento de datos en Data Lake basados en HDFS, Apache Spark para el procesamiento de datos distribuidos y Control-M para la orquestación del flujo de trabajo de datos para su ejecución automática y periódica. Para la gestión del proyecto se trabaja con la metodología ágil Scrum por ser el estándar dentro de la organización, que permitió la revisión de avances en cada fin de sprint para obtener retroalimentación. Como resultado de la implementación, se logró brindar información de alta calidad y de manera oportuna al equipo de Regulatory Reporting, optimizando los tiempos de generación de los reportes contables.application/pdfspaUniversidad Nacional Mayor de San MarcosPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Datos masivosProcesamiento de datosProcesos distribuidosScrum (Desarrollo de software para computadora)https://purl.org/pe-repo/ocde/ford#2.02.04Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancariainfo:eu-repo/semantics/bachelorThesisreponame:UNMSM-Tesisinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMSUNEDUIngeniero de SistemasUniversidad Nacional Mayor de San Marcos. Facultad de Ingeniería de Sistemas e Informática. Escuela Profesional de Ingeniería de SistemasIngeniería de Sistemas08280889https://orcid.org/0000-0001-9531-881X72802002612076Espinoza Robles, Armando DavidHuapaya Chumpitaz, Mario Agustinhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#trabajoDeSuficienciaProfesionalLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://cybertesis.unmsm.edu.pe/bitstreams/a4c8be79-70b1-4d10-bd33-ea9c3c0cc975/downloadbb9bdc0b3349e4284e09149f943790b4MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8905https://cybertesis.unmsm.edu.pe/bitstreams/987cdb30-4bbe-4e65-be48-5a52441924be/download1f14487299a8a795dc379bc1df9968a0MD52ORIGINALYupanqui_ca.pdfYupanqui_ca.pdfapplication/pdf8694200https://cybertesis.unmsm.edu.pe/bitstreams/f0cb83d2-0fe2-41ce-b904-e4113b36cf12/downloadc7d1770300a6377e28b33d6c35fffd42MD53C1583_2024_Yupanqui_ca_autorización.pdfapplication/pdf235302https://cybertesis.unmsm.edu.pe/bitstreams/bc31fafb-a838-467d-a72f-4e2e08827541/downloadc5a21638715f9a157b9505fd49407a2dMD54C1583_2024_Yupanqui_ca_reporte.pdfapplication/pdf18499003https://cybertesis.unmsm.edu.pe/bitstreams/4ca1d734-e5a0-425c-b59a-3e3d6adf15f7/download284f99675ff69ccf2f47d811905f4796MD55TEXTYupanqui_ca.pdf.txtYupanqui_ca.pdf.txtExtracted texttext/plain101297https://cybertesis.unmsm.edu.pe/bitstreams/83dd5c42-6808-41cb-9402-6c374f2e0179/download1f4aa4636ba38fc8a76a61b4f59d394dMD56C1583_2024_Yupanqui_ca_autorización.pdf.txtC1583_2024_Yupanqui_ca_autorización.pdf.txtExtracted texttext/plain4024https://cybertesis.unmsm.edu.pe/bitstreams/ce4714a1-fda8-4b53-b5d9-e2c286ed9457/download73d64d07b1e1925bbde5cef4e12916acMD58C1583_2024_Yupanqui_ca_reporte.pdf.txtC1583_2024_Yupanqui_ca_reporte.pdf.txtExtracted texttext/plain2114https://cybertesis.unmsm.edu.pe/bitstreams/f4ec493e-869f-46ad-91be-30f9e3a2b90f/download301bd9a6445fc3e9ec0b15333c8ffffdMD510THUMBNAILYupanqui_ca.pdf.jpgYupanqui_ca.pdf.jpgGenerated Thumbnailimage/jpeg17155https://cybertesis.unmsm.edu.pe/bitstreams/341b55f2-486b-400a-bbbe-0825ce43026b/downloadf40192ef62ca809b14ec17f962393c0bMD57C1583_2024_Yupanqui_ca_autorización.pdf.jpgC1583_2024_Yupanqui_ca_autorización.pdf.jpgGenerated Thumbnailimage/jpeg23466https://cybertesis.unmsm.edu.pe/bitstreams/3f528006-1c0d-4e64-bc83-a0abf9a2df62/download88c636d62a8dabaa00635dd9a948db8eMD59C1583_2024_Yupanqui_ca_reporte.pdf.jpgC1583_2024_Yupanqui_ca_reporte.pdf.jpgGenerated Thumbnailimage/jpeg8842https://cybertesis.unmsm.edu.pe/bitstreams/cb675cc4-63b7-4cf0-9cec-e0d61227ad6a/downloadb8b07ab79de5e5ab683fb3331b4a9300MD51120.500.12672/22641oai:cybertesis.unmsm.edu.pe:20.500.12672/226412024-08-16 01:13:24.187http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://cybertesis.unmsm.edu.peCybertesis UNMSMcybertesis@unmsm.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score	12.820099

Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Implementación de una solución big data usando el framework de procesamiento distribuido Spark para optimizar el tiempo de generación de reportes contables en una entidad bancaria

Descripción del Articulo

Ejemplares Similares