Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas

Descripción del Articulo

Aborda sobre el diseño e implementación de un Data Lake, en una entidad del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La implementación se realiza en la nube pública de Microso...

Descripción completa

Detalles Bibliográficos
Autor: Huayllasco Cáceres, Renzo Alfredo
Formato: tesis de grado
Fecha de Publicación:2023
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:UNMSM-Tesis
Lenguaje:español
OAI Identifier:oai:cybertesis.unmsm.edu.pe:20.500.12672/21112
Enlace del recurso:https://hdl.handle.net/20.500.12672/21112
Nivel de acceso:acceso abierto
Materia:Microfinanzas
Datos masivos
https://purl.org/pe-repo/ocde/ford#1.02.01
https://purl.org/pe-repo/ocde/ford#1.02.02
id UNMS_e333b06ac4c05fd60d4200abeaad7371
oai_identifier_str oai:cybertesis.unmsm.edu.pe:20.500.12672/21112
network_acronym_str UNMS
network_name_str UNMSM-Tesis
repository_id_str 410
dc.title.es_PE.fl_str_mv Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
title Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
spellingShingle Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
Huayllasco Cáceres, Renzo Alfredo
Microfinanzas
Datos masivos
https://purl.org/pe-repo/ocde/ford#1.02.01
https://purl.org/pe-repo/ocde/ford#1.02.02
title_short Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
title_full Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
title_fullStr Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
title_full_unstemmed Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
title_sort Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
author Huayllasco Cáceres, Renzo Alfredo
author_facet Huayllasco Cáceres, Renzo Alfredo
author_role author
dc.contributor.advisor.fl_str_mv Vásquez Serpa, Luis Javier
dc.contributor.author.fl_str_mv Huayllasco Cáceres, Renzo Alfredo
dc.subject.es_PE.fl_str_mv Microfinanzas
Datos masivos
topic Microfinanzas
Datos masivos
https://purl.org/pe-repo/ocde/ford#1.02.01
https://purl.org/pe-repo/ocde/ford#1.02.02
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.01
https://purl.org/pe-repo/ocde/ford#1.02.02
description Aborda sobre el diseño e implementación de un Data Lake, en una entidad del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La implementación se realiza en la nube pública de Microsoft Azure. Se emplean recursos como Azure Databricks, Data Factory, Data Lake Storage Gen2 para el frente de infraestructura. La lógica de procesamiento se desarrolla en el lenguaje Scala sobre el framework de Apache Spark. Así mismo, el Unity Catalog de Databricks para la gestión de metadatos y control de acceso. Como resultado, se obtiene un Data Lake conformado por cuatro capas: LandingLayer, IngestionLayer, ProcessLayer y FunctionLayer. En cada una de las capas se realiza un tratamiento específico, de manera secuencial, a la data. Cara al usuario final se dispone de un modelo de datos, cuya estructura responde a definiciones de gobierno, al cual pueden acceder mediante los sandbox. En conclusión, se diseña e implementa un Data Lake provisto de funcionalidades que responden a las necesidades del negocio. El tiempo y esfuerzo de construcción de workflows de ingesta y procesamiento de datos son de bajo costo. Realizar la exploración y trazabilidad de los datos es amigable cara al usuario final.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2024-01-23T20:50:13Z
dc.date.available.none.fl_str_mv 2024-01-23T20:50:13Z
dc.date.issued.fl_str_mv 2023
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.citation.es_PE.fl_str_mv Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM.
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12672/21112
identifier_str_mv Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM.
url https://hdl.handle.net/20.500.12672/21112
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional Mayor de San Marcos
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional Mayor de San Marcos
Repositorio de Tesis - UNMSM
dc.source.none.fl_str_mv reponame:UNMSM-Tesis
instname:Universidad Nacional Mayor de San Marcos
instacron:UNMSM
instname_str Universidad Nacional Mayor de San Marcos
instacron_str UNMSM
institution UNMSM
reponame_str UNMSM-Tesis
collection UNMSM-Tesis
bitstream.url.fl_str_mv https://cybertesis.unmsm.edu.pe/bitstreams/b89fafb9-d59d-4e11-91de-3ebb1c9b3127/download
https://cybertesis.unmsm.edu.pe/bitstreams/4d5f000e-8bcd-4ab7-b358-9e991e51b3db/download
https://cybertesis.unmsm.edu.pe/bitstreams/f76e2c2a-035f-4d1d-9390-1a83b3a1652a/download
https://cybertesis.unmsm.edu.pe/bitstreams/b3c9fd8c-ec1e-44b5-86ad-22ba45c0409a/download
https://cybertesis.unmsm.edu.pe/bitstreams/3c99694a-c85f-40fc-90c6-fc4870b571e3/download
https://cybertesis.unmsm.edu.pe/bitstreams/5e3a1f7d-53c4-46e5-9025-9b812a0f588a/download
https://cybertesis.unmsm.edu.pe/bitstreams/2630dd58-9878-4196-93aa-7dd2f6575dbb/download
https://cybertesis.unmsm.edu.pe/bitstreams/119a05dc-3866-4f00-b178-033313dfd3b6/download
https://cybertesis.unmsm.edu.pe/bitstreams/035582e1-a197-440a-a9a8-b0709f877e45/download
https://cybertesis.unmsm.edu.pe/bitstreams/d75c5b1b-656a-4a11-a6fb-8fcd5d88deea/download
bitstream.checksum.fl_str_mv 2e9df9a6d80c940970d41d9e8df93244
84e96aefd8e5173341846d1b976c1b0e
57e1f5757bc5a2d5072be5397909e1b2
8a4605be74aa9ea9d79846c1fba20a33
e05259df25b0f4a46e331898edaea2d9
8587ab237d44e94b466bd0aec15e7421
97c644b7544b775a616e006c9ed17e1c
941696914a2cea90230dfb9ff3c398f7
1911af7ca95e39ecfe73bdff972c32bc
0e322c7e212931147ce73b9d2c8eeb02
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Cybertesis UNMSM
repository.mail.fl_str_mv cybertesis@unmsm.edu.pe
_version_ 1854865005450625024
spelling Vásquez Serpa, Luis JavierHuayllasco Cáceres, Renzo Alfredo2024-01-23T20:50:13Z2024-01-23T20:50:13Z2023Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM.https://hdl.handle.net/20.500.12672/21112Aborda sobre el diseño e implementación de un Data Lake, en una entidad del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La implementación se realiza en la nube pública de Microsoft Azure. Se emplean recursos como Azure Databricks, Data Factory, Data Lake Storage Gen2 para el frente de infraestructura. La lógica de procesamiento se desarrolla en el lenguaje Scala sobre el framework de Apache Spark. Así mismo, el Unity Catalog de Databricks para la gestión de metadatos y control de acceso. Como resultado, se obtiene un Data Lake conformado por cuatro capas: LandingLayer, IngestionLayer, ProcessLayer y FunctionLayer. En cada una de las capas se realiza un tratamiento específico, de manera secuencial, a la data. Cara al usuario final se dispone de un modelo de datos, cuya estructura responde a definiciones de gobierno, al cual pueden acceder mediante los sandbox. En conclusión, se diseña e implementa un Data Lake provisto de funcionalidades que responden a las necesidades del negocio. El tiempo y esfuerzo de construcción de workflows de ingesta y procesamiento de datos son de bajo costo. Realizar la exploración y trazabilidad de los datos es amigable cara al usuario final.application/pdfspaUniversidad Nacional Mayor de San MarcosPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Universidad Nacional Mayor de San MarcosRepositorio de Tesis - UNMSMreponame:UNMSM-Tesisinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMMicrofinanzasDatos masivoshttps://purl.org/pe-repo/ocde/ford#1.02.01https://purl.org/pe-repo/ocde/ford#1.02.02Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzasinfo:eu-repo/semantics/bachelorThesisSUNEDULicenciado en Computación CientíficaUniversidad Nacional Mayor de San Marcos. Facultad de Ciencias Matemáticas. Escuela Profesional de Computación CientíficaComputación Científica43389380https://orcid.org/0000-0002-5414-676470436616611026Alvarez Huertas, Frank DuberleeZorrilla Masias, Henryhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#trabajoDeSuficienciaProfesional4517355741190698ORIGINALHuayllasco_cr.pdfapplication/pdf4605382https://cybertesis.unmsm.edu.pe/bitstreams/b89fafb9-d59d-4e11-91de-3ebb1c9b3127/download2e9df9a6d80c940970d41d9e8df93244MD55C0167_2023_Huayllasco_cr_reporte_turnitin.pdfapplication/pdf13298601https://cybertesis.unmsm.edu.pe/bitstreams/4d5f000e-8bcd-4ab7-b358-9e991e51b3db/download84e96aefd8e5173341846d1b976c1b0eMD56C0167_2023_Huayllasco_cr_autorizacion.pdfapplication/pdf158652https://cybertesis.unmsm.edu.pe/bitstreams/f76e2c2a-035f-4d1d-9390-1a83b3a1652a/download57e1f5757bc5a2d5072be5397909e1b2MD58LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://cybertesis.unmsm.edu.pe/bitstreams/b3c9fd8c-ec1e-44b5-86ad-22ba45c0409a/download8a4605be74aa9ea9d79846c1fba20a33MD52TEXTHuayllasco_cr.pdf.txtHuayllasco_cr.pdf.txtExtracted texttext/plain90269https://cybertesis.unmsm.edu.pe/bitstreams/3c99694a-c85f-40fc-90c6-fc4870b571e3/downloade05259df25b0f4a46e331898edaea2d9MD59C0167_2023_Huayllasco_cr_reporte_turnitin.pdf.txtC0167_2023_Huayllasco_cr_reporte_turnitin.pdf.txtExtracted texttext/plain1315https://cybertesis.unmsm.edu.pe/bitstreams/5e3a1f7d-53c4-46e5-9025-9b812a0f588a/download8587ab237d44e94b466bd0aec15e7421MD511C0167_2023_Huayllasco_cr_autorizacion.pdf.txtC0167_2023_Huayllasco_cr_autorizacion.pdf.txtExtracted texttext/plain3912https://cybertesis.unmsm.edu.pe/bitstreams/2630dd58-9878-4196-93aa-7dd2f6575dbb/download97c644b7544b775a616e006c9ed17e1cMD513THUMBNAILHuayllasco_cr.pdf.jpgHuayllasco_cr.pdf.jpgGenerated Thumbnailimage/jpeg16472https://cybertesis.unmsm.edu.pe/bitstreams/119a05dc-3866-4f00-b178-033313dfd3b6/download941696914a2cea90230dfb9ff3c398f7MD510C0167_2023_Huayllasco_cr_reporte_turnitin.pdf.jpgC0167_2023_Huayllasco_cr_reporte_turnitin.pdf.jpgGenerated Thumbnailimage/jpeg17767https://cybertesis.unmsm.edu.pe/bitstreams/035582e1-a197-440a-a9a8-b0709f877e45/download1911af7ca95e39ecfe73bdff972c32bcMD512C0167_2023_Huayllasco_cr_autorizacion.pdf.jpgC0167_2023_Huayllasco_cr_autorizacion.pdf.jpgGenerated Thumbnailimage/jpeg20150https://cybertesis.unmsm.edu.pe/bitstreams/d75c5b1b-656a-4a11-a6fb-8fcd5d88deea/download0e322c7e212931147ce73b9d2c8eeb02MD51420.500.12672/21112oai:cybertesis.unmsm.edu.pe:20.500.12672/211122024-08-16 02:24:34.773https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://cybertesis.unmsm.edu.peCybertesis UNMSMcybertesis@unmsm.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 12.976011
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).