Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas
Descripción del Articulo
Aborda sobre el diseño e implementación de un Data Lake, en una entidad del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La implementación se realiza en la nube pública de Microso...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2023 |
| Institución: | Universidad Nacional Mayor de San Marcos |
| Repositorio: | UNMSM-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:cybertesis.unmsm.edu.pe:20.500.12672/21112 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12672/21112 |
| Nivel de acceso: | acceso abierto |
| Materia: | Microfinanzas Datos masivos https://purl.org/pe-repo/ocde/ford#1.02.01 https://purl.org/pe-repo/ocde/ford#1.02.02 |
| id |
UNMS_e333b06ac4c05fd60d4200abeaad7371 |
|---|---|
| oai_identifier_str |
oai:cybertesis.unmsm.edu.pe:20.500.12672/21112 |
| network_acronym_str |
UNMS |
| network_name_str |
UNMSM-Tesis |
| repository_id_str |
410 |
| dc.title.es_PE.fl_str_mv |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| title |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| spellingShingle |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas Huayllasco Cáceres, Renzo Alfredo Microfinanzas Datos masivos https://purl.org/pe-repo/ocde/ford#1.02.01 https://purl.org/pe-repo/ocde/ford#1.02.02 |
| title_short |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| title_full |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| title_fullStr |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| title_full_unstemmed |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| title_sort |
Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas |
| author |
Huayllasco Cáceres, Renzo Alfredo |
| author_facet |
Huayllasco Cáceres, Renzo Alfredo |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Vásquez Serpa, Luis Javier |
| dc.contributor.author.fl_str_mv |
Huayllasco Cáceres, Renzo Alfredo |
| dc.subject.es_PE.fl_str_mv |
Microfinanzas Datos masivos |
| topic |
Microfinanzas Datos masivos https://purl.org/pe-repo/ocde/ford#1.02.01 https://purl.org/pe-repo/ocde/ford#1.02.02 |
| dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.01 https://purl.org/pe-repo/ocde/ford#1.02.02 |
| description |
Aborda sobre el diseño e implementación de un Data Lake, en una entidad del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La implementación se realiza en la nube pública de Microsoft Azure. Se emplean recursos como Azure Databricks, Data Factory, Data Lake Storage Gen2 para el frente de infraestructura. La lógica de procesamiento se desarrolla en el lenguaje Scala sobre el framework de Apache Spark. Así mismo, el Unity Catalog de Databricks para la gestión de metadatos y control de acceso. Como resultado, se obtiene un Data Lake conformado por cuatro capas: LandingLayer, IngestionLayer, ProcessLayer y FunctionLayer. En cada una de las capas se realiza un tratamiento específico, de manera secuencial, a la data. Cara al usuario final se dispone de un modelo de datos, cuya estructura responde a definiciones de gobierno, al cual pueden acceder mediante los sandbox. En conclusión, se diseña e implementa un Data Lake provisto de funcionalidades que responden a las necesidades del negocio. El tiempo y esfuerzo de construcción de workflows de ingesta y procesamiento de datos son de bajo costo. Realizar la exploración y trazabilidad de los datos es amigable cara al usuario final. |
| publishDate |
2023 |
| dc.date.accessioned.none.fl_str_mv |
2024-01-23T20:50:13Z |
| dc.date.available.none.fl_str_mv |
2024-01-23T20:50:13Z |
| dc.date.issued.fl_str_mv |
2023 |
| dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.citation.es_PE.fl_str_mv |
Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM. |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12672/21112 |
| identifier_str_mv |
Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM. |
| url |
https://hdl.handle.net/20.500.12672/21112 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.es_PE.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.format.es_PE.fl_str_mv |
application/pdf |
| dc.publisher.es_PE.fl_str_mv |
Universidad Nacional Mayor de San Marcos |
| dc.publisher.country.es_PE.fl_str_mv |
PE |
| dc.source.es_PE.fl_str_mv |
Universidad Nacional Mayor de San Marcos Repositorio de Tesis - UNMSM |
| dc.source.none.fl_str_mv |
reponame:UNMSM-Tesis instname:Universidad Nacional Mayor de San Marcos instacron:UNMSM |
| instname_str |
Universidad Nacional Mayor de San Marcos |
| instacron_str |
UNMSM |
| institution |
UNMSM |
| reponame_str |
UNMSM-Tesis |
| collection |
UNMSM-Tesis |
| bitstream.url.fl_str_mv |
https://cybertesis.unmsm.edu.pe/bitstreams/b89fafb9-d59d-4e11-91de-3ebb1c9b3127/download https://cybertesis.unmsm.edu.pe/bitstreams/4d5f000e-8bcd-4ab7-b358-9e991e51b3db/download https://cybertesis.unmsm.edu.pe/bitstreams/f76e2c2a-035f-4d1d-9390-1a83b3a1652a/download https://cybertesis.unmsm.edu.pe/bitstreams/b3c9fd8c-ec1e-44b5-86ad-22ba45c0409a/download https://cybertesis.unmsm.edu.pe/bitstreams/3c99694a-c85f-40fc-90c6-fc4870b571e3/download https://cybertesis.unmsm.edu.pe/bitstreams/5e3a1f7d-53c4-46e5-9025-9b812a0f588a/download https://cybertesis.unmsm.edu.pe/bitstreams/2630dd58-9878-4196-93aa-7dd2f6575dbb/download https://cybertesis.unmsm.edu.pe/bitstreams/119a05dc-3866-4f00-b178-033313dfd3b6/download https://cybertesis.unmsm.edu.pe/bitstreams/035582e1-a197-440a-a9a8-b0709f877e45/download https://cybertesis.unmsm.edu.pe/bitstreams/d75c5b1b-656a-4a11-a6fb-8fcd5d88deea/download |
| bitstream.checksum.fl_str_mv |
2e9df9a6d80c940970d41d9e8df93244 84e96aefd8e5173341846d1b976c1b0e 57e1f5757bc5a2d5072be5397909e1b2 8a4605be74aa9ea9d79846c1fba20a33 e05259df25b0f4a46e331898edaea2d9 8587ab237d44e94b466bd0aec15e7421 97c644b7544b775a616e006c9ed17e1c 941696914a2cea90230dfb9ff3c398f7 1911af7ca95e39ecfe73bdff972c32bc 0e322c7e212931147ce73b9d2c8eeb02 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Cybertesis UNMSM |
| repository.mail.fl_str_mv |
cybertesis@unmsm.edu.pe |
| _version_ |
1854865005450625024 |
| spelling |
Vásquez Serpa, Luis JavierHuayllasco Cáceres, Renzo Alfredo2024-01-23T20:50:13Z2024-01-23T20:50:13Z2023Huayllasco, R. (2023). Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzas. [Trabajo de Suficiencia Profesional de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Matemáticas, Escuela Profesional de Computación Científica]. Repositorio institucional Cybertesis UNMSM.https://hdl.handle.net/20.500.12672/21112Aborda sobre el diseño e implementación de un Data Lake, en una entidad del rubro de microfinanzas, a fin de disponer de una fuente de datos confiable para la obtención de conocimiento de negocio mediante la aplicación de modelos analíticos. La implementación se realiza en la nube pública de Microsoft Azure. Se emplean recursos como Azure Databricks, Data Factory, Data Lake Storage Gen2 para el frente de infraestructura. La lógica de procesamiento se desarrolla en el lenguaje Scala sobre el framework de Apache Spark. Así mismo, el Unity Catalog de Databricks para la gestión de metadatos y control de acceso. Como resultado, se obtiene un Data Lake conformado por cuatro capas: LandingLayer, IngestionLayer, ProcessLayer y FunctionLayer. En cada una de las capas se realiza un tratamiento específico, de manera secuencial, a la data. Cara al usuario final se dispone de un modelo de datos, cuya estructura responde a definiciones de gobierno, al cual pueden acceder mediante los sandbox. En conclusión, se diseña e implementa un Data Lake provisto de funcionalidades que responden a las necesidades del negocio. El tiempo y esfuerzo de construcción de workflows de ingesta y procesamiento de datos son de bajo costo. Realizar la exploración y trazabilidad de los datos es amigable cara al usuario final.application/pdfspaUniversidad Nacional Mayor de San MarcosPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Universidad Nacional Mayor de San MarcosRepositorio de Tesis - UNMSMreponame:UNMSM-Tesisinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMMicrofinanzasDatos masivoshttps://purl.org/pe-repo/ocde/ford#1.02.01https://purl.org/pe-repo/ocde/ford#1.02.02Diseño e implementación de un Data Lake para la disponibilidad de una fuente confiable de datos en una empresa de microfinanzasinfo:eu-repo/semantics/bachelorThesisSUNEDULicenciado en Computación CientíficaUniversidad Nacional Mayor de San Marcos. Facultad de Ciencias Matemáticas. Escuela Profesional de Computación CientíficaComputación Científica43389380https://orcid.org/0000-0002-5414-676470436616611026Alvarez Huertas, Frank DuberleeZorrilla Masias, Henryhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#trabajoDeSuficienciaProfesional4517355741190698ORIGINALHuayllasco_cr.pdfapplication/pdf4605382https://cybertesis.unmsm.edu.pe/bitstreams/b89fafb9-d59d-4e11-91de-3ebb1c9b3127/download2e9df9a6d80c940970d41d9e8df93244MD55C0167_2023_Huayllasco_cr_reporte_turnitin.pdfapplication/pdf13298601https://cybertesis.unmsm.edu.pe/bitstreams/4d5f000e-8bcd-4ab7-b358-9e991e51b3db/download84e96aefd8e5173341846d1b976c1b0eMD56C0167_2023_Huayllasco_cr_autorizacion.pdfapplication/pdf158652https://cybertesis.unmsm.edu.pe/bitstreams/f76e2c2a-035f-4d1d-9390-1a83b3a1652a/download57e1f5757bc5a2d5072be5397909e1b2MD58LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://cybertesis.unmsm.edu.pe/bitstreams/b3c9fd8c-ec1e-44b5-86ad-22ba45c0409a/download8a4605be74aa9ea9d79846c1fba20a33MD52TEXTHuayllasco_cr.pdf.txtHuayllasco_cr.pdf.txtExtracted texttext/plain90269https://cybertesis.unmsm.edu.pe/bitstreams/3c99694a-c85f-40fc-90c6-fc4870b571e3/downloade05259df25b0f4a46e331898edaea2d9MD59C0167_2023_Huayllasco_cr_reporte_turnitin.pdf.txtC0167_2023_Huayllasco_cr_reporte_turnitin.pdf.txtExtracted texttext/plain1315https://cybertesis.unmsm.edu.pe/bitstreams/5e3a1f7d-53c4-46e5-9025-9b812a0f588a/download8587ab237d44e94b466bd0aec15e7421MD511C0167_2023_Huayllasco_cr_autorizacion.pdf.txtC0167_2023_Huayllasco_cr_autorizacion.pdf.txtExtracted texttext/plain3912https://cybertesis.unmsm.edu.pe/bitstreams/2630dd58-9878-4196-93aa-7dd2f6575dbb/download97c644b7544b775a616e006c9ed17e1cMD513THUMBNAILHuayllasco_cr.pdf.jpgHuayllasco_cr.pdf.jpgGenerated Thumbnailimage/jpeg16472https://cybertesis.unmsm.edu.pe/bitstreams/119a05dc-3866-4f00-b178-033313dfd3b6/download941696914a2cea90230dfb9ff3c398f7MD510C0167_2023_Huayllasco_cr_reporte_turnitin.pdf.jpgC0167_2023_Huayllasco_cr_reporte_turnitin.pdf.jpgGenerated Thumbnailimage/jpeg17767https://cybertesis.unmsm.edu.pe/bitstreams/035582e1-a197-440a-a9a8-b0709f877e45/download1911af7ca95e39ecfe73bdff972c32bcMD512C0167_2023_Huayllasco_cr_autorizacion.pdf.jpgC0167_2023_Huayllasco_cr_autorizacion.pdf.jpgGenerated Thumbnailimage/jpeg20150https://cybertesis.unmsm.edu.pe/bitstreams/d75c5b1b-656a-4a11-a6fb-8fcd5d88deea/download0e322c7e212931147ce73b9d2c8eeb02MD51420.500.12672/21112oai:cybertesis.unmsm.edu.pe:20.500.12672/211122024-08-16 02:24:34.773https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://cybertesis.unmsm.edu.peCybertesis UNMSMcybertesis@unmsm.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
12.976011 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).