Arquitectura homogénea y heterogénea para el procesamiento distribuido de datos no estructurados con Framework Hadoop

Descripción del Articulo

La propuesta del presente trabajo de investigación es diseñar e implementar una arquitectura homogénea y heterogénea basado en el framework Hadoop, bajo el modelo cliente/servidor en base a Hardware Commodity, generando así clúster homogénea y heterogénea. Dichos clústeres son tolerantes a fallos, a...

Descripción completa

Detalles Bibliográficos
Autor: Huancahuire Bravo, Claudio Isaias
Formato: tesis de maestría
Fecha de Publicación:2021
Institución:Universidad Nacional de San Antonio Abad del Cusco
Repositorio:UNSAAC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsaac.edu.pe:20.500.12918/5901
Enlace del recurso:http://hdl.handle.net/20.500.12918/5901
Nivel de acceso:acceso abierto
Materia:Big data
MapReduce
No estructurado
Nodos
http://purl.org/pe-repo/ocde/ford#1.02.02
Descripción
Sumario:La propuesta del presente trabajo de investigación es diseñar e implementar una arquitectura homogénea y heterogénea basado en el framework Hadoop, bajo el modelo cliente/servidor en base a Hardware Commodity, generando así clúster homogénea y heterogénea. Dichos clústeres son tolerantes a fallos, acoplado su parte lógica con el modelo de programación MapReduce y luego almacenar los datos no estructurados en sistema de archivos distribuidos HDFS ubicados en nodos esclavos y dichos nodos al ser adicionados con memoria RAM, disco duro y E/S entrada/salida de datos hace que los tiempos de rendimiento disminuya tanto en clúster homogénea y heterogénea que permite procesar grandes volúmenes de datos con la función Map que convierte en números de pares clave/valor y la función Reduce procesa las tuplas clave/valor que llegan de la función Map los reduce para su salida final. La mejora de esta arquitectura con Framework Apache Hadoop es YARN (otro Administrador de recursos que mejora la versión anterior) por parte de Hadoop versión 2, que coordina exclusivamente los recursos del clúster y administra que bloques se distribuyen en discos locales los nodos esclavos y por último el almacenamiento en HDFS (Sistema de Archivos Distribuidos sobre Hadoop) que es donde se almacena los bloques y réplicas en cada nodo esclavo y el aprovisionamiento, administración y monitoreo de todo la arquitectura en conjunto como uno solo servidor-clúster. Logrando la característica escalable horizontalmente en arquitectura homogénea y heterogénea.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).