Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres

Descripción del Articulo

La presente investigación titulada: Automatización de web Scraping de los diarios de noticias para la empresa Isuri, tuvo como objetivo el desarrollo la automatización de web Scraping de los diarios de noticias para la empresa Isuri, dedicada a la monitorización de noticias de web en el distrito de...

Descripción completa

Detalles Bibliográficos
Autor: Martinez Nuñez, Antonio Federico
Formato: tesis de maestría
Fecha de Publicación:2020
Institución:Universidad Cesar Vallejo
Repositorio:UCV-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ucv.edu.pe:20.500.12692/48352
Enlace del recurso:https://hdl.handle.net/20.500.12692/48352
Nivel de acceso:acceso abierto
Materia:Sistema web
Sistemas de información gerencial - Diseño y construcción
Periódicos - Uso de tecnologías de la información
Sistema web - Automatización
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:La presente investigación titulada: Automatización de web Scraping de los diarios de noticias para la empresa Isuri, tuvo como objetivo el desarrollo la automatización de web Scraping de los diarios de noticias para la empresa Isuri, dedicada a la monitorización de noticias de web en el distrito de San Martin de Porres, la investigación fue de enfoque cualitativo, el método de investigación se basó en el paradigma interpretativo, tipo de investigación aplicada tecnológica y se utilizó el diseño de investigación acción. Se empleó como técnicas de recolección de datos, la entrevista a profundidad semiestructurada realizada a expertos, la observación a la unidad de estudio la cual fue la oficina el departamento de tecnología de la información de la empresa Isuri y el análisis documental. Además, se utilizó el método inductivo para el análisis de la información. Se Concluye que la empresa tuvo un gran consumo de recursos de presupuesto y humano, los cuales son usados en tres procesos, un aplicativo interno que está desplegado en dos servidores en la nube, un proveedor especializado de donde se extraer cierta cantidad de noticias mensuales, y por último el personal dedicado al ingreso manual de las noticias al sistema comercial. A través de la automatización de este proceso mediante el uso de nuevas tecnologías, modelado de extracción, las reglas del negocio y los valores generados para la toma de decisiones basadas en datos, se vio reflejado la reducción de manera considerable en los recursos que son usados para el proceso de web Scraping. Para la reducción principal del uso de los recursos computacionales se usó Serverless, para el control y balance del flujo del proceso se usó Nifi con Kafka de apache.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).