Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres
Descripción del Articulo
La presente investigación titulada: Automatización de web Scraping de los diarios de noticias para la empresa Isuri, tuvo como objetivo el desarrollo la automatización de web Scraping de los diarios de noticias para la empresa Isuri, dedicada a la monitorización de noticias de web en el distrito de...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2020 |
Institución: | Universidad Cesar Vallejo |
Repositorio: | UCV-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.ucv.edu.pe:20.500.12692/48352 |
Enlace del recurso: | https://hdl.handle.net/20.500.12692/48352 |
Nivel de acceso: | acceso abierto |
Materia: | Sistema web Sistemas de información gerencial - Diseño y construcción Periódicos - Uso de tecnologías de la información Sistema web - Automatización https://purl.org/pe-repo/ocde/ford#2.02.04 |
id |
UCVV_6d4d42e5eee5bd468dc7fd75a8cc4343 |
---|---|
oai_identifier_str |
oai:repositorio.ucv.edu.pe:20.500.12692/48352 |
network_acronym_str |
UCVV |
network_name_str |
UCV-Institucional |
repository_id_str |
3741 |
dc.title.es_PE.fl_str_mv |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
title |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
spellingShingle |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres Martinez Nuñez, Antonio Federico Sistema web Sistemas de información gerencial - Diseño y construcción Periódicos - Uso de tecnologías de la información Sistema web - Automatización https://purl.org/pe-repo/ocde/ford#2.02.04 |
title_short |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
title_full |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
title_fullStr |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
title_full_unstemmed |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
title_sort |
Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porres |
author |
Martinez Nuñez, Antonio Federico |
author_facet |
Martinez Nuñez, Antonio Federico |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Martínez López, Edwin Alberto |
dc.contributor.author.fl_str_mv |
Martinez Nuñez, Antonio Federico |
dc.subject.es_PE.fl_str_mv |
Sistema web Sistemas de información gerencial - Diseño y construcción Periódicos - Uso de tecnologías de la información Sistema web - Automatización |
topic |
Sistema web Sistemas de información gerencial - Diseño y construcción Periódicos - Uso de tecnologías de la información Sistema web - Automatización https://purl.org/pe-repo/ocde/ford#2.02.04 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
description |
La presente investigación titulada: Automatización de web Scraping de los diarios de noticias para la empresa Isuri, tuvo como objetivo el desarrollo la automatización de web Scraping de los diarios de noticias para la empresa Isuri, dedicada a la monitorización de noticias de web en el distrito de San Martin de Porres, la investigación fue de enfoque cualitativo, el método de investigación se basó en el paradigma interpretativo, tipo de investigación aplicada tecnológica y se utilizó el diseño de investigación acción. Se empleó como técnicas de recolección de datos, la entrevista a profundidad semiestructurada realizada a expertos, la observación a la unidad de estudio la cual fue la oficina el departamento de tecnología de la información de la empresa Isuri y el análisis documental. Además, se utilizó el método inductivo para el análisis de la información. Se Concluye que la empresa tuvo un gran consumo de recursos de presupuesto y humano, los cuales son usados en tres procesos, un aplicativo interno que está desplegado en dos servidores en la nube, un proveedor especializado de donde se extraer cierta cantidad de noticias mensuales, y por último el personal dedicado al ingreso manual de las noticias al sistema comercial. A través de la automatización de este proceso mediante el uso de nuevas tecnologías, modelado de extracción, las reglas del negocio y los valores generados para la toma de decisiones basadas en datos, se vio reflejado la reducción de manera considerable en los recursos que son usados para el proceso de web Scraping. Para la reducción principal del uso de los recursos computacionales se usó Serverless, para el control y balance del flujo del proceso se usó Nifi con Kafka de apache. |
publishDate |
2020 |
dc.date.accessioned.none.fl_str_mv |
2020-10-31T17:21:36Z |
dc.date.available.none.fl_str_mv |
2020-10-31T17:21:36Z |
dc.date.issued.fl_str_mv |
2020 |
dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12692/48352 |
url |
https://hdl.handle.net/20.500.12692/48352 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.es_PE.fl_str_mv |
https://creativecommons.org/licenses/by/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by/4.0/ |
dc.format.es_PE.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad César Vallejo |
dc.publisher.country.es_PE.fl_str_mv |
PE |
dc.source.es_PE.fl_str_mv |
Repositorio Institucional - UCV Universidad César Vallejo |
dc.source.none.fl_str_mv |
reponame:UCV-Institucional instname:Universidad Cesar Vallejo instacron:UCV |
instname_str |
Universidad Cesar Vallejo |
instacron_str |
UCV |
institution |
UCV |
reponame_str |
UCV-Institucional |
collection |
UCV-Institucional |
bitstream.url.fl_str_mv |
https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/1/Martinez_NAF-SD.pdf https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/2/Martinez_NAF.pdf https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/3/license.txt https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/4/Martinez_NAF-SD.pdf.txt https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/6/Martinez_NAF.pdf.txt https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/5/Martinez_NAF-SD.pdf.jpg https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/7/Martinez_NAF.pdf.jpg |
bitstream.checksum.fl_str_mv |
93bef59d803eaab074fde5cf95c62381 eff3d6dc7885d5272f47b85d500853ff 8a4605be74aa9ea9d79846c1fba20a33 181d4425f08ca6699c08f4c939718267 181d4425f08ca6699c08f4c939718267 1981418a36b13ec28b3f6725a430a6e3 bfbe8d38b691538959bda34c610294ed |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio de la Universidad César Vallejo |
repository.mail.fl_str_mv |
repositorio@ucv.edu.pe |
_version_ |
1807922604344868864 |
spelling |
Martínez López, Edwin AlbertoMartinez Nuñez, Antonio Federico2020-10-31T17:21:36Z2020-10-31T17:21:36Z2020https://hdl.handle.net/20.500.12692/48352La presente investigación titulada: Automatización de web Scraping de los diarios de noticias para la empresa Isuri, tuvo como objetivo el desarrollo la automatización de web Scraping de los diarios de noticias para la empresa Isuri, dedicada a la monitorización de noticias de web en el distrito de San Martin de Porres, la investigación fue de enfoque cualitativo, el método de investigación se basó en el paradigma interpretativo, tipo de investigación aplicada tecnológica y se utilizó el diseño de investigación acción. Se empleó como técnicas de recolección de datos, la entrevista a profundidad semiestructurada realizada a expertos, la observación a la unidad de estudio la cual fue la oficina el departamento de tecnología de la información de la empresa Isuri y el análisis documental. Además, se utilizó el método inductivo para el análisis de la información. Se Concluye que la empresa tuvo un gran consumo de recursos de presupuesto y humano, los cuales son usados en tres procesos, un aplicativo interno que está desplegado en dos servidores en la nube, un proveedor especializado de donde se extraer cierta cantidad de noticias mensuales, y por último el personal dedicado al ingreso manual de las noticias al sistema comercial. A través de la automatización de este proceso mediante el uso de nuevas tecnologías, modelado de extracción, las reglas del negocio y los valores generados para la toma de decisiones basadas en datos, se vio reflejado la reducción de manera considerable en los recursos que son usados para el proceso de web Scraping. Para la reducción principal del uso de los recursos computacionales se usó Serverless, para el control y balance del flujo del proceso se usó Nifi con Kafka de apache.TesisLima NorteEscuela de PosgradoSistemas de Información y Comunicacionesapplication/pdfspaUniversidad César VallejoPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by/4.0/Repositorio Institucional - UCVUniversidad César Vallejoreponame:UCV-Institucionalinstname:Universidad Cesar Vallejoinstacron:UCVSistema webSistemas de información gerencial - Diseño y construcciónPeriódicos - Uso de tecnologías de la informaciónSistema web - Automatizaciónhttps://purl.org/pe-repo/ocde/ford#2.02.04Automatización de web Scraping de los diarios de noticias para la empresa Isuri, San Martín de Porresinfo:eu-repo/semantics/masterThesisSUNEDUMaestría en Ingeniería de Sistemas con Mención en Tecnologías de la InformaciónUniversidad César Vallejo. Escuela de PosgradoMaestro en Ingeniería de Sistemas con mención en Tecnologías de la Información09080039https://orcid.org/0000-0002-1769-118145676320612427Esquivel Castillo, Luis AlejandroMartínez López, Edwin AlbertoRamirez Rios, Alejandrohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALMartinez_NAF-SD.pdfMartinez_NAF-SD.pdfapplication/pdf3902498https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/1/Martinez_NAF-SD.pdf93bef59d803eaab074fde5cf95c62381MD51Martinez_NAF.pdfMartinez_NAF.pdfapplication/pdf3898548https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/2/Martinez_NAF.pdfeff3d6dc7885d5272f47b85d500853ffMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTMartinez_NAF-SD.pdf.txtMartinez_NAF-SD.pdf.txtExtracted texttext/plain196400https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/4/Martinez_NAF-SD.pdf.txt181d4425f08ca6699c08f4c939718267MD54Martinez_NAF.pdf.txtMartinez_NAF.pdf.txtExtracted texttext/plain196400https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/6/Martinez_NAF.pdf.txt181d4425f08ca6699c08f4c939718267MD56THUMBNAILMartinez_NAF-SD.pdf.jpgMartinez_NAF-SD.pdf.jpgGenerated Thumbnailimage/jpeg5245https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/5/Martinez_NAF-SD.pdf.jpg1981418a36b13ec28b3f6725a430a6e3MD55Martinez_NAF.pdf.jpgMartinez_NAF.pdf.jpgGenerated Thumbnailimage/jpeg5237https://repositorio.ucv.edu.pe/bitstream/20.500.12692/48352/7/Martinez_NAF.pdf.jpgbfbe8d38b691538959bda34c610294edMD5720.500.12692/48352oai:repositorio.ucv.edu.pe:20.500.12692/483522020-11-01 03:07:31.845Repositorio de la Universidad César Vallejorepositorio@ucv.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
13.958958 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).