Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Descripción del Articulo

Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El us...

Descripción completa

Detalles Bibliográficos
Autor: Castañeda Rojas, Edson Bryan
Formato: tesis de maestría
Fecha de Publicación:2016
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/7513
Enlace del recurso:http://hdl.handle.net/20.500.12404/7513
Nivel de acceso:acceso abierto
Materia:Patrones de software
Sitios Web--Medidas de segurdidad
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_1ae876bb93c37645d5830984dea23faa
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/7513
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
spellingShingle Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
Castañeda Rojas, Edson Bryan
Patrones de software
Sitios Web--Medidas de segurdidad
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_full Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_fullStr Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_full_unstemmed Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_sort Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
author Castañeda Rojas, Edson Bryan
author_facet Castañeda Rojas, Edson Bryan
author_role author
dc.contributor.advisor.fl_str_mv Melgar Sasieta, Héctor Andrés
dc.contributor.author.fl_str_mv Castañeda Rojas, Edson Bryan
dc.subject.es_ES.fl_str_mv Patrones de software
Sitios Web--Medidas de segurdidad
topic Patrones de software
Sitios Web--Medidas de segurdidad
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos.
publishDate 2016
dc.date.accessioned.es_ES.fl_str_mv 2016-11-26T17:22:22Z
dc.date.available.es_ES.fl_str_mv 2016-11-26T17:22:22Z
dc.date.created.es_ES.fl_str_mv 2016
dc.date.issued.fl_str_mv 2016-11-26
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/7513
url http://hdl.handle.net/20.500.12404/7513
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/59ca1796-a148-48d8-a62d-f08c453875ec/download
https://tesis.pucp.edu.pe/bitstreams/62126c07-c0ec-4042-96ec-94394cf75fe2/download
https://tesis.pucp.edu.pe/bitstreams/eaf0710a-bdd2-4065-9910-c5af867b5cc5/download
https://tesis.pucp.edu.pe/bitstreams/f779964f-9efe-4966-9d8b-20eefe6d79e1/download
https://tesis.pucp.edu.pe/bitstreams/0130d160-9d7f-4dfc-80e3-36f9060bfe63/download
https://tesis.pucp.edu.pe/bitstreams/4271edf9-3dac-499b-92d7-2f83b8cf4ffc/download
https://tesis.pucp.edu.pe/bitstreams/f490e262-d2a7-4523-8e2b-0575134e9d98/download
https://tesis.pucp.edu.pe/bitstreams/8547e7b4-8a6d-4286-96d0-fdfdf23e783c/download
bitstream.checksum.fl_str_mv 543ba7140baf06a885311ff9440ba40e
e77a6dc95ca2e68a8715b9ae6d9224a6
8fc46f5e71650fd7adee84a69b9163c2
8a4605be74aa9ea9d79846c1fba20a33
c9570e8f5863cab42a029bb750f91e2a
b3e6834250551bfcf1731fb055578c39
b6eefcf7ec85a6c436b53987c7df32e0
7a02bde35248cec79a8cf2fce0434d83
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1839177050410188800
spelling Melgar Sasieta, Héctor AndrésCastañeda Rojas, Edson Bryan2016-11-26T17:22:22Z2016-11-26T17:22:22Z20162016-11-26http://hdl.handle.net/20.500.12404/7513Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Patrones de softwareSitios Web--Medidas de segurdidadhttps://purl.org/pe-repo/ocde/ford#1.02.00Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido webinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Ingeniería de SoftwareMaestríaPontificia Universidad Católica del Perú. Escuela de PosgradoIngeniería de Software10145776612357https://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdfCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdfapplication/pdf8906308https://tesis.pucp.edu.pe/bitstreams/59ca1796-a148-48d8-a62d-f08c453875ec/download543ba7140baf06a885311ff9440ba40eMD51trueAnonymousREADCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdfCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdfapplication/pdf1685887https://tesis.pucp.edu.pe/bitstreams/62126c07-c0ec-4042-96ec-94394cf75fe2/downloade77a6dc95ca2e68a8715b9ae6d9224a6MD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81037https://tesis.pucp.edu.pe/bitstreams/eaf0710a-bdd2-4065-9910-c5af867b5cc5/download8fc46f5e71650fd7adee84a69b9163c2MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/f779964f-9efe-4966-9d8b-20eefe6d79e1/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTEXTCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.txtCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.txtExtracted texttext/plain73584https://tesis.pucp.edu.pe/bitstreams/0130d160-9d7f-4dfc-80e3-36f9060bfe63/downloadc9570e8f5863cab42a029bb750f91e2aMD55falseAnonymousREADCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.txtCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.txtExtracted texttext/plain449https://tesis.pucp.edu.pe/bitstreams/4271edf9-3dac-499b-92d7-2f83b8cf4ffc/downloadb3e6834250551bfcf1731fb055578c39MD57falseAnonymousREADTHUMBNAILCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.jpgCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.jpgIM Thumbnailimage/jpeg31803https://tesis.pucp.edu.pe/bitstreams/f490e262-d2a7-4523-8e2b-0575134e9d98/downloadb6eefcf7ec85a6c436b53987c7df32e0MD56falseAnonymousREADCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.jpgCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.jpgIM Thumbnailimage/jpeg39381https://tesis.pucp.edu.pe/bitstreams/8547e7b4-8a6d-4286-96d0-fdfdf23e783c/download7a02bde35248cec79a8cf2fce0434d83MD58falseAnonymousREAD20.500.12404/7513oai:tesis.pucp.edu.pe:20.500.12404/75132025-07-18 12:59:53.685http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.303861
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).