Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
Descripción del Articulo
Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El us...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2016 |
Institución: | Pontificia Universidad Católica del Perú |
Repositorio: | PUCP-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/7513 |
Enlace del recurso: | http://hdl.handle.net/20.500.12404/7513 |
Nivel de acceso: | acceso abierto |
Materia: | Patrones de software Sitios Web--Medidas de segurdidad https://purl.org/pe-repo/ocde/ford#1.02.00 |
id |
PUCP_1ae876bb93c37645d5830984dea23faa |
---|---|
oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/7513 |
network_acronym_str |
PUCP |
network_name_str |
PUCP-Tesis |
repository_id_str |
. |
dc.title.es_ES.fl_str_mv |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
title |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
spellingShingle |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web Castañeda Rojas, Edson Bryan Patrones de software Sitios Web--Medidas de segurdidad https://purl.org/pe-repo/ocde/ford#1.02.00 |
title_short |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
title_full |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
title_fullStr |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
title_full_unstemmed |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
title_sort |
Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web |
author |
Castañeda Rojas, Edson Bryan |
author_facet |
Castañeda Rojas, Edson Bryan |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Melgar Sasieta, Héctor Andrés |
dc.contributor.author.fl_str_mv |
Castañeda Rojas, Edson Bryan |
dc.subject.es_ES.fl_str_mv |
Patrones de software Sitios Web--Medidas de segurdidad |
topic |
Patrones de software Sitios Web--Medidas de segurdidad https://purl.org/pe-repo/ocde/ford#1.02.00 |
dc.subject.ocde.es_ES.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.00 |
description |
Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos. |
publishDate |
2016 |
dc.date.accessioned.es_ES.fl_str_mv |
2016-11-26T17:22:22Z |
dc.date.available.es_ES.fl_str_mv |
2016-11-26T17:22:22Z |
dc.date.created.es_ES.fl_str_mv |
2016 |
dc.date.issued.fl_str_mv |
2016-11-26 |
dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/7513 |
url |
http://hdl.handle.net/20.500.12404/7513 |
dc.language.iso.es_ES.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
dc.publisher.country.es_ES.fl_str_mv |
PE |
dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
instname_str |
Pontificia Universidad Católica del Perú |
instacron_str |
PUCP |
institution |
PUCP |
reponame_str |
PUCP-Tesis |
collection |
PUCP-Tesis |
bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/59ca1796-a148-48d8-a62d-f08c453875ec/download https://tesis.pucp.edu.pe/bitstreams/62126c07-c0ec-4042-96ec-94394cf75fe2/download https://tesis.pucp.edu.pe/bitstreams/eaf0710a-bdd2-4065-9910-c5af867b5cc5/download https://tesis.pucp.edu.pe/bitstreams/f779964f-9efe-4966-9d8b-20eefe6d79e1/download https://tesis.pucp.edu.pe/bitstreams/0130d160-9d7f-4dfc-80e3-36f9060bfe63/download https://tesis.pucp.edu.pe/bitstreams/4271edf9-3dac-499b-92d7-2f83b8cf4ffc/download https://tesis.pucp.edu.pe/bitstreams/f490e262-d2a7-4523-8e2b-0575134e9d98/download https://tesis.pucp.edu.pe/bitstreams/8547e7b4-8a6d-4286-96d0-fdfdf23e783c/download |
bitstream.checksum.fl_str_mv |
543ba7140baf06a885311ff9440ba40e e77a6dc95ca2e68a8715b9ae6d9224a6 8fc46f5e71650fd7adee84a69b9163c2 8a4605be74aa9ea9d79846c1fba20a33 c9570e8f5863cab42a029bb750f91e2a b3e6834250551bfcf1731fb055578c39 b6eefcf7ec85a6c436b53987c7df32e0 7a02bde35248cec79a8cf2fce0434d83 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
_version_ |
1839177050410188800 |
spelling |
Melgar Sasieta, Héctor AndrésCastañeda Rojas, Edson Bryan2016-11-26T17:22:22Z2016-11-26T17:22:22Z20162016-11-26http://hdl.handle.net/20.500.12404/7513Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Patrones de softwareSitios Web--Medidas de segurdidadhttps://purl.org/pe-repo/ocde/ford#1.02.00Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido webinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Ingeniería de SoftwareMaestríaPontificia Universidad Católica del Perú. Escuela de PosgradoIngeniería de Software10145776612357https://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdfCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdfapplication/pdf8906308https://tesis.pucp.edu.pe/bitstreams/59ca1796-a148-48d8-a62d-f08c453875ec/download543ba7140baf06a885311ff9440ba40eMD51trueAnonymousREADCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdfCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdfapplication/pdf1685887https://tesis.pucp.edu.pe/bitstreams/62126c07-c0ec-4042-96ec-94394cf75fe2/downloade77a6dc95ca2e68a8715b9ae6d9224a6MD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81037https://tesis.pucp.edu.pe/bitstreams/eaf0710a-bdd2-4065-9910-c5af867b5cc5/download8fc46f5e71650fd7adee84a69b9163c2MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/f779964f-9efe-4966-9d8b-20eefe6d79e1/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTEXTCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.txtCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.txtExtracted texttext/plain73584https://tesis.pucp.edu.pe/bitstreams/0130d160-9d7f-4dfc-80e3-36f9060bfe63/downloadc9570e8f5863cab42a029bb750f91e2aMD55falseAnonymousREADCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.txtCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.txtExtracted texttext/plain449https://tesis.pucp.edu.pe/bitstreams/4271edf9-3dac-499b-92d7-2f83b8cf4ffc/downloadb3e6834250551bfcf1731fb055578c39MD57falseAnonymousREADTHUMBNAILCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.jpgCASTAÑEDA_EDSON_PATRÓN_DISEÑO.pdf.jpgIM Thumbnailimage/jpeg31803https://tesis.pucp.edu.pe/bitstreams/f490e262-d2a7-4523-8e2b-0575134e9d98/downloadb6eefcf7ec85a6c436b53987c7df32e0MD56falseAnonymousREADCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.jpgCASTAÑEDA_EDSON_PATRÓN_DISEÑO_ANEXOS.pdf.jpgIM Thumbnailimage/jpeg39381https://tesis.pucp.edu.pe/bitstreams/8547e7b4-8a6d-4286-96d0-fdfdf23e783c/download7a02bde35248cec79a8cf2fce0434d83MD58falseAnonymousREAD20.500.12404/7513oai:tesis.pucp.edu.pe:20.500.12404/75132025-07-18 12:59:53.685http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
13.303861 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).