Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Castañeda Rojas, Edson Bryan

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Descripción del Articulo

Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El us...

Descripción completa

Detalles Bibliográficos
Autor:	Castañeda Rojas, Edson Bryan
Formato:	tesis de maestría
Fecha de Publicación:	2016
Institución:	Pontificia Universidad Católica del Perú
Repositorio:	PUCP-Institucional
Lenguaje:	español
OAI Identifier:	oai:repositorio.pucp.edu.pe:20.500.14657/145777
Enlace del recurso:	http://hdl.handle.net/20.500.12404/7513
Nivel de acceso:	acceso abierto
Materia:	Patrones de software Sitios Web--Medidas de segurdidad https://purl.org/pe-repo/ocde/ford#1.02.00

id	RPUC_8cb6014c746b216e067ef47e602a0cce
oai_identifier_str	oai:repositorio.pucp.edu.pe:20.500.14657/145777
network_acronym_str	RPUC
network_name_str	PUCP-Institucional
repository_id_str	2905
spelling	Melgar Sasieta, Héctor AndrésCastañeda Rojas, Edson Bryan2016-11-26T17:22:22Z2016-11-26T17:22:22Z20162016-11-26http://hdl.handle.net/20.500.12404/7513Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Patrones de softwareSitios Web--Medidas de segurdidadhttps://purl.org/pe-repo/ocde/ford#1.02.00Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido webinfo:eu-repo/semantics/masterThesisTesis de maestríareponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPMaestro en Ingeniería de SoftwareMaestríaPontificia Universidad Católica del Perú. Escuela de PosgradoIngeniería de Software10145776612357https://purl.org/pe-repo/renati/level#maestrohttp://purl.org/pe-repo/renati/type#tesis20.500.14657/145777oai:repositorio.pucp.edu.pe:20.500.14657/1457772024-06-10 10:29:05.729http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
spellingShingle	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web Castañeda Rojas, Edson Bryan Patrones de software Sitios Web--Medidas de segurdidad https://purl.org/pe-repo/ocde/ford#1.02.00
title_short	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_full	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_fullStr	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_full_unstemmed	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
title_sort	Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web
author	Castañeda Rojas, Edson Bryan
author_facet	Castañeda Rojas, Edson Bryan
author_role	author
dc.contributor.advisor.fl_str_mv	Melgar Sasieta, Héctor Andrés
dc.contributor.author.fl_str_mv	Castañeda Rojas, Edson Bryan
dc.subject.es_ES.fl_str_mv	Patrones de software Sitios Web--Medidas de segurdidad
topic	Patrones de software Sitios Web--Medidas de segurdidad https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv	https://purl.org/pe-repo/ocde/ford#1.02.00
description	Web scraping o extracción de datos Web es el proceso de recolección de información de uno o más sitios Web de manera automatizada, emulando la interacción entre un usuario y un servidor, dicho proceso se basa en el análisis de estructuras HTML y no requiere la autorización de los propietarios. El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un programa informático que extrae contenido Web, dicha intrusión genera un incremento considerable en el uso de recursos, considerando la permanente ejecución de instrucciones para obtener tanto contenido como sea posible. Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos de extracción de contenido masivo, en el presente trabajo se planteó un patrón de diseño de software tomando como referencia el patrón Template View de Martin Fowler, al cual se agregó una capa de aleatorización que permita generar estructuras HTML no predecibles. Mediante la aplicación de una herramienta de extracción de contenido a un sitio Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el patrón de diseño propuesto, se logró verificar una reducción considerable de la cantidad de datos extraídos.
publishDate	2016
dc.date.accessioned.es_ES.fl_str_mv	2016-11-26T17:22:22Z
dc.date.available.es_ES.fl_str_mv	2016-11-26T17:22:22Z
dc.date.created.es_ES.fl_str_mv	2016
dc.date.issued.fl_str_mv	2016-11-26
dc.type.es_ES.fl_str_mv	info:eu-repo/semantics/masterThesis
dc.type.other.none.fl_str_mv	Tesis de maestría
format	masterThesis
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/20.500.12404/7513
url	http://hdl.handle.net/20.500.12404/7513
dc.language.iso.es_ES.fl_str_mv	spa
language	spa
dc.rights.es_ES.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv	Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv	PE
dc.source.none.fl_str_mv	reponame:PUCP-Institucional instname:Pontificia Universidad Católica del Perú instacron:PUCP
instname_str	Pontificia Universidad Católica del Perú
instacron_str	PUCP
institution	PUCP
reponame_str	PUCP-Institucional
collection	PUCP-Institucional
repository.name.fl_str_mv	Repositorio Institucional de la PUCP
repository.mail.fl_str_mv	repositorio@pucp.pe
_version_	1835639134397399040
score	13.9061165

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web

Descripción del Articulo

Ejemplares Similares