Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Murillo, Danny; Saavedra, Dalys; Calderón, Huriviades

Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Descripción del Articulo

Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el leng...

Descripción completa

Detalles Bibliográficos
Autores:	Murillo, Danny, Saavedra, Dalys, Calderón, Huriviades
Formato:	objeto de conferencia
Fecha de Publicación:	2018
Institución:	Pontificia Universidad Católica del Perú
Repositorio:	PUCP-Institucional
Lenguaje:	español
OAI Identifier:	oai:repositorio.pucp.edu.pe:20.500.14657/133795
Enlace del recurso:	http://repositorio.pucp.edu.pe/index/handle/123456789/133795
Nivel de acceso:	acceso abierto
Materia:	Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis http://purl.org/pe-repo/ocde/ford#5.08.02

id	RPUC_b323f71f88049e364e6c0b12bc7a45a6
oai_identifier_str	oai:repositorio.pucp.edu.pe:20.500.14657/133795
network_acronym_str	RPUC
network_name_str	PUCP-Institucional
repository_id_str	2905
dc.title.es_ES.fl_str_mv	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
spellingShingle	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico Murillo, Danny Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis http://purl.org/pe-repo/ocde/ford#5.08.02
title_short	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_full	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_fullStr	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_full_unstemmed	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_sort	Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
author	Murillo, Danny
author_facet	Murillo, Danny Saavedra, Dalys Calderón, Huriviades
author_role	author
author2	Saavedra, Dalys Calderón, Huriviades
author2_role	author author
dc.contributor.author.fl_str_mv	Murillo, Danny Saavedra, Dalys Calderón, Huriviades
dc.subject.es_ES.fl_str_mv	Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis
topic	Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis http://purl.org/pe-repo/ocde/ford#5.08.02
dc.subject.ocde.none.fl_str_mv	http://purl.org/pe-repo/ocde/ford#5.08.02
description	Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.
publishDate	2018
dc.date.accessioned.none.fl_str_mv	2018-11-30T21:52:59Z
dc.date.available.none.fl_str_mv	2018-11-30T21:52:59Z
dc.date.issued.fl_str_mv	2018-10-24
dc.type.es_ES.fl_str_mv	info:eu-repo/semantics/conferenceObject
dc.type.other.none.fl_str_mv	Congreso
format	conferenceObject
dc.identifier.uri.none.fl_str_mv	http://repositorio.pucp.edu.pe/index/handle/123456789/133795
url	http://repositorio.pucp.edu.pe/index/handle/123456789/133795
dc.language.iso.es_ES.fl_str_mv	spa
language	spa
dc.rights.es_ES.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.es_ES.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv	Consorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC) Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv	PE
dc.source.none.fl_str_mv	reponame:PUCP-Institucional instname:Pontificia Universidad Católica del Perú instacron:PUCP
instname_str	Pontificia Universidad Católica del Perú
instacron_str	PUCP
institution	PUCP
reponame_str	PUCP-Institucional
collection	PUCP-Institucional
bitstream.url.fl_str_mv	https://repositorio.pucp.edu.pe/bitstreams/b4060d31-7543-4c9d-91be-15158be3a66b/download https://repositorio.pucp.edu.pe/bitstreams/30805255-1206-4bd7-b1fe-beb2107e4a7e/download https://repositorio.pucp.edu.pe/bitstreams/cc51d419-2e89-4bc0-9c43-ad5b03203081/download https://repositorio.pucp.edu.pe/bitstreams/f30e7b66-a0e7-469e-b08c-e47e27cbe98c/download https://repositorio.pucp.edu.pe/bitstreams/1dd050d8-1050-49df-95da-488bf857c868/download https://repositorio.pucp.edu.pe/bitstreams/00ab6526-9772-4cbb-853c-8dfb65f75f9f/download
bitstream.checksum.fl_str_mv	ad7b634af2347b084efc37ba49183583 3dcf3b7879751bd3be7938b1f77bb0ab b23a70cf604978eb962ecf9a4eca0ff8 3bddb03c74bc92b0dac00ecb029a4a0f 0832067e58664380ee03fbc8c87240e7 f8acfcad96a9b6945c0c6204b889ba4a
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional de la PUCP
repository.mail.fl_str_mv	repositorio@pucp.pe
_version_	1835638745498386432
spelling	Murillo, DannySaavedra, DalysCalderón, Huriviades2018-11-30T21:52:59Z2018-11-30T21:52:59Z2018-10-24http://repositorio.pucp.edu.pe/index/handle/123456789/133795Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.spaConsorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC)Pontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Google Académicoescaneado webMinería webLenguaje RAnálisis de datosGoogle ScholarWeb ScrapingWeb MiningR Lenguagedata analysishttp://purl.org/pe-repo/ocde/ford#5.08.02Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académicoinfo:eu-repo/semantics/conferenceObjectCongresoreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPORIGINALDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfPresentaciónapplication/pdf1532444https://repositorio.pucp.edu.pe/bitstreams/b4060d31-7543-4c9d-91be-15158be3a66b/downloadad7b634af2347b084efc37ba49183583MD57trueAnonymousREADDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfTexto escrito de la ponenciaapplication/pdf7641131https://repositorio.pucp.edu.pe/bitstreams/30805255-1206-4bd7-b1fe-beb2107e4a7e/download3dcf3b7879751bd3be7938b1f77bb0abMD52falseAnonymousREAD11_1 Dany Murillo.mp411_1 Dany Murillo.mp4Video de la ponenciavideo/mp4174901510https://repositorio.pucp.edu.pe/bitstreams/cc51d419-2e89-4bc0-9c43-ad5b03203081/downloadb23a70cf604978eb962ecf9a4eca0ff8MD56falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://repositorio.pucp.edu.pe/bitstreams/f30e7b66-a0e7-469e-b08c-e47e27cbe98c/download3bddb03c74bc92b0dac00ecb029a4a0fMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81577https://repositorio.pucp.edu.pe/bitstreams/1dd050d8-1050-49df-95da-488bf857c868/download0832067e58664380ee03fbc8c87240e7MD54falseAnonymousREADTHUMBNAILDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf.jpgDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf.jpgIM Thumbnailimage/jpeg42752https://repositorio.pucp.edu.pe/bitstreams/00ab6526-9772-4cbb-853c-8dfb65f75f9f/downloadf8acfcad96a9b6945c0c6204b889ba4aMD55falseAnonymousREAD20.500.14657/133795oai:repositorio.pucp.edu.pe:20.500.14657/1337952024-09-25 12:13:26.502http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.peQmFqbyBsb3Mgc2lndWllbnRlcyB0w6lybWlub3MsIGF1dG9yaXpvIGVsIGRlcMOzc2l0byBkZSBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGVuIGVsClJlcG9zaXRvcmlvIEluc3RpdHVjaW9uYWwgUFVDUApDb24gbGEgYXV0b3JpemFjacOzbiBkZSBkZXDDs3NpdG8gZGUgbWkgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgb3RvcmdvIGEgbGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZApDYXTDs2xpY2EgZGVsIFBlcsO6IHVuYSBsaWNlbmNpYSBubyBleGNsdXNpdmEgcGFyYSByZXByb2R1Y2lyLCBkaXN0cmlidWlyLCBjb211bmljYXIgYWwgcMO6YmxpY28sCnRyYW5zZm9ybWFyICjDum5pY2FtZW50ZSBtZWRpYW50ZSBzdSB0cmFkdWNjacOzbiBhIG90cm9zIGlkaW9tYXMpIHkgcG9uZXIgYQpkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gKGluY2x1aWRvIGVsIHJlc3VtZW4pLCBlbiBmb3JtYXRvCmbDrXNpY28gbyBkaWdpdGFsLCBlbiBjdWFscXVpZXIgbWVkaW8sIGNvbm9jaWRvIHBvciBjb25vY2Vyc2UsIGEgdHJhdsOpcyBkZSBsb3MKZGl2ZXJzb3Mgc2VydmljaW9zIHByb3Zpc3RvcyBwb3IgbGEgVW5pdmVyc2lkYWQsIGNyZWFkb3MgbyBwb3IgY3JlYXJzZSwgdGFsZXMgY29tbyBlbApSZXBvc2l0b3JpbyBJbnN0aXR1Y2lvbmFsIFBVQ1AsIGVudHJlIG90cm9zLCBlbiBlbCBQZXLDuiB5IGVuIGVsIGV4dHJhbmplcm8sIHBvciBlbAp0aWVtcG8geSB2ZWNlcyBxdWUgY29uc2lkZXJlIG5lY2VzYXJpYXMsIHkgbGlicmUgZGUgcmVtdW5lcmFjaW9uZXMuCkVuIHZpcnR1ZCBkZSBkaWNoYSBsaWNlbmNpYSwgbGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZCBDYXTDs2xpY2EgZGVsIFBlcsO6IHBvZHLDoQpyZXByb2R1Y2lyIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZW4gY3VhbHF1aWVyIHRpcG8gZGUgc29wb3J0ZSB5IGVuIG3DoXMgZGUKdW4gZWplbXBsYXIsIHNpbiBtb2RpZmljYXIgc3UgY29udGVuaWRvLCBzb2xvIGNvbiBwcm9ww7NzaXRvcyBkZSBzZWd1cmlkYWQsIHJlc3BhbGRvCnkgcHJlc2VydmFjacOzbi4KRGVjbGFybyBxdWUgZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBlcyB1bmEgY3JlYWNpw7NuIGRlIG1pIGF1dG9yw61hIHkgZXhjbHVzaXZhIHRpdHVsYXJpZGFkLCBvCmNvYXV0b3LDrWEgY29uIHRpdHVsYXJpZGFkIGNvbXBhcnRpZGEsIHkgbWUgZW5jdWVudHJvIGZhY3VsdGFkbyBhIGNvbmNlZGVyIGxhIHByZXNlbnRlIGxpY2VuY2lhIHksCmFzaW1pc21vLCBnYXJhbnRpem8gcXVlIGRpY2hvIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gbm8gaW5mcmluZ2UgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2VyYXMKcGVyc29uYXMuIExhIFBvbnRpZmljaWEgVW5pdmVyc2lkYWQgQ2F0w7NsaWNhIGRlbCBQZXLDuiBjb25zaWduYXLDoSBlbCBub21icmUgZGVsL2xvcyBhdXRvci9lcyBkZWwKdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgeSBubyBsZSBoYXLDoSBuaW5ndW5hIG1vZGlmaWNhY2nDs24gbcOhcyBxdWUgbGEgcGVybWl0aWRhIGVuIGxhIHByZXNlbnRlCmxpY2VuY2lhLgo=
score	13.932913

Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Descripción del Articulo

Ejemplares Similares