Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Descripción del Articulo

Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el leng...

Descripción completa

Detalles Bibliográficos
Autores: Murillo, Danny, Saavedra, Dalys, Calderón, Huriviades
Formato: objeto de conferencia
Fecha de Publicación:2018
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/133795
Enlace del recurso:http://repositorio.pucp.edu.pe/index/handle/123456789/133795
Nivel de acceso:acceso abierto
Materia:Google Académico
escaneado web
Minería web
Lenguaje R
Análisis de datos
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
http://purl.org/pe-repo/ocde/ford#5.08.02
id RPUC_b323f71f88049e364e6c0b12bc7a45a6
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/133795
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
dc.title.es_ES.fl_str_mv Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
spellingShingle Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
Murillo, Danny
Google Académico
escaneado web
Minería web
Lenguaje R
Análisis de datos
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
http://purl.org/pe-repo/ocde/ford#5.08.02
title_short Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_full Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_fullStr Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_full_unstemmed Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_sort Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
author Murillo, Danny
author_facet Murillo, Danny
Saavedra, Dalys
Calderón, Huriviades
author_role author
author2 Saavedra, Dalys
Calderón, Huriviades
author2_role author
author
dc.contributor.author.fl_str_mv Murillo, Danny
Saavedra, Dalys
Calderón, Huriviades
dc.subject.es_ES.fl_str_mv Google Académico
escaneado web
Minería web
Lenguaje R
Análisis de datos
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
topic Google Académico
escaneado web
Minería web
Lenguaje R
Análisis de datos
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
http://purl.org/pe-repo/ocde/ford#5.08.02
dc.subject.ocde.none.fl_str_mv http://purl.org/pe-repo/ocde/ford#5.08.02
description Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.
publishDate 2018
dc.date.accessioned.none.fl_str_mv 2018-11-30T21:52:59Z
dc.date.available.none.fl_str_mv 2018-11-30T21:52:59Z
dc.date.issued.fl_str_mv 2018-10-24
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/conferenceObject
dc.type.other.none.fl_str_mv Congreso
format conferenceObject
dc.identifier.uri.none.fl_str_mv http://repositorio.pucp.edu.pe/index/handle/123456789/133795
url http://repositorio.pucp.edu.pe/index/handle/123456789/133795
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_ES.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Consorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC)
Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
bitstream.url.fl_str_mv https://repositorio.pucp.edu.pe/bitstreams/b4060d31-7543-4c9d-91be-15158be3a66b/download
https://repositorio.pucp.edu.pe/bitstreams/30805255-1206-4bd7-b1fe-beb2107e4a7e/download
https://repositorio.pucp.edu.pe/bitstreams/cc51d419-2e89-4bc0-9c43-ad5b03203081/download
https://repositorio.pucp.edu.pe/bitstreams/f30e7b66-a0e7-469e-b08c-e47e27cbe98c/download
https://repositorio.pucp.edu.pe/bitstreams/1dd050d8-1050-49df-95da-488bf857c868/download
https://repositorio.pucp.edu.pe/bitstreams/00ab6526-9772-4cbb-853c-8dfb65f75f9f/download
bitstream.checksum.fl_str_mv ad7b634af2347b084efc37ba49183583
3dcf3b7879751bd3be7938b1f77bb0ab
b23a70cf604978eb962ecf9a4eca0ff8
3bddb03c74bc92b0dac00ecb029a4a0f
0832067e58664380ee03fbc8c87240e7
f8acfcad96a9b6945c0c6204b889ba4a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835638745498386432
spelling Murillo, DannySaavedra, DalysCalderón, Huriviades2018-11-30T21:52:59Z2018-11-30T21:52:59Z2018-10-24http://repositorio.pucp.edu.pe/index/handle/123456789/133795Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.spaConsorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC)Pontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Google Académicoescaneado webMinería webLenguaje RAnálisis de datosGoogle ScholarWeb ScrapingWeb MiningR Lenguagedata analysishttp://purl.org/pe-repo/ocde/ford#5.08.02Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académicoinfo:eu-repo/semantics/conferenceObjectCongresoreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPORIGINALDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfPresentaciónapplication/pdf1532444https://repositorio.pucp.edu.pe/bitstreams/b4060d31-7543-4c9d-91be-15158be3a66b/downloadad7b634af2347b084efc37ba49183583MD57trueAnonymousREADDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfTexto escrito de la ponenciaapplication/pdf7641131https://repositorio.pucp.edu.pe/bitstreams/30805255-1206-4bd7-b1fe-beb2107e4a7e/download3dcf3b7879751bd3be7938b1f77bb0abMD52falseAnonymousREAD11_1 Dany Murillo.mp411_1 Dany Murillo.mp4Video de la ponenciavideo/mp4174901510https://repositorio.pucp.edu.pe/bitstreams/cc51d419-2e89-4bc0-9c43-ad5b03203081/downloadb23a70cf604978eb962ecf9a4eca0ff8MD56falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://repositorio.pucp.edu.pe/bitstreams/f30e7b66-a0e7-469e-b08c-e47e27cbe98c/download3bddb03c74bc92b0dac00ecb029a4a0fMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81577https://repositorio.pucp.edu.pe/bitstreams/1dd050d8-1050-49df-95da-488bf857c868/download0832067e58664380ee03fbc8c87240e7MD54falseAnonymousREADTHUMBNAILDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf.jpgDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf.jpgIM Thumbnailimage/jpeg42752https://repositorio.pucp.edu.pe/bitstreams/00ab6526-9772-4cbb-853c-8dfb65f75f9f/downloadf8acfcad96a9b6945c0c6204b889ba4aMD55falseAnonymousREAD20.500.14657/133795oai:repositorio.pucp.edu.pe:20.500.14657/1337952024-09-25 12:13:26.502http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.peQmFqbyBsb3Mgc2lndWllbnRlcyB0w6lybWlub3MsIGF1dG9yaXpvIGVsIGRlcMOzc2l0byBkZSBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGVuIGVsClJlcG9zaXRvcmlvIEluc3RpdHVjaW9uYWwgUFVDUApDb24gbGEgYXV0b3JpemFjacOzbiBkZSBkZXDDs3NpdG8gZGUgbWkgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgb3RvcmdvIGEgbGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZApDYXTDs2xpY2EgZGVsIFBlcsO6IHVuYSBsaWNlbmNpYSBubyBleGNsdXNpdmEgcGFyYSByZXByb2R1Y2lyLCBkaXN0cmlidWlyLCBjb211bmljYXIgYWwgcMO6YmxpY28sCnRyYW5zZm9ybWFyICjDum5pY2FtZW50ZSBtZWRpYW50ZSBzdSB0cmFkdWNjacOzbiBhIG90cm9zIGlkaW9tYXMpIHkgcG9uZXIgYQpkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gKGluY2x1aWRvIGVsIHJlc3VtZW4pLCBlbiBmb3JtYXRvCmbDrXNpY28gbyBkaWdpdGFsLCBlbiBjdWFscXVpZXIgbWVkaW8sIGNvbm9jaWRvIHBvciBjb25vY2Vyc2UsIGEgdHJhdsOpcyBkZSBsb3MKZGl2ZXJzb3Mgc2VydmljaW9zIHByb3Zpc3RvcyBwb3IgbGEgVW5pdmVyc2lkYWQsIGNyZWFkb3MgbyBwb3IgY3JlYXJzZSwgdGFsZXMgY29tbyBlbApSZXBvc2l0b3JpbyBJbnN0aXR1Y2lvbmFsIFBVQ1AsIGVudHJlIG90cm9zLCBlbiBlbCBQZXLDuiB5IGVuIGVsIGV4dHJhbmplcm8sIHBvciBlbAp0aWVtcG8geSB2ZWNlcyBxdWUgY29uc2lkZXJlIG5lY2VzYXJpYXMsIHkgbGlicmUgZGUgcmVtdW5lcmFjaW9uZXMuCkVuIHZpcnR1ZCBkZSBkaWNoYSBsaWNlbmNpYSwgbGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZCBDYXTDs2xpY2EgZGVsIFBlcsO6IHBvZHLDoQpyZXByb2R1Y2lyIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZW4gY3VhbHF1aWVyIHRpcG8gZGUgc29wb3J0ZSB5IGVuIG3DoXMgZGUKdW4gZWplbXBsYXIsIHNpbiBtb2RpZmljYXIgc3UgY29udGVuaWRvLCBzb2xvIGNvbiBwcm9ww7NzaXRvcyBkZSBzZWd1cmlkYWQsIHJlc3BhbGRvCnkgcHJlc2VydmFjacOzbi4KRGVjbGFybyBxdWUgZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBlcyB1bmEgY3JlYWNpw7NuIGRlIG1pIGF1dG9yw61hIHkgZXhjbHVzaXZhIHRpdHVsYXJpZGFkLCBvCmNvYXV0b3LDrWEgY29uIHRpdHVsYXJpZGFkIGNvbXBhcnRpZGEsIHkgbWUgZW5jdWVudHJvIGZhY3VsdGFkbyBhIGNvbmNlZGVyIGxhIHByZXNlbnRlIGxpY2VuY2lhIHksCmFzaW1pc21vLCBnYXJhbnRpem8gcXVlIGRpY2hvIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gbm8gaW5mcmluZ2UgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2VyYXMKcGVyc29uYXMuIExhIFBvbnRpZmljaWEgVW5pdmVyc2lkYWQgQ2F0w7NsaWNhIGRlbCBQZXLDuiBjb25zaWduYXLDoSBlbCBub21icmUgZGVsL2xvcyBhdXRvci9lcyBkZWwKdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgeSBubyBsZSBoYXLDoSBuaW5ndW5hIG1vZGlmaWNhY2nDs24gbcOhcyBxdWUgbGEgcGVybWl0aWRhIGVuIGxhIHByZXNlbnRlCmxpY2VuY2lhLgo=
score 13.932913
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).