Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
Descripción del Articulo
Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el leng...
| Autores: | , , |
|---|---|
| Formato: | objeto de conferencia |
| Fecha de Publicación: | 2018 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.pucp.edu.pe:20.500.14657/133795 |
| Enlace del recurso: | http://repositorio.pucp.edu.pe/index/handle/123456789/133795 |
| Nivel de acceso: | acceso abierto |
| Materia: | Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis http://purl.org/pe-repo/ocde/ford#5.08.02 |
| id |
RPUC_b323f71f88049e364e6c0b12bc7a45a6 |
|---|---|
| oai_identifier_str |
oai:repositorio.pucp.edu.pe:20.500.14657/133795 |
| network_acronym_str |
RPUC |
| network_name_str |
PUCP-Institucional |
| repository_id_str |
2905 |
| dc.title.es_ES.fl_str_mv |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| title |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| spellingShingle |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico Murillo, Danny Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis http://purl.org/pe-repo/ocde/ford#5.08.02 |
| title_short |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| title_full |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| title_fullStr |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| title_full_unstemmed |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| title_sort |
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico |
| author |
Murillo, Danny |
| author_facet |
Murillo, Danny Saavedra, Dalys Calderón, Huriviades |
| author_role |
author |
| author2 |
Saavedra, Dalys Calderón, Huriviades |
| author2_role |
author author |
| dc.contributor.author.fl_str_mv |
Murillo, Danny Saavedra, Dalys Calderón, Huriviades |
| dc.subject.es_ES.fl_str_mv |
Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis |
| topic |
Google Académico escaneado web Minería web Lenguaje R Análisis de datos Google Scholar Web Scraping Web Mining R Lenguage data analysis http://purl.org/pe-repo/ocde/ford#5.08.02 |
| dc.subject.ocde.none.fl_str_mv |
http://purl.org/pe-repo/ocde/ford#5.08.02 |
| description |
Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA. |
| publishDate |
2018 |
| dc.date.accessioned.none.fl_str_mv |
2018-11-30T21:52:59Z |
| dc.date.available.none.fl_str_mv |
2018-11-30T21:52:59Z |
| dc.date.issued.fl_str_mv |
2018-10-24 |
| dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/conferenceObject |
| dc.type.other.none.fl_str_mv |
Congreso |
| format |
conferenceObject |
| dc.identifier.uri.none.fl_str_mv |
http://repositorio.pucp.edu.pe/index/handle/123456789/133795 |
| url |
http://repositorio.pucp.edu.pe/index/handle/123456789/133795 |
| dc.language.iso.es_ES.fl_str_mv |
spa |
| language |
spa |
| dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.es_ES.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
| dc.publisher.es_ES.fl_str_mv |
Consorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC) Pontificia Universidad Católica del Perú |
| dc.publisher.country.none.fl_str_mv |
PE |
| dc.source.none.fl_str_mv |
reponame:PUCP-Institucional instname:Pontificia Universidad Católica del Perú instacron:PUCP |
| instname_str |
Pontificia Universidad Católica del Perú |
| instacron_str |
PUCP |
| institution |
PUCP |
| reponame_str |
PUCP-Institucional |
| collection |
PUCP-Institucional |
| bitstream.url.fl_str_mv |
https://repositorio.pucp.edu.pe/bitstreams/b4060d31-7543-4c9d-91be-15158be3a66b/download https://repositorio.pucp.edu.pe/bitstreams/30805255-1206-4bd7-b1fe-beb2107e4a7e/download https://repositorio.pucp.edu.pe/bitstreams/cc51d419-2e89-4bc0-9c43-ad5b03203081/download https://repositorio.pucp.edu.pe/bitstreams/f30e7b66-a0e7-469e-b08c-e47e27cbe98c/download https://repositorio.pucp.edu.pe/bitstreams/1dd050d8-1050-49df-95da-488bf857c868/download https://repositorio.pucp.edu.pe/bitstreams/00ab6526-9772-4cbb-853c-8dfb65f75f9f/download |
| bitstream.checksum.fl_str_mv |
ad7b634af2347b084efc37ba49183583 3dcf3b7879751bd3be7938b1f77bb0ab b23a70cf604978eb962ecf9a4eca0ff8 3bddb03c74bc92b0dac00ecb029a4a0f 0832067e58664380ee03fbc8c87240e7 f8acfcad96a9b6945c0c6204b889ba4a |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional de la PUCP |
| repository.mail.fl_str_mv |
repositorio@pucp.pe |
| _version_ |
1835638745498386432 |
| spelling |
Murillo, DannySaavedra, DalysCalderón, Huriviades2018-11-30T21:52:59Z2018-11-30T21:52:59Z2018-10-24http://repositorio.pucp.edu.pe/index/handle/123456789/133795Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.spaConsorcio Iberoamericano para la Educación en Ciencia y Tecnología (ISTEC)Pontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Google Académicoescaneado webMinería webLenguaje RAnálisis de datosGoogle ScholarWeb ScrapingWeb MiningR Lenguagedata analysishttp://purl.org/pe-repo/ocde/ford#5.08.02Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académicoinfo:eu-repo/semantics/conferenceObjectCongresoreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPORIGINALDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfPresentaciónapplication/pdf1532444https://repositorio.pucp.edu.pe/bitstreams/b4060d31-7543-4c9d-91be-15158be3a66b/downloadad7b634af2347b084efc37ba49183583MD57trueAnonymousREADDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdfTexto escrito de la ponenciaapplication/pdf7641131https://repositorio.pucp.edu.pe/bitstreams/30805255-1206-4bd7-b1fe-beb2107e4a7e/download3dcf3b7879751bd3be7938b1f77bb0abMD52falseAnonymousREAD11_1 Dany Murillo.mp411_1 Dany Murillo.mp4Video de la ponenciavideo/mp4174901510https://repositorio.pucp.edu.pe/bitstreams/cc51d419-2e89-4bc0-9c43-ad5b03203081/downloadb23a70cf604978eb962ecf9a4eca0ff8MD56falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://repositorio.pucp.edu.pe/bitstreams/f30e7b66-a0e7-469e-b08c-e47e27cbe98c/download3bddb03c74bc92b0dac00ecb029a4a0fMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81577https://repositorio.pucp.edu.pe/bitstreams/1dd050d8-1050-49df-95da-488bf857c868/download0832067e58664380ee03fbc8c87240e7MD54falseAnonymousREADTHUMBNAILDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf.jpgDanny Murillo - Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico.pdf.jpgIM Thumbnailimage/jpeg42752https://repositorio.pucp.edu.pe/bitstreams/00ab6526-9772-4cbb-853c-8dfb65f75f9f/downloadf8acfcad96a9b6945c0c6204b889ba4aMD55falseAnonymousREAD20.500.14657/133795oai:repositorio.pucp.edu.pe:20.500.14657/1337952024-09-25 12:13:26.502http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.peQmFqbyBsb3Mgc2lndWllbnRlcyB0w6lybWlub3MsIGF1dG9yaXpvIGVsIGRlcMOzc2l0byBkZSBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGVuIGVsClJlcG9zaXRvcmlvIEluc3RpdHVjaW9uYWwgUFVDUApDb24gbGEgYXV0b3JpemFjacOzbiBkZSBkZXDDs3NpdG8gZGUgbWkgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgb3RvcmdvIGEgbGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZApDYXTDs2xpY2EgZGVsIFBlcsO6IHVuYSBsaWNlbmNpYSBubyBleGNsdXNpdmEgcGFyYSByZXByb2R1Y2lyLCBkaXN0cmlidWlyLCBjb211bmljYXIgYWwgcMO6YmxpY28sCnRyYW5zZm9ybWFyICjDum5pY2FtZW50ZSBtZWRpYW50ZSBzdSB0cmFkdWNjacOzbiBhIG90cm9zIGlkaW9tYXMpIHkgcG9uZXIgYQpkaXNwb3NpY2nDs24gZGVsIHDDumJsaWNvIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gKGluY2x1aWRvIGVsIHJlc3VtZW4pLCBlbiBmb3JtYXRvCmbDrXNpY28gbyBkaWdpdGFsLCBlbiBjdWFscXVpZXIgbWVkaW8sIGNvbm9jaWRvIHBvciBjb25vY2Vyc2UsIGEgdHJhdsOpcyBkZSBsb3MKZGl2ZXJzb3Mgc2VydmljaW9zIHByb3Zpc3RvcyBwb3IgbGEgVW5pdmVyc2lkYWQsIGNyZWFkb3MgbyBwb3IgY3JlYXJzZSwgdGFsZXMgY29tbyBlbApSZXBvc2l0b3JpbyBJbnN0aXR1Y2lvbmFsIFBVQ1AsIGVudHJlIG90cm9zLCBlbiBlbCBQZXLDuiB5IGVuIGVsIGV4dHJhbmplcm8sIHBvciBlbAp0aWVtcG8geSB2ZWNlcyBxdWUgY29uc2lkZXJlIG5lY2VzYXJpYXMsIHkgbGlicmUgZGUgcmVtdW5lcmFjaW9uZXMuCkVuIHZpcnR1ZCBkZSBkaWNoYSBsaWNlbmNpYSwgbGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZCBDYXTDs2xpY2EgZGVsIFBlcsO6IHBvZHLDoQpyZXByb2R1Y2lyIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZW4gY3VhbHF1aWVyIHRpcG8gZGUgc29wb3J0ZSB5IGVuIG3DoXMgZGUKdW4gZWplbXBsYXIsIHNpbiBtb2RpZmljYXIgc3UgY29udGVuaWRvLCBzb2xvIGNvbiBwcm9ww7NzaXRvcyBkZSBzZWd1cmlkYWQsIHJlc3BhbGRvCnkgcHJlc2VydmFjacOzbi4KRGVjbGFybyBxdWUgZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBlcyB1bmEgY3JlYWNpw7NuIGRlIG1pIGF1dG9yw61hIHkgZXhjbHVzaXZhIHRpdHVsYXJpZGFkLCBvCmNvYXV0b3LDrWEgY29uIHRpdHVsYXJpZGFkIGNvbXBhcnRpZGEsIHkgbWUgZW5jdWVudHJvIGZhY3VsdGFkbyBhIGNvbmNlZGVyIGxhIHByZXNlbnRlIGxpY2VuY2lhIHksCmFzaW1pc21vLCBnYXJhbnRpem8gcXVlIGRpY2hvIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gbm8gaW5mcmluZ2UgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2VyYXMKcGVyc29uYXMuIExhIFBvbnRpZmljaWEgVW5pdmVyc2lkYWQgQ2F0w7NsaWNhIGRlbCBQZXLDuiBjb25zaWduYXLDoSBlbCBub21icmUgZGVsL2xvcyBhdXRvci9lcyBkZWwKdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgeSBubyBsZSBoYXLDoSBuaW5ndW5hIG1vZGlmaWNhY2nDs24gbcOhcyBxdWUgbGEgcGVybWl0aWRhIGVuIGxhIHByZXNlbnRlCmxpY2VuY2lhLgo= |
| score |
13.932913 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).