ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK
Descripción del Articulo
RESUMENLa presente investigación muestra el análisis de opinión realizado en los tuits históricos publicados en la red social o microblogging Twitter en idioma español durante el evento clasificatorio de la selección peruana de futbol al mundial Rusia 2018, durante el periodo del año 2015 hasta dici...
| Autor: | |
|---|---|
| Formato: | artículo |
| Fecha de Publicación: | 2020 |
| Institución: | Universidad Nacional del Altiplano |
| Repositorio: | Revista UNAP - Revista de Investigaciones |
| Lenguaje: | español |
| OAI Identifier: | oai:ojs.www.revistaepgunapuno.org:article/2123 |
| Enlace del recurso: | http://www.revistaepgunapuno.org/index.php/investigaciones/article/view/2123 |
| Nivel de acceso: | acceso abierto |
| id |
2077-8686_7b648c8bba6e07812b530b251d2b642e |
|---|---|
| oai_identifier_str |
oai:ojs.www.revistaepgunapuno.org:article/2123 |
| network_acronym_str |
2077-8686 |
| repository_id_str |
|
| network_name_str |
Revista UNAP - Revista de Investigaciones |
| spelling |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARKFernández Chambi, MayenkaRESUMENLa presente investigación muestra el análisis de opinión realizado en los tuits históricos publicados en la red social o microblogging Twitter en idioma español durante el evento clasificatorio de la selección peruana de futbol al mundial Rusia 2018, durante el periodo del año 2015 hasta diciembre del 2017 según calendario clasificatorio Rusia 2018 de la FIFA. El modelo del análisis de opinión o sentimiento ha sido desarrollado en la plataforma de computación distribuida Spark; demostrándose que las tareas de preparación de datos, modelado y evaluación de algoritmos de aprendizaje de máquina para clasificación de texto se han desarrollado con eficiencia dentro del pipeline de Spark entre tareas transformadoras y estimadoras sobre la estructura de datos DataFrame y la librería MLlib, así los modelos estándar de aprendizaje de máquina para Big Data pueden ser realizadas en forma escalable y distribuida con facilidad de uso por los científicos de datos. Finalmente el modelo de clasificación binario de texto de tuits ha alcanzado una precisión de 83,51% para un modelo de regresión logística y está sobre las métricas estándar de aceptación de clasificadores de su mismo tipo; adicionalmente, esta investigación deja construido y disponible el dataset “PeruARusia2018.csv” con 3 000 ítems de tuits etiquetados siguiendo los estándares adecuados que la hacen propicia para que la comunidad investigadora pueda seguir experimentando sobre ella y halle mejores resultados; así como 376 250 tuits como raw data.Palabras Clave: Análisis de opinión, big data, clasificación de texto, MLlib, red social, Spark. Universidad Nacional del Altiplano, Escuela de Postgrado, Instituto de Investigación2020-05-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://www.revistaepgunapuno.org/index.php/investigaciones/article/view/2123Revista de Investigaciones (Puno) - Escuela de Posgrado de la UNA PUNO; Vol 9, No 2 (2020): REVISTA DE INVESTIGACIONES; 1530 - 15442077-86861997-4035reponame:Revista UNAP - Revista de Investigacionesinstname:Universidad Nacional del Altiplanoinstacron:UNAPspahttp://www.revistaepgunapuno.org/index.php/investigaciones/article/view/2123/301http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/504http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/505http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/506http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/507http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/508http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/509http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/510http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/511http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/512Copyright (c) 2020 Revista de Investigaciones (Puno) - Escuela de Posgrado de la UNA PUNOinfo:eu-repo/semantics/openAccess2020-12-26T16:50:07Zmail@mail.com - |
| dc.title.none.fl_str_mv |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| title |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| spellingShingle |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK Fernández Chambi, Mayenka |
| title_short |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| title_full |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| title_fullStr |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| title_full_unstemmed |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| title_sort |
ANÁLISIS DE OPINIÓN EN TWITTER POR LA CLASIFICACIÓN AL MUNDIAL RUSIA 2018 DE LA SELECCIÓN PERUANA DE FÚTBOL CON SPARK |
| dc.creator.none.fl_str_mv |
Fernández Chambi, Mayenka |
| author |
Fernández Chambi, Mayenka |
| author_facet |
Fernández Chambi, Mayenka |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
|
| dc.description.none.fl_txt_mv |
RESUMENLa presente investigación muestra el análisis de opinión realizado en los tuits históricos publicados en la red social o microblogging Twitter en idioma español durante el evento clasificatorio de la selección peruana de futbol al mundial Rusia 2018, durante el periodo del año 2015 hasta diciembre del 2017 según calendario clasificatorio Rusia 2018 de la FIFA. El modelo del análisis de opinión o sentimiento ha sido desarrollado en la plataforma de computación distribuida Spark; demostrándose que las tareas de preparación de datos, modelado y evaluación de algoritmos de aprendizaje de máquina para clasificación de texto se han desarrollado con eficiencia dentro del pipeline de Spark entre tareas transformadoras y estimadoras sobre la estructura de datos DataFrame y la librería MLlib, así los modelos estándar de aprendizaje de máquina para Big Data pueden ser realizadas en forma escalable y distribuida con facilidad de uso por los científicos de datos. Finalmente el modelo de clasificación binario de texto de tuits ha alcanzado una precisión de 83,51% para un modelo de regresión logística y está sobre las métricas estándar de aceptación de clasificadores de su mismo tipo; adicionalmente, esta investigación deja construido y disponible el dataset “PeruARusia2018.csv” con 3 000 ítems de tuits etiquetados siguiendo los estándares adecuados que la hacen propicia para que la comunidad investigadora pueda seguir experimentando sobre ella y halle mejores resultados; así como 376 250 tuits como raw data.Palabras Clave: Análisis de opinión, big data, clasificación de texto, MLlib, red social, Spark. |
| description |
RESUMENLa presente investigación muestra el análisis de opinión realizado en los tuits históricos publicados en la red social o microblogging Twitter en idioma español durante el evento clasificatorio de la selección peruana de futbol al mundial Rusia 2018, durante el periodo del año 2015 hasta diciembre del 2017 según calendario clasificatorio Rusia 2018 de la FIFA. El modelo del análisis de opinión o sentimiento ha sido desarrollado en la plataforma de computación distribuida Spark; demostrándose que las tareas de preparación de datos, modelado y evaluación de algoritmos de aprendizaje de máquina para clasificación de texto se han desarrollado con eficiencia dentro del pipeline de Spark entre tareas transformadoras y estimadoras sobre la estructura de datos DataFrame y la librería MLlib, así los modelos estándar de aprendizaje de máquina para Big Data pueden ser realizadas en forma escalable y distribuida con facilidad de uso por los científicos de datos. Finalmente el modelo de clasificación binario de texto de tuits ha alcanzado una precisión de 83,51% para un modelo de regresión logística y está sobre las métricas estándar de aceptación de clasificadores de su mismo tipo; adicionalmente, esta investigación deja construido y disponible el dataset “PeruARusia2018.csv” con 3 000 ítems de tuits etiquetados siguiendo los estándares adecuados que la hacen propicia para que la comunidad investigadora pueda seguir experimentando sobre ella y halle mejores resultados; así como 376 250 tuits como raw data.Palabras Clave: Análisis de opinión, big data, clasificación de texto, MLlib, red social, Spark. |
| publishDate |
2020 |
| dc.date.none.fl_str_mv |
2020-05-01 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://www.revistaepgunapuno.org/index.php/investigaciones/article/view/2123 |
| url |
http://www.revistaepgunapuno.org/index.php/investigaciones/article/view/2123 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
http://www.revistaepgunapuno.org/index.php/investigaciones/article/view/2123/301 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/504 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/505 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/506 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/507 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/508 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/509 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/510 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/511 http://www.revistaepgunapuno.org/index.php/investigaciones/article/downloadSuppFile/2123/512 |
| dc.rights.none.fl_str_mv |
Copyright (c) 2020 Revista de Investigaciones (Puno) - Escuela de Posgrado de la UNA PUNO info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Copyright (c) 2020 Revista de Investigaciones (Puno) - Escuela de Posgrado de la UNA PUNO |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad Nacional del Altiplano, Escuela de Postgrado, Instituto de Investigación |
| publisher.none.fl_str_mv |
Universidad Nacional del Altiplano, Escuela de Postgrado, Instituto de Investigación |
| dc.source.none.fl_str_mv |
Revista de Investigaciones (Puno) - Escuela de Posgrado de la UNA PUNO; Vol 9, No 2 (2020): REVISTA DE INVESTIGACIONES; 1530 - 1544 2077-8686 1997-4035 reponame:Revista UNAP - Revista de Investigaciones instname:Universidad Nacional del Altiplano instacron:UNAP |
| reponame_str |
Revista UNAP - Revista de Investigaciones |
| collection |
Revista UNAP - Revista de Investigaciones |
| instname_str |
Universidad Nacional del Altiplano |
| instacron_str |
UNAP |
| institution |
UNAP |
| repository.name.fl_str_mv |
-
|
| repository.mail.fl_str_mv |
mail@mail.com |
| _version_ |
1701115437116293120 |
| score |
13.979785 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).