Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
Descripción del Articulo
El objetivo de esta investigación se centra en evaluar el etiquetado de tweets mediante Pysentimiento, un modelo transformer especializado para el análisis de texto, y posteriormente utilizar este dataset para entrenar modelos de aprendizaje supervisado no especializados en la tarea del análisis de...
Autores: | , |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2023 |
Institución: | Universidad Nacional de San Antonio Abad del Cusco |
Repositorio: | UNSAAC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsaac.edu.pe:20.500.12918/7478 |
Enlace del recurso: | http://hdl.handle.net/20.500.12918/7478 |
Nivel de acceso: | acceso abierto |
Materia: | Análisis de sentimientos Twint Pysentimiento Naive Bayes Super Vector Machine Random Forest Multilayer Perceptron http://purl.org/pe-repo/ocde/ford#2.02.04 |
id |
RUNS_64d9e7306b17a4ad17b4bd7476951907 |
---|---|
oai_identifier_str |
oai:repositorio.unsaac.edu.pe:20.500.12918/7478 |
network_acronym_str |
RUNS |
network_name_str |
UNSAAC-Institucional |
repository_id_str |
4815 |
spelling |
Ormeño Ayala, Yeshica IselaCarbajal Bacilio, Karen AlexsandraSuarez Mariscal, Claudia Francesca2023-07-06T16:49:28Z2023-07-06T16:49:28Z2023253T20230164http://hdl.handle.net/20.500.12918/7478El objetivo de esta investigación se centra en evaluar el etiquetado de tweets mediante Pysentimiento, un modelo transformer especializado para el análisis de texto, y posteriormente utilizar este dataset para entrenar modelos de aprendizaje supervisado no especializados en la tarea del análisis de sentimiento. Para ello se propone la construcción de dos datasets, de escenario político y pandemia, mediante una metodología que incluye a Twint, para la extracción de tweets, y a Pysentimiento, para etiquetar los datos automáticamente. También se incluye una etapa de verificación manual de una porción de los datos, para evaluar el impacto de contar con datos etiquetados manualmente en la fase de entrenamiento de los modelos. En tanto para realizar el análisis de sentimientos, los datos son pre-procesados y transformados previamente a la aplicación de cuatro modelos clasificadores de Machine Learning(ML): Naive Bayes (NB), Super Vector Machine (SVM), Random Forest (RF) y Multilayer Perceptron (MLP). Así mismo se propone una fase experimental para aumentar el rendimiento de estos modelos, de los cuales se obtiene que: (1) se debe trabajar basado en el análisis de las clase positiva y negativa (de acuerdo a los datasets obtenidos) con una proporción estratificada para el train/test, (2) la verificación manual mejora los resultados para ambos escenarios, (3) Naive Bayes es el mejor clasificador con 88,4 % de exactitud, 83,4 % de precisión, 89,8 % de exhaustividad y 86,5 % de F1-score, mientras que para el escenario pandemia Super Vector Machine es considerado como el mejor clasificador con 85 % de exactitud, 86,1 % de precisión, 77,8 % de exhaustividad y 81,7 % de F1-score.UNSAAC - CONCYTEC - FONDECYTapplication/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Análisis de sentimientosTwintPysentimientoNaive BayesSuper Vector MachineRandom ForestMultilayer Perceptronhttp://purl.org/pe-repo/ocde/ford#2.02.04Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweetsinfo:eu-repo/semantics/bachelorThesisreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACSUNEDUIngeniero Informático y de SistemasUniversidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y MecánicaIngeniería Informática y de Sistemas7572585272194246https://orcid.org/0000-0002-5497-692825002834http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#tituloProfesional612296Carbajal Luna, Julio CesarGamarra Saldivar, EnriqueCandia Oviedo, Dennis IvanPalma Ttito, Luis BeltranORIGINAL253T20230164_TC.pdfapplication/pdf12121712http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/7478/1/253T20230164_TC.pdfad190cbca53c75f24082c99f0f723c89MD5120.500.12918/7478oai:repositorio.unsaac.edu.pe:20.500.12918/74782023-07-06 14:30:09.565DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe |
dc.title.es_PE.fl_str_mv |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
title |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
spellingShingle |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets Carbajal Bacilio, Karen Alexsandra Análisis de sentimientos Twint Pysentimiento Naive Bayes Super Vector Machine Random Forest Multilayer Perceptron http://purl.org/pe-repo/ocde/ford#2.02.04 |
title_short |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
title_full |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
title_fullStr |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
title_full_unstemmed |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
title_sort |
Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets |
author |
Carbajal Bacilio, Karen Alexsandra |
author_facet |
Carbajal Bacilio, Karen Alexsandra Suarez Mariscal, Claudia Francesca |
author_role |
author |
author2 |
Suarez Mariscal, Claudia Francesca |
author2_role |
author |
dc.contributor.advisor.fl_str_mv |
Ormeño Ayala, Yeshica Isela |
dc.contributor.author.fl_str_mv |
Carbajal Bacilio, Karen Alexsandra Suarez Mariscal, Claudia Francesca |
dc.subject.es_PE.fl_str_mv |
Análisis de sentimientos Twint Pysentimiento Naive Bayes Super Vector Machine Random Forest Multilayer Perceptron |
topic |
Análisis de sentimientos Twint Pysentimiento Naive Bayes Super Vector Machine Random Forest Multilayer Perceptron http://purl.org/pe-repo/ocde/ford#2.02.04 |
dc.subject.ocde.none.fl_str_mv |
http://purl.org/pe-repo/ocde/ford#2.02.04 |
description |
El objetivo de esta investigación se centra en evaluar el etiquetado de tweets mediante Pysentimiento, un modelo transformer especializado para el análisis de texto, y posteriormente utilizar este dataset para entrenar modelos de aprendizaje supervisado no especializados en la tarea del análisis de sentimiento. Para ello se propone la construcción de dos datasets, de escenario político y pandemia, mediante una metodología que incluye a Twint, para la extracción de tweets, y a Pysentimiento, para etiquetar los datos automáticamente. También se incluye una etapa de verificación manual de una porción de los datos, para evaluar el impacto de contar con datos etiquetados manualmente en la fase de entrenamiento de los modelos. En tanto para realizar el análisis de sentimientos, los datos son pre-procesados y transformados previamente a la aplicación de cuatro modelos clasificadores de Machine Learning(ML): Naive Bayes (NB), Super Vector Machine (SVM), Random Forest (RF) y Multilayer Perceptron (MLP). Así mismo se propone una fase experimental para aumentar el rendimiento de estos modelos, de los cuales se obtiene que: (1) se debe trabajar basado en el análisis de las clase positiva y negativa (de acuerdo a los datasets obtenidos) con una proporción estratificada para el train/test, (2) la verificación manual mejora los resultados para ambos escenarios, (3) Naive Bayes es el mejor clasificador con 88,4 % de exactitud, 83,4 % de precisión, 89,8 % de exhaustividad y 86,5 % de F1-score, mientras que para el escenario pandemia Super Vector Machine es considerado como el mejor clasificador con 85 % de exactitud, 86,1 % de precisión, 77,8 % de exhaustividad y 81,7 % de F1-score. |
publishDate |
2023 |
dc.date.accessioned.none.fl_str_mv |
2023-07-06T16:49:28Z |
dc.date.available.none.fl_str_mv |
2023-07-06T16:49:28Z |
dc.date.issued.fl_str_mv |
2023 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
dc.identifier.other.none.fl_str_mv |
253T20230164 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12918/7478 |
identifier_str_mv |
253T20230164 |
url |
http://hdl.handle.net/20.500.12918/7478 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.en_US.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.format.en_US.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Antonio Abad del Cusco |
dc.publisher.country.none.fl_str_mv |
PE |
dc.source.none.fl_str_mv |
reponame:UNSAAC-Institucional instname:Universidad Nacional de San Antonio Abad del Cusco instacron:UNSAAC |
instname_str |
Universidad Nacional de San Antonio Abad del Cusco |
instacron_str |
UNSAAC |
institution |
UNSAAC |
reponame_str |
UNSAAC-Institucional |
collection |
UNSAAC-Institucional |
bitstream.url.fl_str_mv |
http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/7478/1/253T20230164_TC.pdf |
bitstream.checksum.fl_str_mv |
ad190cbca53c75f24082c99f0f723c89 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
DSpace de la UNSAAC |
repository.mail.fl_str_mv |
soporte.repositorio@unsaac.edu.pe |
_version_ |
1770785455337373696 |
score |
13.989288 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).