Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets

Descripción del Articulo

El objetivo de esta investigación se centra en evaluar el etiquetado de tweets mediante Pysentimiento, un modelo transformer especializado para el análisis de texto, y posteriormente utilizar este dataset para entrenar modelos de aprendizaje supervisado no especializados en la tarea del análisis de...

Descripción completa

Detalles Bibliográficos
Autores: Carbajal Bacilio, Karen Alexsandra, Suarez Mariscal, Claudia Francesca
Formato: tesis de grado
Fecha de Publicación:2023
Institución:Universidad Nacional de San Antonio Abad del Cusco
Repositorio:UNSAAC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsaac.edu.pe:20.500.12918/7478
Enlace del recurso:http://hdl.handle.net/20.500.12918/7478
Nivel de acceso:acceso abierto
Materia:Análisis de sentimientos
Twint
Pysentimiento
Naive Bayes
Super Vector Machine
Random Forest
Multilayer Perceptron
http://purl.org/pe-repo/ocde/ford#2.02.04
id RUNS_64d9e7306b17a4ad17b4bd7476951907
oai_identifier_str oai:repositorio.unsaac.edu.pe:20.500.12918/7478
network_acronym_str RUNS
network_name_str UNSAAC-Institucional
repository_id_str 4815
spelling Ormeño Ayala, Yeshica IselaCarbajal Bacilio, Karen AlexsandraSuarez Mariscal, Claudia Francesca2023-07-06T16:49:28Z2023-07-06T16:49:28Z2023253T20230164http://hdl.handle.net/20.500.12918/7478El objetivo de esta investigación se centra en evaluar el etiquetado de tweets mediante Pysentimiento, un modelo transformer especializado para el análisis de texto, y posteriormente utilizar este dataset para entrenar modelos de aprendizaje supervisado no especializados en la tarea del análisis de sentimiento. Para ello se propone la construcción de dos datasets, de escenario político y pandemia, mediante una metodología que incluye a Twint, para la extracción de tweets, y a Pysentimiento, para etiquetar los datos automáticamente. También se incluye una etapa de verificación manual de una porción de los datos, para evaluar el impacto de contar con datos etiquetados manualmente en la fase de entrenamiento de los modelos. En tanto para realizar el análisis de sentimientos, los datos son pre-procesados y transformados previamente a la aplicación de cuatro modelos clasificadores de Machine Learning(ML): Naive Bayes (NB), Super Vector Machine (SVM), Random Forest (RF) y Multilayer Perceptron (MLP). Así mismo se propone una fase experimental para aumentar el rendimiento de estos modelos, de los cuales se obtiene que: (1) se debe trabajar basado en el análisis de las clase positiva y negativa (de acuerdo a los datasets obtenidos) con una proporción estratificada para el train/test, (2) la verificación manual mejora los resultados para ambos escenarios, (3) Naive Bayes es el mejor clasificador con 88,4 % de exactitud, 83,4 % de precisión, 89,8 % de exhaustividad y 86,5 % de F1-score, mientras que para el escenario pandemia Super Vector Machine es considerado como el mejor clasificador con 85 % de exactitud, 86,1 % de precisión, 77,8 % de exhaustividad y 81,7 % de F1-score.UNSAAC - CONCYTEC - FONDECYTapplication/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Análisis de sentimientosTwintPysentimientoNaive BayesSuper Vector MachineRandom ForestMultilayer Perceptronhttp://purl.org/pe-repo/ocde/ford#2.02.04Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweetsinfo:eu-repo/semantics/bachelorThesisreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACSUNEDUIngeniero Informático y de SistemasUniversidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y MecánicaIngeniería Informática y de Sistemas7572585272194246https://orcid.org/0000-0002-5497-692825002834http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#tituloProfesional612296Carbajal Luna, Julio CesarGamarra Saldivar, EnriqueCandia Oviedo, Dennis IvanPalma Ttito, Luis BeltranORIGINAL253T20230164_TC.pdfapplication/pdf12121712http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/7478/1/253T20230164_TC.pdfad190cbca53c75f24082c99f0f723c89MD5120.500.12918/7478oai:repositorio.unsaac.edu.pe:20.500.12918/74782023-07-06 14:30:09.565DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe
dc.title.es_PE.fl_str_mv Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
title Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
spellingShingle Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
Carbajal Bacilio, Karen Alexsandra
Análisis de sentimientos
Twint
Pysentimiento
Naive Bayes
Super Vector Machine
Random Forest
Multilayer Perceptron
http://purl.org/pe-repo/ocde/ford#2.02.04
title_short Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
title_full Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
title_fullStr Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
title_full_unstemmed Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
title_sort Implementación de un dataset para la evaluación de modelos de análisis de sentimientos en la clasificación de tweets
author Carbajal Bacilio, Karen Alexsandra
author_facet Carbajal Bacilio, Karen Alexsandra
Suarez Mariscal, Claudia Francesca
author_role author
author2 Suarez Mariscal, Claudia Francesca
author2_role author
dc.contributor.advisor.fl_str_mv Ormeño Ayala, Yeshica Isela
dc.contributor.author.fl_str_mv Carbajal Bacilio, Karen Alexsandra
Suarez Mariscal, Claudia Francesca
dc.subject.es_PE.fl_str_mv Análisis de sentimientos
Twint
Pysentimiento
Naive Bayes
Super Vector Machine
Random Forest
Multilayer Perceptron
topic Análisis de sentimientos
Twint
Pysentimiento
Naive Bayes
Super Vector Machine
Random Forest
Multilayer Perceptron
http://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.none.fl_str_mv http://purl.org/pe-repo/ocde/ford#2.02.04
description El objetivo de esta investigación se centra en evaluar el etiquetado de tweets mediante Pysentimiento, un modelo transformer especializado para el análisis de texto, y posteriormente utilizar este dataset para entrenar modelos de aprendizaje supervisado no especializados en la tarea del análisis de sentimiento. Para ello se propone la construcción de dos datasets, de escenario político y pandemia, mediante una metodología que incluye a Twint, para la extracción de tweets, y a Pysentimiento, para etiquetar los datos automáticamente. También se incluye una etapa de verificación manual de una porción de los datos, para evaluar el impacto de contar con datos etiquetados manualmente en la fase de entrenamiento de los modelos. En tanto para realizar el análisis de sentimientos, los datos son pre-procesados y transformados previamente a la aplicación de cuatro modelos clasificadores de Machine Learning(ML): Naive Bayes (NB), Super Vector Machine (SVM), Random Forest (RF) y Multilayer Perceptron (MLP). Así mismo se propone una fase experimental para aumentar el rendimiento de estos modelos, de los cuales se obtiene que: (1) se debe trabajar basado en el análisis de las clase positiva y negativa (de acuerdo a los datasets obtenidos) con una proporción estratificada para el train/test, (2) la verificación manual mejora los resultados para ambos escenarios, (3) Naive Bayes es el mejor clasificador con 88,4 % de exactitud, 83,4 % de precisión, 89,8 % de exhaustividad y 86,5 % de F1-score, mientras que para el escenario pandemia Super Vector Machine es considerado como el mejor clasificador con 85 % de exactitud, 86,1 % de precisión, 77,8 % de exhaustividad y 81,7 % de F1-score.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-07-06T16:49:28Z
dc.date.available.none.fl_str_mv 2023-07-06T16:49:28Z
dc.date.issued.fl_str_mv 2023
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.other.none.fl_str_mv 253T20230164
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12918/7478
identifier_str_mv 253T20230164
url http://hdl.handle.net/20.500.12918/7478
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.en_US.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Antonio Abad del Cusco
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:UNSAAC-Institucional
instname:Universidad Nacional de San Antonio Abad del Cusco
instacron:UNSAAC
instname_str Universidad Nacional de San Antonio Abad del Cusco
instacron_str UNSAAC
institution UNSAAC
reponame_str UNSAAC-Institucional
collection UNSAAC-Institucional
bitstream.url.fl_str_mv http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/7478/1/253T20230164_TC.pdf
bitstream.checksum.fl_str_mv ad190cbca53c75f24082c99f0f723c89
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv DSpace de la UNSAAC
repository.mail.fl_str_mv soporte.repositorio@unsaac.edu.pe
_version_ 1770785455337373696
score 13.989288
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).