Modelo Naive Bayes Multinomial para la clasificación de comentarios spam en español de videos sobre finanzas de la plataforma YouTube

Descripción del Articulo

La sección de comentarios de YouTube es una de las funcionalidades más importantes para los creadores de contenido, pero en la actualidad está siendo utilizada por cibercriminales como un medio para estafar a las personas mediante la ejecución de campañas spam sobre recomendaciones de supuestos expe...

Descripción completa

Detalles Bibliográficos
Autor: Mamani Lacuta, Deyvis
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Nacional del Altiplano
Repositorio:UNAP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unap.edu.pe:20.500.14082/22630
Enlace del recurso:https://repositorio.unap.edu.pe/handle/20.500.14082/22630
Nivel de acceso:acceso abierto
Materia:Comentarios spam
CRISP-DM
Naive Bayes Multinomial
NLP
Plataforma YouTube
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:La sección de comentarios de YouTube es una de las funcionalidades más importantes para los creadores de contenido, pero en la actualidad está siendo utilizada por cibercriminales como un medio para estafar a las personas mediante la ejecución de campañas spam sobre recomendaciones de supuestos expertos en inversión, esto ocurre con mayor frecuencia en videos con una temática de finanzas, en donde se pueden encontrar a usuarios más interesados en el tema de las inversiones. Esta situación tiene un efecto directo sobre los creadores de contenido ya que perjudica la experiencia de su público dentro de la sección de comentarios y además posibilita a que estos sean estafados. Es por ello que el presente trabajo tuvo como objetivo determinar en qué medida un modelo Naive Bayes Multinomial clasifica correctamente los comentarios spam en español en videos sobre finanzas de YouTube. El enfoque de la investigación es cuantitativo, de tipo experimental y con un diseño preexperimental, la muestra se encuentra conformada por más de 25,000 comentarios pertenecientes a 30 videos sobre finanzas de YouTube. La metodología empleada es la de Cross Industry Standard Process for Data Mining (CRISP-DM) que, a través de su aplicación, permitió la elaboración del conjunto de datos, la generación y evaluación del modelo de clasificación de comentarios spam Naive Bayes Multinomial. Como principales resultados se determinó que el modelo Naive Bayes Multinomial generado logra clasificar de forma correcta una cantidad correspondiente al 98% de comentarios spam en español de videos sobre finanzas de la plataforma YouTube, lo cual indica que el modelo presenta un rendimiento adecuado en la identificación de comentarios spam, esto en función de la métrica de evaluación Recall.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).