NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social

Descripción del Articulo

La detección de contenido de odio es una tarea desafiante, especialmente en el contexto del monitoreo en tiempo real en Internet. La detección manual resulta agotadora e impráctica debido al alto volumen y frecuencia de datos en línea. Esta tesis propone la creación de un nuevo sistema de Inteligenc...

Descripción completa

Detalles Bibliográficos
Autores: Carhuancho Bazan, Alessandro David, Nuñez Lazo, Sergio Antonio
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Peruana de Ciencias Aplicadas
Repositorio:UPC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorioacademico.upc.edu.pe:10757/676189
Enlace del recurso:http://hdl.handle.net/10757/676189
Nivel de acceso:acceso abierto
Materia:Contenido de odio
Transformer
BERT
BETO
Hate speech
https://purl.org/pe-repo/ocde/ford#2.02.04
https://purl.org/pe-repo/ocde/ford#1.00.00
Descripción
Sumario:La detección de contenido de odio es una tarea desafiante, especialmente en el contexto del monitoreo en tiempo real en Internet. La detección manual resulta agotadora e impráctica debido al alto volumen y frecuencia de datos en línea. Esta tesis propone la creación de un nuevo sistema de Inteligencia Artificial llamado NoHateS (abreviado del inglés “No more Hate Speech for Spanish text”, traducido al español como “No más contenido de odio en textos en español”). Este sistema está compuesto por varios componentes, siendo el principal BETO-CNN, que es la combinación del modelo BETO, un modelo basado en Transformers entrenado en un corpus en español, y una red neuronal convolucional (CNN de sus siglas en inglés). El cuál está diseñado para detectar si un texto contiene o no contenido de odio. El segundo componente se desarrolla para garantizar la accesibilidad, lo cual incluye una interfaz de programación de aplicaciones (API de sus siglas en inglés) que permite la integración sin problemas del modelo en diversas aplicaciones, y un Bot de Discord desarrollado para facilitar la manipulación de la mencionada API y ayudar a los usuarios a detectar contenido de odio en los canales de texto. Esta tesis también incluye pruebas con datos desequilibrados y aplica técnicas de aumento de datos para abordar este desafío y crear modelos más robustos. Los resultados demuestran la efectividad de NoHateS en la detección de contenido de odio y proporcionan recomendaciones para investigaciones futuras en este campo.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).