NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social
Descripción del Articulo
La detección de contenido de odio es una tarea desafiante, especialmente en el contexto del monitoreo en tiempo real en Internet. La detección manual resulta agotadora e impráctica debido al alto volumen y frecuencia de datos en línea. Esta tesis propone la creación de un nuevo sistema de Inteligenc...
| Autores: | , |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2024 |
| Institución: | Universidad Peruana de Ciencias Aplicadas |
| Repositorio: | UPC-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorioacademico.upc.edu.pe:10757/676189 |
| Enlace del recurso: | http://hdl.handle.net/10757/676189 |
| Nivel de acceso: | acceso abierto |
| Materia: | Contenido de odio Transformer BERT BETO Hate speech https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
| id |
UUPC_5cff260d826d3a21d33b5d81b2a8fe2e |
|---|---|
| oai_identifier_str |
oai:repositorioacademico.upc.edu.pe:10757/676189 |
| network_acronym_str |
UUPC |
| network_name_str |
UPC-Institucional |
| repository_id_str |
2670 |
| dc.title.es_PE.fl_str_mv |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| title |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| spellingShingle |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social Carhuancho Bazan, Alessandro David Contenido de odio Transformer BERT BETO Hate speech https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
| title_short |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| title_full |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| title_fullStr |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| title_full_unstemmed |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| title_sort |
NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social |
| author |
Carhuancho Bazan, Alessandro David |
| author_facet |
Carhuancho Bazan, Alessandro David Nuñez Lazo, Sergio Antonio |
| author_role |
author |
| author2 |
Nuñez Lazo, Sergio Antonio |
| author2_role |
author |
| dc.contributor.advisor.fl_str_mv |
Reyes Silva Patricia Daniela |
| dc.contributor.author.fl_str_mv |
Carhuancho Bazan, Alessandro David Nuñez Lazo, Sergio Antonio |
| dc.subject.none.fl_str_mv |
Contenido de odio Transformer BERT BETO Hate speech |
| topic |
Contenido de odio Transformer BERT BETO Hate speech https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
| dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
| dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.00.00 |
| description |
La detección de contenido de odio es una tarea desafiante, especialmente en el contexto del monitoreo en tiempo real en Internet. La detección manual resulta agotadora e impráctica debido al alto volumen y frecuencia de datos en línea. Esta tesis propone la creación de un nuevo sistema de Inteligencia Artificial llamado NoHateS (abreviado del inglés “No more Hate Speech for Spanish text”, traducido al español como “No más contenido de odio en textos en español”). Este sistema está compuesto por varios componentes, siendo el principal BETO-CNN, que es la combinación del modelo BETO, un modelo basado en Transformers entrenado en un corpus en español, y una red neuronal convolucional (CNN de sus siglas en inglés). El cuál está diseñado para detectar si un texto contiene o no contenido de odio. El segundo componente se desarrolla para garantizar la accesibilidad, lo cual incluye una interfaz de programación de aplicaciones (API de sus siglas en inglés) que permite la integración sin problemas del modelo en diversas aplicaciones, y un Bot de Discord desarrollado para facilitar la manipulación de la mencionada API y ayudar a los usuarios a detectar contenido de odio en los canales de texto. Esta tesis también incluye pruebas con datos desequilibrados y aplica técnicas de aumento de datos para abordar este desafío y crear modelos más robustos. Los resultados demuestran la efectividad de NoHateS en la detección de contenido de odio y proporcionan recomendaciones para investigaciones futuras en este campo. |
| publishDate |
2024 |
| dc.date.accessioned.none.fl_str_mv |
2024-10-21T20:27:56Z |
| dc.date.available.none.fl_str_mv |
2024-10-21T20:27:56Z |
| dc.date.issued.fl_str_mv |
2024-06-28 |
| dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| dc.type.other.es_PE.fl_str_mv |
Tesis |
| dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
| format |
bachelorThesis |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10757/676189 |
| dc.identifier.isni.es_PE.fl_str_mv |
000000012196144X |
| url |
http://hdl.handle.net/10757/676189 |
| identifier_str_mv |
000000012196144X |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.rights.coar.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
| dc.format.en_US.fl_str_mv |
application/pdf application/epub application/msword |
| dc.publisher.es_PE.fl_str_mv |
Universidad Peruana de Ciencias Aplicadas (UPC) |
| dc.publisher.country.es_PE.fl_str_mv |
PE |
| dc.source.es_PE.fl_str_mv |
Universidad Peruana de Ciencias Aplicadas (UPC) Repositorio Académico - UPC |
| dc.source.none.fl_str_mv |
reponame:UPC-Institucional instname:Universidad Peruana de Ciencias Aplicadas instacron:UPC |
| instname_str |
Universidad Peruana de Ciencias Aplicadas |
| instacron_str |
UPC |
| institution |
UPC |
| reponame_str |
UPC-Institucional |
| collection |
UPC-Institucional |
| bitstream.url.fl_str_mv |
https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/8/Carhuancho_BA.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/7/Carhuancho_BA.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/10/Carhuancho_BA_Fichaautorizacion.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/12/Carhuancho_BA_Reportesimilitud.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/14/Carhuancho_BA_Actasimilitud.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/6/Carhuancho_BA.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/9/Carhuancho_BA_Fichaautorizacion.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/11/Carhuancho_BA_Reportesimilitud.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/13/Carhuancho_BA_Actasimilitud.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/1/Carhuancho_BA.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/2/Carhuancho_BA.docx https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/3/Carhuancho_BA_Fichaautorizacion.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/4/Carhuancho_BA_Reportesimilitud.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/5/Carhuancho_BA_Actasimilitud.pdf |
| bitstream.checksum.fl_str_mv |
b96cff0c2f10836aa14bd9908b45511a 46630d76ed7ddb5e93c7eb6c4bd21379 5ede607e4071832cc9d9eb6737aa0375 8f35ad1e840ef3f939be9f7cfd7ddf24 f088dbcee3c90f0f5974b483f49f5bc8 cce6cc3c7c812300f952643e411431f0 608ed9ac1156c59697aaddb9b0bf8f14 5d5352c6e3055befc04af81166edfaa3 a7c29453bbe4d5b6da375cb685d02ee0 addc74134ffb9f758026cb712e66c96b ee1c80d0c33febfb4226b451fdfe1345 af043ccc117fa748c7ed4f853b5c50de 773727eba3cba34f1d78cb2c9756e1b4 9824e4d3e570567162ce51cea0c725d9 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio académico upc |
| repository.mail.fl_str_mv |
upc@openrepository.com |
| _version_ |
1846066054375145472 |
| spelling |
6cc57c3607d09953c5c8d52199ae086bReyes Silva Patricia Danielafb2be641aacb0a351f018d827127fff950076057577a09edaa817b49f2f2a1bbdaf500Carhuancho Bazan, Alessandro DavidNuñez Lazo, Sergio Antonio2024-10-21T20:27:56Z2024-10-21T20:27:56Z2024-06-28http://hdl.handle.net/10757/676189000000012196144XLa detección de contenido de odio es una tarea desafiante, especialmente en el contexto del monitoreo en tiempo real en Internet. La detección manual resulta agotadora e impráctica debido al alto volumen y frecuencia de datos en línea. Esta tesis propone la creación de un nuevo sistema de Inteligencia Artificial llamado NoHateS (abreviado del inglés “No more Hate Speech for Spanish text”, traducido al español como “No más contenido de odio en textos en español”). Este sistema está compuesto por varios componentes, siendo el principal BETO-CNN, que es la combinación del modelo BETO, un modelo basado en Transformers entrenado en un corpus en español, y una red neuronal convolucional (CNN de sus siglas en inglés). El cuál está diseñado para detectar si un texto contiene o no contenido de odio. El segundo componente se desarrolla para garantizar la accesibilidad, lo cual incluye una interfaz de programación de aplicaciones (API de sus siglas en inglés) que permite la integración sin problemas del modelo en diversas aplicaciones, y un Bot de Discord desarrollado para facilitar la manipulación de la mencionada API y ayudar a los usuarios a detectar contenido de odio en los canales de texto. Esta tesis también incluye pruebas con datos desequilibrados y aplica técnicas de aumento de datos para abordar este desafío y crear modelos más robustos. Los resultados demuestran la efectividad de NoHateS en la detección de contenido de odio y proporcionan recomendaciones para investigaciones futuras en este campo.Hate speech detection is a challenging task, especially in the context of real-time monitoring on the internet. Manual detection is both exhausting and impractical due to the high volume and frequency of online data. This thesis proposes a system called NoHateS. This system is made of multiple components, the main one is BETO-CNN, a Transformers-based model trained on a Spanish corpus, which is designed to actually detect whether a text contains hate speech or not. The second component is developed to ensure accessibility. This includes an API to allow seamless integration of the model into various applications, and a Discord Bot developed for easy manipulation of the aforementioned API in order to help users detect hate speech in text channels. This thesis also includes tests with imbalanced data and applies data augmentation in order to deal with it and make more robust models. The results demonstrate the effectiveness of NoHateS in detecting hate speech and provide recommendations for future research in this domain.TesisODS 9: Industria, innovación e infraestructuraODS 4: Educación de calidadODS 8: Trabajo decente y crecimiento económicoapplication/pdfapplication/epubapplication/mswordspaUniversidad Peruana de Ciencias Aplicadas (UPC)PEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/http://purl.org/coar/access_right/c_abf2Universidad Peruana de Ciencias Aplicadas (UPC)Repositorio Académico - UPCreponame:UPC-Institucionalinstname:Universidad Peruana de Ciencias Aplicadasinstacron:UPCContenido de odioTransformerBERTBETOHate speechhttps://purl.org/pe-repo/ocde/ford#2.02.04https://purl.org/pe-repo/ocde/ford#1.00.00NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción socialinfo:eu-repo/semantics/bachelorThesisTesishttp://purl.org/coar/resource_type/c_7a1fSUNEDUUniversidad Peruana de Ciencias Aplicadas (UPC). Facultad de IngenieríaLicenciaturaCiencias de la ComputaciónLicenciado en Ciencias de la Computación2024-10-21T23:21:53Zhttps://purl.org/pe-repo/renati/type#tesishttps://orcid.org/0009-0002-3209-012X25776740https://purl.org/pe-repo/renati/level#tituloProfesional611016Diaz Suarez, Jorge EduardoRosales Huamanchumo, JavierUbaldo Gamarra, Victoria7358465072393800CONVERTED2_3920221Carhuancho_BA.pdfCarhuancho_BA.pdfapplication/pdf625159https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/8/Carhuancho_BA.pdfb96cff0c2f10836aa14bd9908b45511aMD58falseTHUMBNAILCarhuancho_BA.pdf.jpgCarhuancho_BA.pdf.jpgGenerated Thumbnailimage/jpeg29487https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/7/Carhuancho_BA.pdf.jpg46630d76ed7ddb5e93c7eb6c4bd21379MD57falseCarhuancho_BA_Fichaautorizacion.pdf.jpgCarhuancho_BA_Fichaautorizacion.pdf.jpgGenerated Thumbnailimage/jpeg27034https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/10/Carhuancho_BA_Fichaautorizacion.pdf.jpg5ede607e4071832cc9d9eb6737aa0375MD510falseCarhuancho_BA_Reportesimilitud.pdf.jpgCarhuancho_BA_Reportesimilitud.pdf.jpgGenerated Thumbnailimage/jpeg35537https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/12/Carhuancho_BA_Reportesimilitud.pdf.jpg8f35ad1e840ef3f939be9f7cfd7ddf24MD512falseCarhuancho_BA_Actasimilitud.pdf.jpgCarhuancho_BA_Actasimilitud.pdf.jpgGenerated Thumbnailimage/jpeg41027https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/14/Carhuancho_BA_Actasimilitud.pdf.jpgf088dbcee3c90f0f5974b483f49f5bc8MD514falseTEXTCarhuancho_BA.pdf.txtCarhuancho_BA.pdf.txtExtracted texttext/plain77579https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/6/Carhuancho_BA.pdf.txtcce6cc3c7c812300f952643e411431f0MD56falseCarhuancho_BA_Fichaautorizacion.pdf.txtCarhuancho_BA_Fichaautorizacion.pdf.txtExtracted texttext/plain2765https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/9/Carhuancho_BA_Fichaautorizacion.pdf.txt608ed9ac1156c59697aaddb9b0bf8f14MD59falseCarhuancho_BA_Reportesimilitud.pdf.txtCarhuancho_BA_Reportesimilitud.pdf.txtExtracted texttext/plain2049https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/11/Carhuancho_BA_Reportesimilitud.pdf.txt5d5352c6e3055befc04af81166edfaa3MD511falseCarhuancho_BA_Actasimilitud.pdf.txtCarhuancho_BA_Actasimilitud.pdf.txtExtracted texttext/plain1219https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/13/Carhuancho_BA_Actasimilitud.pdf.txta7c29453bbe4d5b6da375cb685d02ee0MD513falseORIGINALCarhuancho_BA.pdfCarhuancho_BA.pdfapplication/pdf924622https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/1/Carhuancho_BA.pdfaddc74134ffb9f758026cb712e66c96bMD51trueCarhuancho_BA.docxCarhuancho_BA.docxapplication/vnd.openxmlformats-officedocument.wordprocessingml.document499226https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/2/Carhuancho_BA.docxee1c80d0c33febfb4226b451fdfe1345MD52falseCarhuancho_BA_Fichaautorizacion.pdfCarhuancho_BA_Fichaautorizacion.pdfapplication/pdf207228https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/3/Carhuancho_BA_Fichaautorizacion.pdfaf043ccc117fa748c7ed4f853b5c50deMD53falseCarhuancho_BA_Reportesimilitud.pdfCarhuancho_BA_Reportesimilitud.pdfapplication/pdf6159891https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/4/Carhuancho_BA_Reportesimilitud.pdf773727eba3cba34f1d78cb2c9756e1b4MD54falseCarhuancho_BA_Actasimilitud.pdfCarhuancho_BA_Actasimilitud.pdfapplication/pdf124742https://repositorioacademico.upc.edu.pe/bitstream/10757/676189/5/Carhuancho_BA_Actasimilitud.pdf9824e4d3e570567162ce51cea0c725d9MD55false10757/676189oai:repositorioacademico.upc.edu.pe:10757/6761892025-04-08 14:43:02.687Repositorio académico upcupc@openrepository.com |
| score |
13.905282 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).