Métodos de inteligência artificial para a classificação de documentos em Espanhol

Descripción del Articulo

La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar l...

Descripción completa

Detalles Bibliográficos
Autores: Gonsalves, Tad, Hang, Hu, Hiroyasu, Yoshimi
Formato: artículo
Fecha de Publicación:2024
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:Revistas - Universidad Nacional Mayor de San Marcos
Lenguaje:inglés
OAI Identifier:oai:revistasinvestigacion.unmsm.edu.pe:article/29208
Enlace del recurso:https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208
Nivel de acceso:acceso abierto
Materia:aprendizaje automático
aprendizaje profundo
aumento de datos
clasificación de documentos
inteligencia artificial
artificial intelligence
machine learning
deep learning
data augmentation
document classification
inteligência artificial
aprendizagem automática
aprendizagem profunda
aumento de dados
classificação de documentos
Descripción
Sumario:La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).