Métodos de inteligência artificial para a classificação de documentos em Espanhol

Gonsalves, Tad; Hang, Hu; Hiroyasu, Yoshimi

Métodos de inteligência artificial para a classificação de documentos em Espanhol

Descripción del Articulo

La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar l...

Descripción completa

Detalles Bibliográficos
Autores:	Gonsalves, Tad, Hang, Hu, Hiroyasu, Yoshimi
Formato:	artículo
Fecha de Publicación:	2024
Institución:	Universidad Nacional Mayor de San Marcos
Repositorio:	Revistas - Universidad Nacional Mayor de San Marcos
Lenguaje:	inglés
OAI Identifier:	oai:revistasinvestigacion.unmsm.edu.pe:article/29208
Enlace del recurso:	https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208
Nivel de acceso:	acceso abierto
Materia:	aprendizaje automático aprendizaje profundo aumento de datos clasificación de documentos inteligencia artificial artificial intelligence machine learning deep learning data augmentation document classification inteligência artificial aprendizagem automática aprendizagem profunda aumento de dados classificação de documentos

Descripción
Sumario:	La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus.

Métodos de inteligência artificial para a classificação de documentos em Espanhol

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Métodos de inteligência artificial para a classificação de documentos em Espanhol

Descripción del Articulo

Ejemplares Similares