Métodos de inteligência artificial para a classificação de documentos em Espanhol
Descripción del Articulo
La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar l...
| Autores: | , , |
|---|---|
| Formato: | artículo |
| Fecha de Publicación: | 2024 |
| Institución: | Universidad Nacional Mayor de San Marcos |
| Repositorio: | Revistas - Universidad Nacional Mayor de San Marcos |
| Lenguaje: | inglés |
| OAI Identifier: | oai:revistasinvestigacion.unmsm.edu.pe:article/29208 |
| Enlace del recurso: | https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208 |
| Nivel de acceso: | acceso abierto |
| Materia: | aprendizaje automático aprendizaje profundo aumento de datos clasificación de documentos inteligencia artificial artificial intelligence machine learning deep learning data augmentation document classification inteligência artificial aprendizagem automática aprendizagem profunda aumento de dados classificação de documentos |
| Sumario: | La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).