Métodos de inteligência artificial para a classificação de documentos em Espanhol
Descripción del Articulo
La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar l...
| Autores: | , , |
|---|---|
| Formato: | artículo |
| Fecha de Publicación: | 2024 |
| Institución: | Universidad Nacional Mayor de San Marcos |
| Repositorio: | Revistas - Universidad Nacional Mayor de San Marcos |
| Lenguaje: | inglés |
| OAI Identifier: | oai:revistasinvestigacion.unmsm.edu.pe:article/29208 |
| Enlace del recurso: | https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208 |
| Nivel de acceso: | acceso abierto |
| Materia: | aprendizaje automático aprendizaje profundo aumento de datos clasificación de documentos inteligencia artificial artificial intelligence machine learning deep learning data augmentation document classification inteligência artificial aprendizagem automática aprendizagem profunda aumento de dados classificação de documentos |
| id |
REVUNMSM_19abd83f7814e658167c8753063d0fa8 |
|---|---|
| oai_identifier_str |
oai:revistasinvestigacion.unmsm.edu.pe:article/29208 |
| network_acronym_str |
REVUNMSM |
| network_name_str |
Revistas - Universidad Nacional Mayor de San Marcos |
| repository_id_str |
|
| dc.title.none.fl_str_mv |
Métodos de inteligência artificial para a classificação de documentos em Espanhol Artificial Intelligence Methods for Spanish Documents Classification Métodos de inteligencia artificial para la clasificación de documentos en español |
| title |
Métodos de inteligência artificial para a classificação de documentos em Espanhol |
| spellingShingle |
Métodos de inteligência artificial para a classificação de documentos em Espanhol Gonsalves, Tad aprendizaje automático aprendizaje profundo aumento de datos clasificación de documentos inteligencia artificial artificial intelligence machine learning deep learning data augmentation document classification inteligência artificial aprendizagem automática aprendizagem profunda aumento de dados classificação de documentos |
| title_short |
Métodos de inteligência artificial para a classificação de documentos em Espanhol |
| title_full |
Métodos de inteligência artificial para a classificação de documentos em Espanhol |
| title_fullStr |
Métodos de inteligência artificial para a classificação de documentos em Espanhol |
| title_full_unstemmed |
Métodos de inteligência artificial para a classificação de documentos em Espanhol |
| title_sort |
Métodos de inteligência artificial para a classificação de documentos em Espanhol |
| dc.creator.none.fl_str_mv |
Gonsalves, Tad Hang, Hu Hiroyasu, Yoshimi Gonsalves, Tad Hang, Hu Hiroyasu, Yoshimi Gonsalves, Tad Hang, Hu Hiroyasu, Yoshimi |
| author |
Gonsalves, Tad |
| author_facet |
Gonsalves, Tad Hang, Hu Hiroyasu, Yoshimi |
| author_role |
author |
| author2 |
Hang, Hu Hiroyasu, Yoshimi |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
aprendizaje automático aprendizaje profundo aumento de datos clasificación de documentos inteligencia artificial artificial intelligence machine learning deep learning data augmentation document classification inteligência artificial aprendizagem automática aprendizagem profunda aumento de dados classificação de documentos |
| topic |
aprendizaje automático aprendizaje profundo aumento de datos clasificación de documentos inteligencia artificial artificial intelligence machine learning deep learning data augmentation document classification inteligência artificial aprendizagem automática aprendizagem profunda aumento de dados classificação de documentos |
| description |
La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-12-30 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208 10.15381/lengsoc.v23i2.29208 |
| url |
https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208 |
| identifier_str_mv |
10.15381/lengsoc.v23i2.29208 |
| dc.language.none.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208/21785 |
| dc.rights.none.fl_str_mv |
Derechos de autor 2024 Tad Gonsalves, Hu Hang, Yoshimi Hiroyasu https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Derechos de autor 2024 Tad Gonsalves, Hu Hang, Yoshimi Hiroyasu https://creativecommons.org/licenses/by/4.0 |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas |
| publisher.none.fl_str_mv |
Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas |
| dc.source.none.fl_str_mv |
Lengua y Sociedad; Vol. 23 Núm. 2 (2024); 1047-1068 Lengua y Sociedad; v. 23 n. 2 (2024); 1047-1068 Lengua y Sociedad; Vol. 23 No. 2 (2024); 1047-1068 2413-2659 1729-9721 10.15381/lengsoc.v23i2 reponame:Revistas - Universidad Nacional Mayor de San Marcos instname:Universidad Nacional Mayor de San Marcos instacron:UNMSM |
| instname_str |
Universidad Nacional Mayor de San Marcos |
| instacron_str |
UNMSM |
| institution |
UNMSM |
| reponame_str |
Revistas - Universidad Nacional Mayor de San Marcos |
| collection |
Revistas - Universidad Nacional Mayor de San Marcos |
| repository.name.fl_str_mv |
|
| repository.mail.fl_str_mv |
|
| _version_ |
1848424674349809664 |
| spelling |
Métodos de inteligência artificial para a classificação de documentos em EspanholArtificial Intelligence Methods for Spanish Documents ClassificationMétodos de inteligencia artificial para la clasificación de documentos en españolGonsalves, TadHang, HuHiroyasu, YoshimiGonsalves, TadHang, HuHiroyasu, YoshimiGonsalves, TadHang, HuHiroyasu, Yoshimiaprendizaje automáticoaprendizaje profundoaumento de datosclasificación de documentosinteligencia artificialartificial intelligencemachine learning deep learningdata augmentationdocument classificationinteligência artificialaprendizagem automáticaaprendizagem profundaaumento de dadosclassificação de documentosLa rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus.A rápida globalização e a crescente necessidade de comunicação entre línguas exigem corpora modernos e em tempo real para ajudar os estudantes de línguas. Os métodos tradicionais para criar tais corpora, especialmente em espanhol, são inadequados devido à sua incapacidade de processar os dados vastos e não estruturados disponíveis online. Este estudo explora metodologias de Inteligência Artificial (IA) para a aquisição automática de documentos espanhóis da Web, pré-processando-os e classificando-os de modo a construir um corpus vasto e flexível para a aprendizagem do espanhol. A investigação aplica o rastreio da Web utilizando a estrutura Scrapy para recolher dados, que são depois limpos e classificados utilizando modelos avançados de processamento da linguagem natural (PNL). Especificamente, o estudo utiliza o algoritmo BERT (Bidirectional Encoder Representations from Transformers) e a sua variante melhorada RoBERTa para obter a classificação dos documentos. Através de uma combinação de técnicas de aumento de dados e modelos de aprendizagem profunda, o estudo consegue uma elevada precisão na classificação de textos em espanhol, demonstrando o potencial da utilização da IA para ultrapassar as limitações das abordagens tradicionais de construção de corpus.The rapid globalization and growing need for cross-language communication necessitate modern, real-time corpora to aid language learners. Traditional methods for creating such corpora, especially in Spanish, are inadequate due to their inability to process the vast and unstructured data available online. This study explores Artificial Intelligence (AI) methodologies for automatic Spanish document acquisition from the web, pre-processing and classifying them in order to build a vast and flexible corpus for Spanish learning. The research applies web crawling using the Scrapy framework to collect data, which is then cleaned and classified using advanced Natural Language Processing (NLP) models. Specifically, the study employs BERT (Bidirectional Encoder Representations from Transformers) and its enhanced variant RoBERTa to achieve document classification. Through a combination of data augmentation techniques and deep learning models, the study achieves high accuracy in classifying Spanish-language texts, demonstrating the potential for using AI to overcome the limitations of traditional corpus-building approaches.Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas2024-12-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/2920810.15381/lengsoc.v23i2.29208Lengua y Sociedad; Vol. 23 Núm. 2 (2024); 1047-1068Lengua y Sociedad; v. 23 n. 2 (2024); 1047-1068Lengua y Sociedad; Vol. 23 No. 2 (2024); 1047-10682413-26591729-972110.15381/lengsoc.v23i2reponame:Revistas - Universidad Nacional Mayor de San Marcosinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMenghttps://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208/21785Derechos de autor 2024 Tad Gonsalves, Hu Hang, Yoshimi Hiroyasuhttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessoai:revistasinvestigacion.unmsm.edu.pe:article/292082025-01-21T19:36:34Z |
| score |
13.915032 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).