Métodos de inteligência artificial para a classificação de documentos em Espanhol

Descripción del Articulo

La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar l...

Descripción completa

Detalles Bibliográficos
Autores: Gonsalves, Tad, Hang, Hu, Hiroyasu, Yoshimi
Formato: artículo
Fecha de Publicación:2024
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:Revistas - Universidad Nacional Mayor de San Marcos
Lenguaje:inglés
OAI Identifier:oai:revistasinvestigacion.unmsm.edu.pe:article/29208
Enlace del recurso:https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208
Nivel de acceso:acceso abierto
Materia:aprendizaje automático
aprendizaje profundo
aumento de datos
clasificación de documentos
inteligencia artificial
artificial intelligence
machine learning
deep learning
data augmentation
document classification
inteligência artificial
aprendizagem automática
aprendizagem profunda
aumento de dados
classificação de documentos
id REVUNMSM_19abd83f7814e658167c8753063d0fa8
oai_identifier_str oai:revistasinvestigacion.unmsm.edu.pe:article/29208
network_acronym_str REVUNMSM
network_name_str Revistas - Universidad Nacional Mayor de San Marcos
repository_id_str
dc.title.none.fl_str_mv Métodos de inteligência artificial para a classificação de documentos em Espanhol
Artificial Intelligence Methods for Spanish Documents Classification
Métodos de inteligencia artificial para la clasificación de documentos en español
title Métodos de inteligência artificial para a classificação de documentos em Espanhol
spellingShingle Métodos de inteligência artificial para a classificação de documentos em Espanhol
Gonsalves, Tad
aprendizaje automático
aprendizaje profundo
aumento de datos
clasificación de documentos
inteligencia artificial
artificial intelligence
machine learning
deep learning
data augmentation
document classification
inteligência artificial
aprendizagem automática
aprendizagem profunda
aumento de dados
classificação de documentos
title_short Métodos de inteligência artificial para a classificação de documentos em Espanhol
title_full Métodos de inteligência artificial para a classificação de documentos em Espanhol
title_fullStr Métodos de inteligência artificial para a classificação de documentos em Espanhol
title_full_unstemmed Métodos de inteligência artificial para a classificação de documentos em Espanhol
title_sort Métodos de inteligência artificial para a classificação de documentos em Espanhol
dc.creator.none.fl_str_mv Gonsalves, Tad
Hang, Hu
Hiroyasu, Yoshimi
Gonsalves, Tad
Hang, Hu
Hiroyasu, Yoshimi
Gonsalves, Tad
Hang, Hu
Hiroyasu, Yoshimi
author Gonsalves, Tad
author_facet Gonsalves, Tad
Hang, Hu
Hiroyasu, Yoshimi
author_role author
author2 Hang, Hu
Hiroyasu, Yoshimi
author2_role author
author
dc.subject.none.fl_str_mv aprendizaje automático
aprendizaje profundo
aumento de datos
clasificación de documentos
inteligencia artificial
artificial intelligence
machine learning
deep learning
data augmentation
document classification
inteligência artificial
aprendizagem automática
aprendizagem profunda
aumento de dados
classificação de documentos
topic aprendizaje automático
aprendizaje profundo
aumento de datos
clasificación de documentos
inteligencia artificial
artificial intelligence
machine learning
deep learning
data augmentation
document classification
inteligência artificial
aprendizagem automática
aprendizagem profunda
aumento de dados
classificação de documentos
description La rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-30
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208
10.15381/lengsoc.v23i2.29208
url https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208
identifier_str_mv 10.15381/lengsoc.v23i2.29208
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208/21785
dc.rights.none.fl_str_mv Derechos de autor 2024 Tad Gonsalves, Hu Hang, Yoshimi Hiroyasu
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Derechos de autor 2024 Tad Gonsalves, Hu Hang, Yoshimi Hiroyasu
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas
publisher.none.fl_str_mv Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas
dc.source.none.fl_str_mv Lengua y Sociedad; Vol. 23 Núm. 2 (2024); 1047-1068
Lengua y Sociedad; v. 23 n. 2 (2024); 1047-1068
Lengua y Sociedad; Vol. 23 No. 2 (2024); 1047-1068
2413-2659
1729-9721
10.15381/lengsoc.v23i2
reponame:Revistas - Universidad Nacional Mayor de San Marcos
instname:Universidad Nacional Mayor de San Marcos
instacron:UNMSM
instname_str Universidad Nacional Mayor de San Marcos
instacron_str UNMSM
institution UNMSM
reponame_str Revistas - Universidad Nacional Mayor de San Marcos
collection Revistas - Universidad Nacional Mayor de San Marcos
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1848424674349809664
spelling Métodos de inteligência artificial para a classificação de documentos em EspanholArtificial Intelligence Methods for Spanish Documents ClassificationMétodos de inteligencia artificial para la clasificación de documentos en españolGonsalves, TadHang, HuHiroyasu, YoshimiGonsalves, TadHang, HuHiroyasu, YoshimiGonsalves, TadHang, HuHiroyasu, Yoshimiaprendizaje automáticoaprendizaje profundoaumento de datosclasificación de documentosinteligencia artificialartificial intelligencemachine learning deep learningdata augmentationdocument classificationinteligência artificialaprendizagem automáticaaprendizagem profundaaumento de dadosclassificação de documentosLa rápida globalización y la creciente necesidad de comunicación interlingüística requieren corpus modernos y en tiempo real para ayudar a los estudiantes de idiomas. Los métodos tradicionales para crear dichos corpus, especialmente en español, son inadecuados debido a su incapacidad para procesar la gran cantidad de datos no estructurados disponibles en internet. En este estudio se exploran las metodologías de inteligencia artificial (IA) para la adquisición automática de documentos en español de la web, preprocesándolos y clasificándolos con el fin de construir un corpus vasto y flexible para el aprendizaje del español. La investigación aplica el rastreo web mediante el framework Scrapy para recopilar datos, que luego se limpian y clasifican utilizando modelos avanzados de procesamiento del lenguaje natural (PLN). En concreto, el estudio emplea el algoritmo BERT (Bidirectional Encoder Representations from Transformers) y su variante mejorada RoBERTa para lograr la clasificación de documentos. Mediante una combinación de técnicas de aumento de datos y modelos de aprendizaje profundo, el estudio logra una alta precisión en la clasificación de texto en español, lo que demuestra el potencial del uso de la IA para superar las limitaciones de los enfoques tradicionales de creación de corpus.A rápida globalização e a crescente necessidade de comunicação entre línguas exigem corpora modernos e em tempo real para ajudar os estudantes de línguas. Os métodos tradicionais para criar tais corpora, especialmente em espanhol, são inadequados devido à sua incapacidade de processar os dados vastos e não estruturados disponíveis online. Este estudo explora metodologias de Inteligência Artificial (IA) para a aquisição automática de documentos espanhóis da Web, pré-processando-os e classificando-os de modo a construir um corpus vasto e flexível para a aprendizagem do espanhol. A investigação aplica o rastreio da Web utilizando a estrutura Scrapy para recolher dados, que são depois limpos e classificados utilizando modelos avançados de processamento da linguagem natural (PNL). Especificamente, o estudo utiliza o algoritmo BERT (Bidirectional Encoder Representations from Transformers) e a sua variante melhorada RoBERTa para obter a classificação dos documentos. Através de uma combinação de técnicas de aumento de dados e modelos de aprendizagem profunda, o estudo consegue uma elevada precisão na classificação de textos em espanhol, demonstrando o potencial da utilização da IA para ultrapassar as limitações das abordagens tradicionais de construção de corpus.The rapid globalization and growing need for cross-language communication necessitate modern, real-time corpora to aid language learners. Traditional methods for creating such corpora, especially in Spanish, are inadequate due to their inability to process the vast and unstructured data available online. This study explores Artificial Intelligence (AI) methodologies for automatic Spanish document acquisition from the web, pre-processing and classifying them in order to build a vast and flexible corpus for Spanish learning. The research applies web crawling using the Scrapy framework to collect data, which is then cleaned and classified using advanced Natural Language Processing (NLP) models. Specifically, the study employs BERT (Bidirectional Encoder Representations from Transformers) and its enhanced variant RoBERTa to achieve document classification. Through a combination of data augmentation techniques and deep learning models, the study achieves high accuracy in classifying Spanish-language texts, demonstrating the potential for using AI to overcome the limitations of traditional corpus-building approaches.Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas2024-12-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/2920810.15381/lengsoc.v23i2.29208Lengua y Sociedad; Vol. 23 Núm. 2 (2024); 1047-1068Lengua y Sociedad; v. 23 n. 2 (2024); 1047-1068Lengua y Sociedad; Vol. 23 No. 2 (2024); 1047-10682413-26591729-972110.15381/lengsoc.v23i2reponame:Revistas - Universidad Nacional Mayor de San Marcosinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMenghttps://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/29208/21785Derechos de autor 2024 Tad Gonsalves, Hu Hang, Yoshimi Hiroyasuhttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessoai:revistasinvestigacion.unmsm.edu.pe:article/292082025-01-21T19:36:34Z
score 13.915032
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).