Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning

Descripción del Articulo

The complexity of words can pose a limitation to the accessibility of information, which could affect millions of Spanish-speaking people. The objective of this study is to develop a machine learning model for the binary task of identifying complex words in Spanish, using next-generation embeddings,...

Descripción completa

Detalles Bibliográficos
Autor: Mera Dávila, Luis Iván
Formato: artículo
Fecha de Publicación:2024
Institución:Universidad Nacional Mayor de San Marcos
Repositorio:Revistas - Universidad Nacional Mayor de San Marcos
Lenguaje:español
OAI Identifier:oai:revistasinvestigacion.unmsm.edu.pe:article/29211
Enlace del recurso:https://revistasinvestigacion.unmsm.edu.pe/index.php/rpcsis/article/view/29211
Nivel de acceso:acceso abierto
Materia:Complex word identification
Embeddings
Lexical Simplification
Spanish
Identificación de palabras complejas
Simplificación Léxica
Español
id REVUNMSM_39d5ba3a52c55160272b19a836f49333
oai_identifier_str oai:revistasinvestigacion.unmsm.edu.pe:article/29211
network_acronym_str REVUNMSM
network_name_str Revistas - Universidad Nacional Mayor de San Marcos
repository_id_str
spelling Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learningIntegration of new generation embeddings and current linguistic resources to identify complex words in Spanish with machine learningMera Dávila, Luis IvánMera Dávila, Luis IvánComplex word identificationEmbeddingsLexical SimplificationSpanishIdentificación de palabras complejasEmbeddingsSimplificación LéxicaEspañolThe complexity of words can pose a limitation to the accessibility of information, which could affect millions of Spanish-speaking people. The objective of this study is to develop a machine learning model for the binary task of identifying complex words in Spanish, using next-generation embeddings, current linguistic resources, and lexical properties. To this end, the Spanish dataset from the CWI Shared Task 2018 was used, obtaining embeddings generated by the text-embedding-3-large model and word frequencies extracted from resources such as the Corpus del Español del Siglo XXI, the Corpus de Referencia del Español Actual, the Spanish Billion Word Corpus and Embeddings, and Wordfreq. To select features and find their best combination, a 5-fold cross-validation using XGBClassifier was employed. After comparing several machine learning algorithms, the final model, based on LGBMClassifier, achieved a macro F1 score of 0.7993, surpassing the best team from that competition, more recent studies that used neural networks, and some large language models. This demonstrates the potential of these resources that are constantly being updated and that can contribute to improving the accuracy of this task.La complejidad de las palabras puede suponer una limitación para la accesibilidad de la información, lo que podría afectar a millones de personas hispanohablantes. El objetivo de este estudio es desarrollar un modelo de machine learning para la tarea binaria de identificación de palabras complejas en español, usando embeddings de nueva generación, recursos lingüísticos actuales y propiedades léxicas. Para ello se empleó el conjunto de datos en español de la tarea compartida CWI Shared Task 2018, obteniendo embeddings generados por el modelo text-embedding-3-large y  frecuencias de palabras extraídas de recursos como el Corpus del Español del Siglo XXI, el Corpus de Referencia del Español Actual, el Spanish Billion Word Corpus and Embeddings y Wordfreq. Para seleccionar características y encontrar su mejor combinación se usó una validación cruzada de 5 pliegues utilizando XGBClassifier. Una vez comparados varios algoritmos de machine learning, el modelo final, basado en LGBMClassifier, obtuvo el macro F1 de 0.7993, logrando superar al mejor equipo de dicha competencia, a estudios más recientes que utilizaron redes neuronales y a algunos modelos de lenguaje grandes. Esto muestra el potencial de estos recursos que constantemente están actualizándose y que pueden contribuir a mejorar la precisión de esta tarea.Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática2024-12-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistasinvestigacion.unmsm.edu.pe/index.php/rpcsis/article/view/2921110.15381/rpcs.v6i2.29211Revista Peruana de Computación y Sistemas; Vol. 6 No. 2 (2024); 55-64Revista peruana de computación y sistemas; Vol. 6 Núm. 2 (2024); 55-642617-2003reponame:Revistas - Universidad Nacional Mayor de San Marcosinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMspahttps://revistasinvestigacion.unmsm.edu.pe/index.php/rpcsis/article/view/29211/21732Derechos de autor 2024 Luis Iván Mera Dávilahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessoai:revistasinvestigacion.unmsm.edu.pe:article/292112025-01-03T20:02:34Z
dc.title.none.fl_str_mv Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
Integration of new generation embeddings and current linguistic resources to identify complex words in Spanish with machine learning
title Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
spellingShingle Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
Mera Dávila, Luis Iván
Complex word identification
Embeddings
Lexical Simplification
Spanish
Identificación de palabras complejas
Embeddings
Simplificación Léxica
Español
title_short Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
title_full Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
title_fullStr Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
title_full_unstemmed Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
title_sort Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
dc.creator.none.fl_str_mv Mera Dávila, Luis Iván
Mera Dávila, Luis Iván
author Mera Dávila, Luis Iván
author_facet Mera Dávila, Luis Iván
author_role author
dc.subject.none.fl_str_mv Complex word identification
Embeddings
Lexical Simplification
Spanish
Identificación de palabras complejas
Embeddings
Simplificación Léxica
Español
topic Complex word identification
Embeddings
Lexical Simplification
Spanish
Identificación de palabras complejas
Embeddings
Simplificación Léxica
Español
description The complexity of words can pose a limitation to the accessibility of information, which could affect millions of Spanish-speaking people. The objective of this study is to develop a machine learning model for the binary task of identifying complex words in Spanish, using next-generation embeddings, current linguistic resources, and lexical properties. To this end, the Spanish dataset from the CWI Shared Task 2018 was used, obtaining embeddings generated by the text-embedding-3-large model and word frequencies extracted from resources such as the Corpus del Español del Siglo XXI, the Corpus de Referencia del Español Actual, the Spanish Billion Word Corpus and Embeddings, and Wordfreq. To select features and find their best combination, a 5-fold cross-validation using XGBClassifier was employed. After comparing several machine learning algorithms, the final model, based on LGBMClassifier, achieved a macro F1 score of 0.7993, surpassing the best team from that competition, more recent studies that used neural networks, and some large language models. This demonstrates the potential of these resources that are constantly being updated and that can contribute to improving the accuracy of this task.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-30
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://revistasinvestigacion.unmsm.edu.pe/index.php/rpcsis/article/view/29211
10.15381/rpcs.v6i2.29211
url https://revistasinvestigacion.unmsm.edu.pe/index.php/rpcsis/article/view/29211
identifier_str_mv 10.15381/rpcs.v6i2.29211
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv https://revistasinvestigacion.unmsm.edu.pe/index.php/rpcsis/article/view/29211/21732
dc.rights.none.fl_str_mv Derechos de autor 2024 Luis Iván Mera Dávila
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Derechos de autor 2024 Luis Iván Mera Dávila
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática
publisher.none.fl_str_mv Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática
dc.source.none.fl_str_mv Revista Peruana de Computación y Sistemas; Vol. 6 No. 2 (2024); 55-64
Revista peruana de computación y sistemas; Vol. 6 Núm. 2 (2024); 55-64
2617-2003
reponame:Revistas - Universidad Nacional Mayor de San Marcos
instname:Universidad Nacional Mayor de San Marcos
instacron:UNMSM
instname_str Universidad Nacional Mayor de San Marcos
instacron_str UNMSM
institution UNMSM
reponame_str Revistas - Universidad Nacional Mayor de San Marcos
collection Revistas - Universidad Nacional Mayor de San Marcos
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1848424485939576832
score 13.893739
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).