El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español
Descripción del Articulo
O advento da inteligência artificial generativa no nível do usuário, especialmente por meio do desenvolvimento de Grandes Modelos de Linguagem (GML), nos leva a refletir sobre a proliferação de vieses na construção, no desenvolvimento, no uso e na representatividade desses modelos baseados em dados...
| Autores: | , , |
|---|---|
| Formato: | artículo |
| Fecha de Publicación: | 2024 |
| Institución: | Universidad Nacional Mayor de San Marcos |
| Repositorio: | Revistas - Universidad Nacional Mayor de San Marcos |
| Lenguaje: | español |
| OAI Identifier: | oai:revistasinvestigacion.unmsm.edu.pe:article/28665 |
| Enlace del recurso: | https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/28665 |
| Nivel de acceso: | acceso abierto |
| Materia: | generative artificial intelligence (GenAI) Large Language Models (LLMs) Digital Linguistic Bias (DLB) language diversity Spanish inteligencia artificial generativa (IAGen) Modelos de Lenguaje Masivos (MLM) Sesgo Lingüístico Digital (SLD) diversidad de la lengua español inteligência artificial gerativa (AIGer) Grandes Modelos de Linguagem (GML) Viés Linguístico Digital (DLB) diversidade linguística espanhol |
| id |
REVUNMSM_d048126eeef701d3795251d68e81647d |
|---|---|
| oai_identifier_str |
oai:revistasinvestigacion.unmsm.edu.pe:article/28665 |
| network_acronym_str |
REVUNMSM |
| network_name_str |
Revistas - Universidad Nacional Mayor de San Marcos |
| repository_id_str |
|
| dc.title.none.fl_str_mv |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español The Digital Linguistic Bias (DLB) in Artificial Intelligence: Implications for Large Language Models in Spanish O Viés Linguístico Digital (VLD) na Inteligência Artificial: implicações para grandes modelos de linguagem em espanhol |
| title |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español |
| spellingShingle |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español Muñoz-Basols, Javier generative artificial intelligence (GenAI) Large Language Models (LLMs) Digital Linguistic Bias (DLB) language diversity Spanish inteligencia artificial generativa (IAGen) Modelos de Lenguaje Masivos (MLM) Sesgo Lingüístico Digital (SLD) diversidad de la lengua español inteligência artificial gerativa (AIGer) Grandes Modelos de Linguagem (GML) Viés Linguístico Digital (DLB) diversidade linguística espanhol |
| title_short |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español |
| title_full |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español |
| title_fullStr |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español |
| title_full_unstemmed |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español |
| title_sort |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español |
| dc.creator.none.fl_str_mv |
Muñoz-Basols, Javier Palomares Marín, María del Mar Moreno Fernández, Francisco Muñoz-Basols, Javier Palomares Marín, María del Mar Moreno Fernández, Francisco Muñoz-Basols, Javier Palomares Marín, María del Mar Moreno Fernández, Francisco |
| author |
Muñoz-Basols, Javier |
| author_facet |
Muñoz-Basols, Javier Palomares Marín, María del Mar Moreno Fernández, Francisco |
| author_role |
author |
| author2 |
Palomares Marín, María del Mar Moreno Fernández, Francisco |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
generative artificial intelligence (GenAI) Large Language Models (LLMs) Digital Linguistic Bias (DLB) language diversity Spanish inteligencia artificial generativa (IAGen) Modelos de Lenguaje Masivos (MLM) Sesgo Lingüístico Digital (SLD) diversidad de la lengua español inteligência artificial gerativa (AIGer) Grandes Modelos de Linguagem (GML) Viés Linguístico Digital (DLB) diversidade linguística espanhol |
| topic |
generative artificial intelligence (GenAI) Large Language Models (LLMs) Digital Linguistic Bias (DLB) language diversity Spanish inteligencia artificial generativa (IAGen) Modelos de Lenguaje Masivos (MLM) Sesgo Lingüístico Digital (SLD) diversidad de la lengua español inteligência artificial gerativa (AIGer) Grandes Modelos de Linguagem (GML) Viés Linguístico Digital (DLB) diversidade linguística espanhol |
| description |
O advento da inteligência artificial generativa no nível do usuário, especialmente por meio do desenvolvimento de Grandes Modelos de Linguagem (GML), nos leva a refletir sobre a proliferação de vieses na construção, no desenvolvimento, no uso e na representatividade desses modelos baseados em dados linguísticos. Este artigo analisa, em primeiro lugar, as iniciativas desenvolvidas para o espanhol no campo da IA, tanto na América de língua espanhola quanto na Espanha, dando atenção especial aos recursos linguísticos e aos GML. A composição dos principais GML atuais do espanhol é examinada e comparada com outros GML de idiomas peninsulares (catalão, basco, galego e valenciano). Além disso, o termo Viés Linguístico Digital (VLD), que é específico da IA, é apresentado, tanto em nível inter quanto intralinguístico. Por fim, sugere-se que um usuário digitalmente consciente poderá contribuir para atenuar os efeitos do VLD. Para concluir, enfatiza-se a necessidade de uma ação coordenada dos agentes institucionais para preservar a diversidade do patrimônio linguístico de língua espanhola no desenvolvimento de GML. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-12-30 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/28665 10.15381/lengsoc.v23i2.28665 |
| url |
https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/28665 |
| identifier_str_mv |
10.15381/lengsoc.v23i2.28665 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
https://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/28665/21766 |
| dc.rights.none.fl_str_mv |
https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by/4.0 |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas |
| publisher.none.fl_str_mv |
Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas |
| dc.source.none.fl_str_mv |
Lengua y Sociedad; Vol. 23 Núm. 2 (2024); 623-647 Lengua y Sociedad; v. 23 n. 2 (2024); 623-647 Lengua y Sociedad; Vol. 23 No. 2 (2024); 623-647 2413-2659 1729-9721 10.15381/lengsoc.v23i2 reponame:Revistas - Universidad Nacional Mayor de San Marcos instname:Universidad Nacional Mayor de San Marcos instacron:UNMSM |
| instname_str |
Universidad Nacional Mayor de San Marcos |
| instacron_str |
UNMSM |
| institution |
UNMSM |
| reponame_str |
Revistas - Universidad Nacional Mayor de San Marcos |
| collection |
Revistas - Universidad Nacional Mayor de San Marcos |
| repository.name.fl_str_mv |
|
| repository.mail.fl_str_mv |
|
| _version_ |
1848424673904164864 |
| spelling |
El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en españolThe Digital Linguistic Bias (DLB) in Artificial Intelligence: Implications for Large Language Models in SpanishO Viés Linguístico Digital (VLD) na Inteligência Artificial: implicações para grandes modelos de linguagem em espanholMuñoz-Basols, JavierPalomares Marín, María del MarMoreno Fernández, FranciscoMuñoz-Basols, JavierPalomares Marín, María del MarMoreno Fernández, FranciscoMuñoz-Basols, JavierPalomares Marín, María del MarMoreno Fernández, Franciscogenerative artificial intelligence (GenAI)Large Language Models (LLMs)Digital Linguistic Bias (DLB)language diversitySpanishinteligencia artificial generativa (IAGen)Modelos de Lenguaje Masivos (MLM)Sesgo Lingüístico Digital (SLD)diversidad de la lenguaespañolinteligência artificial gerativa (AIGer)Grandes Modelos de Linguagem (GML)Viés Linguístico Digital (DLB)diversidade linguísticaespanholO advento da inteligência artificial generativa no nível do usuário, especialmente por meio do desenvolvimento de Grandes Modelos de Linguagem (GML), nos leva a refletir sobre a proliferação de vieses na construção, no desenvolvimento, no uso e na representatividade desses modelos baseados em dados linguísticos. Este artigo analisa, em primeiro lugar, as iniciativas desenvolvidas para o espanhol no campo da IA, tanto na América de língua espanhola quanto na Espanha, dando atenção especial aos recursos linguísticos e aos GML. A composição dos principais GML atuais do espanhol é examinada e comparada com outros GML de idiomas peninsulares (catalão, basco, galego e valenciano). Além disso, o termo Viés Linguístico Digital (VLD), que é específico da IA, é apresentado, tanto em nível inter quanto intralinguístico. Por fim, sugere-se que um usuário digitalmente consciente poderá contribuir para atenuar os efeitos do VLD. Para concluir, enfatiza-se a necessidade de uma ação coordenada dos agentes institucionais para preservar a diversidade do patrimônio linguístico de língua espanhola no desenvolvimento de GML.The advent of generative artificial intelligence at the user level, particularly through the development of Large Language Models (LLMs), prompts us to reflect on the proliferation of biases in the construction, development, use, and representation of these models based on linguistic data. This article first reviews the initiatives developed for Spanish in the field of AI from Latin America and Spain, with special attention to linguistic resources and LLMs. The composition of the current major LLMs for Spanish is examined and compared with other LLMs for peninsular languages (Catalan, Basque, Galician, and Valencian). Subsequently, the term Digital Linguistic Bias (DLB), a consequence of the linguistic hybridity generated in the use of AI-powered tools, is introduced, both at the interlinguistic and intralinguistic levels. Finally, it is suggested that a digitally aware user can intervene mitigating the effects of the DLB. In conclusion, the need for coordinated action by institutional agents to preserve the diversity of the Spanish-speaking linguistic heritage in the development of LLMs is emphasized.La llegada de la inteligencia artificial generativa a nivel de usuario, especialmente a partir de los Modelos de Lenguaje Masivos (MLM), nos obliga a reflexionar sobre la proliferación de sesgos en la construcción, desarrollo, uso y representatividad de estos modelos basados en datos lingüísticos. En este artículo, se revisan las iniciativas desarrolladas para el español en el campo de la inteligencia artificial (IA), tanto desde la América hispanohablante como desde España, de modo que se presta especial atención a los recursos lingüísticos y a los MLM. Se examina la composición de los principales MLM actuales del español y se comparan con otros MLM de lenguas peninsulares (catalán, euskera, gallego y valenciano). Asimismo, se introduce el término Sesgo Lingüístico Digital (SLD) para identificar la hibridez lingüística que la IA genera tanto a nivel interlingüístico (p. ej., en relación con la base del inglés utilizada para entrenar estos modelos) como intralingüístico (en relación con las distintas variedades de la lengua). Finalmente, se sugiere que un usuario con conciencia digital podrá contribuir a mitigar los efectos del SLD. En conclusión, se enfatiza la necesidad de una acción coordinada por parte de los agentes institucionales para preservar la diversidad del patrimonio lingüístico hispanohablante en el desarrollo de los MLM.Universidad Nacional Mayor de San Marcos, Facultad de Letras y Ciencias Humanas2024-12-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/2866510.15381/lengsoc.v23i2.28665Lengua y Sociedad; Vol. 23 Núm. 2 (2024); 623-647Lengua y Sociedad; v. 23 n. 2 (2024); 623-647Lengua y Sociedad; Vol. 23 No. 2 (2024); 623-6472413-26591729-972110.15381/lengsoc.v23i2reponame:Revistas - Universidad Nacional Mayor de San Marcosinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMspahttps://revistasinvestigacion.unmsm.edu.pe/index.php/lenguaysociedad/article/view/28665/21766Derechos de autor 2024 Javier Muñoz-Basols, María del Mar Palomares Marín, Francisco Moreno Fernándezhttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessoai:revistasinvestigacion.unmsm.edu.pe:article/286652025-01-21T19:36:34Z |
| score |
13.861517 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).