Desarrollo de recursos léxicos multi-dialécticos para el quechua

Descripción del Articulo

Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma po...

Descripción completa

Detalles Bibliográficos
Autor: Melgarejo Vergara, Nelsi Belly
Formato: tesis de maestría
Fecha de Publicación:2022
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/190794
Enlace del recurso:http://hdl.handle.net/20.500.12404/24477
Nivel de acceso:acceso abierto
Materia:Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
https://purl.org/pe-repo/ocde/ford#1.02.00
id RPUC_01eea102efe39d7cd0fd8e3056490d8e
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/190794
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
spelling Gómez Montoya, Héctor ErasmoMelgarejo Vergara, Nelsi Belly2023-03-13T19:52:06Z2023-03-13T19:52:06Z20222023-03-13http://hdl.handle.net/20.500.12404/24477Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Procesamiento en lenguaje natural (Informática)Algoritmos computacionalesQuechua--Estudio y enseñanzahttps://purl.org/pe-repo/ocde/ford#1.02.00Desarrollo de recursos léxicos multi-dialécticos para el quechuainfo:eu-repo/semantics/masterThesisreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación70599170https://orcid.org/0000-0002-1338-339271432187611087Villanueva Talavera, Edwin RafaelGomez Montoya, Hector ErasmoOncevay Marcos, Felix Arturohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesis20.500.14657/190794oai:repositorio.pucp.edu.pe:20.500.14657/1907942025-03-11 11:07:34.488http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv Desarrollo de recursos léxicos multi-dialécticos para el quechua
title Desarrollo de recursos léxicos multi-dialécticos para el quechua
spellingShingle Desarrollo de recursos léxicos multi-dialécticos para el quechua
Melgarejo Vergara, Nelsi Belly
Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_full Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_fullStr Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_full_unstemmed Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_sort Desarrollo de recursos léxicos multi-dialécticos para el quechua
author Melgarejo Vergara, Nelsi Belly
author_facet Melgarejo Vergara, Nelsi Belly
author_role author
dc.contributor.advisor.fl_str_mv Gómez Montoya, Héctor Erasmo
dc.contributor.author.fl_str_mv Melgarejo Vergara, Nelsi Belly
dc.subject.es_ES.fl_str_mv Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
topic Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.
publishDate 2022
dc.date.created.none.fl_str_mv 2022
dc.date.accessioned.none.fl_str_mv 2023-03-13T19:52:06Z
dc.date.available.none.fl_str_mv 2023-03-13T19:52:06Z
dc.date.issued.fl_str_mv 2023-03-13
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/24477
url http://hdl.handle.net/20.500.12404/24477
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835639891842564096
score 13.977305
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).