Desarrollo de recursos léxicos multi-dialécticos para el quechua

Melgarejo Vergara, Nelsi Belly

Desarrollo de recursos léxicos multi-dialécticos para el quechua

Descripción del Articulo

Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma po...

Descripción completa

Detalles Bibliográficos
Autor:	Melgarejo Vergara, Nelsi Belly
Formato:	tesis de maestría
Fecha de Publicación:	2022
Institución:	Pontificia Universidad Católica del Perú
Repositorio:	PUCP-Institucional
Lenguaje:	español
OAI Identifier:	oai:repositorio.pucp.edu.pe:20.500.14657/190794
Enlace del recurso:	http://hdl.handle.net/20.500.12404/24477
Nivel de acceso:	acceso abierto
Materia:	Procesamiento en lenguaje natural (Informática) Algoritmos computacionales Quechua--Estudio y enseñanza https://purl.org/pe-repo/ocde/ford#1.02.00

id	RPUC_01eea102efe39d7cd0fd8e3056490d8e
oai_identifier_str	oai:repositorio.pucp.edu.pe:20.500.14657/190794
network_acronym_str	RPUC
network_name_str	PUCP-Institucional
repository_id_str	2905
spelling	Gómez Montoya, Héctor ErasmoMelgarejo Vergara, Nelsi Belly2023-03-13T19:52:06Z2023-03-13T19:52:06Z20222023-03-13http://hdl.handle.net/20.500.12404/24477Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Procesamiento en lenguaje natural (Informática)Algoritmos computacionalesQuechua--Estudio y enseñanzahttps://purl.org/pe-repo/ocde/ford#1.02.00Desarrollo de recursos léxicos multi-dialécticos para el quechuainfo:eu-repo/semantics/masterThesisreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación70599170https://orcid.org/0000-0002-1338-339271432187611087Villanueva Talavera, Edwin RafaelGomez Montoya, Hector ErasmoOncevay Marcos, Felix Arturohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesis20.500.14657/190794oai:repositorio.pucp.edu.pe:20.500.14657/1907942025-03-11 11:07:34.488http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv	Desarrollo de recursos léxicos multi-dialécticos para el quechua
title	Desarrollo de recursos léxicos multi-dialécticos para el quechua
spellingShingle	Desarrollo de recursos léxicos multi-dialécticos para el quechua Melgarejo Vergara, Nelsi Belly Procesamiento en lenguaje natural (Informática) Algoritmos computacionales Quechua--Estudio y enseñanza https://purl.org/pe-repo/ocde/ford#1.02.00
title_short	Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_full	Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_fullStr	Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_full_unstemmed	Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_sort	Desarrollo de recursos léxicos multi-dialécticos para el quechua
author	Melgarejo Vergara, Nelsi Belly
author_facet	Melgarejo Vergara, Nelsi Belly
author_role	author
dc.contributor.advisor.fl_str_mv	Gómez Montoya, Héctor Erasmo
dc.contributor.author.fl_str_mv	Melgarejo Vergara, Nelsi Belly
dc.subject.es_ES.fl_str_mv	Procesamiento en lenguaje natural (Informática) Algoritmos computacionales Quechua--Estudio y enseñanza
topic	Procesamiento en lenguaje natural (Informática) Algoritmos computacionales Quechua--Estudio y enseñanza https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv	https://purl.org/pe-repo/ocde/ford#1.02.00
description	Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.
publishDate	2022
dc.date.created.none.fl_str_mv	2022
dc.date.accessioned.none.fl_str_mv	2023-03-13T19:52:06Z
dc.date.available.none.fl_str_mv	2023-03-13T19:52:06Z
dc.date.issued.fl_str_mv	2023-03-13
dc.type.es_ES.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/20.500.12404/24477
url	http://hdl.handle.net/20.500.12404/24477
dc.language.iso.es_ES.fl_str_mv	spa
language	spa
dc.rights.es_ES.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv	Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv	PE
dc.source.none.fl_str_mv	reponame:PUCP-Institucional instname:Pontificia Universidad Católica del Perú instacron:PUCP
instname_str	Pontificia Universidad Católica del Perú
instacron_str	PUCP
institution	PUCP
reponame_str	PUCP-Institucional
collection	PUCP-Institucional
repository.name.fl_str_mv	Repositorio Institucional de la PUCP
repository.mail.fl_str_mv	repositorio@pucp.pe
_version_	1835639891842564096
score	13.917434

Desarrollo de recursos léxicos multi-dialécticos para el quechua

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Desarrollo de recursos léxicos multi-dialécticos para el quechua

Descripción del Articulo

Ejemplares Similares