Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo

Descripción del Articulo

Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin emba...

Descripción completa

Detalles Bibliográficos
Autor: Pereira Noriega, José Humberto
Formato: tesis de grado
Fecha de Publicación:2018
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/149035
Enlace del recurso:http://hdl.handle.net/20.500.12404/13495
Nivel de acceso:acceso abierto
Materia:Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
id RPUC_e43182a81c954672c0e5c862f00fc58a
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/149035
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
spelling Oncevay Marcos, Felix ArturoPereira Noriega, José Humberto2019-02-13T15:43:57Z2019-02-13T15:43:57Z20182019-02-15http://hdl.handle.net/20.500.12404/13495Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Lenguas índigenas--Perú (Shipibo-Conibo)Lingüística--Procesamiento de datosLingüística computacionalhttps://purl.org/pe-repo/ocde/ford#1.02.00Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-koniboinfo:eu-repo/semantics/bachelorThesisTesis de licenciaturareponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática46440101https://orcid.org/0000-0001-7675-6208612286https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesis20.500.14657/149035oai:repositorio.pucp.edu.pe:20.500.14657/1490352024-10-06 15:32:19.074http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
spellingShingle Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
Pereira Noriega, José Humberto
Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_full Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_fullStr Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_full_unstemmed Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_sort Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
author Pereira Noriega, José Humberto
author_facet Pereira Noriega, José Humberto
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Felix Arturo
dc.contributor.author.fl_str_mv Pereira Noriega, José Humberto
dc.subject.es_ES.fl_str_mv Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
topic Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
publishDate 2018
dc.date.created.es_ES.fl_str_mv 2018
dc.date.accessioned.es_ES.fl_str_mv 2019-02-13T15:43:57Z
dc.date.available.es_ES.fl_str_mv 2019-02-13T15:43:57Z
dc.date.issued.fl_str_mv 2019-02-15
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.other.none.fl_str_mv Tesis de licenciatura
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/13495
url http://hdl.handle.net/20.500.12404/13495
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835638594724691968
score 13.7211075
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).