Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo

Descripción del Articulo

Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin emba...

Descripción completa

Detalles Bibliográficos
Autor: Pereira Noriega, José Humberto
Formato: tesis de grado
Fecha de Publicación:2019
Institución:Consejo Nacional de Ciencia Tecnología e Innovación
Repositorio:CONCYTEC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.concytec.gob.pe:20.500.12390/1433
Enlace del recurso:https://hdl.handle.net/20.500.12390/1433
Nivel de acceso:acceso abierto
Materia:Lingüística computacional
Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
https://purl.org/pe-repo/ocde/ford#2.00.00
id CONC_2d233977eaa4a2e055a406327cc50ef1
oai_identifier_str oai:repositorio.concytec.gob.pe:20.500.12390/1433
network_acronym_str CONC
network_name_str CONCYTEC-Institucional
repository_id_str 4689
dc.title.none.fl_str_mv Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
spellingShingle Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
Pereira Noriega, José Humberto
Lingüística computacional
Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
https://purl.org/pe-repo/ocde/ford#2.00.00
title_short Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_full Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_fullStr Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_full_unstemmed Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_sort Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
author Pereira Noriega, José Humberto
author_facet Pereira Noriega, José Humberto
author_role author
dc.contributor.author.fl_str_mv Pereira Noriega, José Humberto
dc.subject.none.fl_str_mv Lingüística computacional
topic Lingüística computacional
Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
https://purl.org/pe-repo/ocde/ford#2.00.00
dc.subject.es_PE.fl_str_mv Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.00.00
description Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
publishDate 2019
dc.date.accessioned.none.fl_str_mv 2024-05-30T23:13:38Z
dc.date.available.none.fl_str_mv 2024-05-30T23:13:38Z
dc.date.issued.fl_str_mv 2019
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12390/1433
url https://hdl.handle.net/20.500.12390/1433
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.publisher.none.fl_str_mv Pontificia Universidad Católica del Perú
publisher.none.fl_str_mv Pontificia Universidad Católica del Perú
dc.source.none.fl_str_mv reponame:CONCYTEC-Institucional
instname:Consejo Nacional de Ciencia Tecnología e Innovación
instacron:CONCYTEC
instname_str Consejo Nacional de Ciencia Tecnología e Innovación
instacron_str CONCYTEC
institution CONCYTEC
reponame_str CONCYTEC-Institucional
collection CONCYTEC-Institucional
repository.name.fl_str_mv Repositorio Institucional CONCYTEC
repository.mail.fl_str_mv repositorio@concytec.gob.pe
_version_ 1844883054253834240
spelling Publicationrp04193600Pereira Noriega, José Humberto2024-05-30T23:13:38Z2024-05-30T23:13:38Z2019https://hdl.handle.net/20.500.12390/1433Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.Consejo Nacional de Ciencia, Tecnología e Innovación Tecnológica - ConcytecspaPontificia Universidad Católica del Perúinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/4.0/Lingüística computacionalLenguas índigenas--Perú (Shipibo-Conibo)-1Lingüística--Procesamiento de datos-1https://purl.org/pe-repo/ocde/ford#2.00.00-1Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-koniboinfo:eu-repo/semantics/bachelorThesisreponame:CONCYTEC-Institucionalinstname:Consejo Nacional de Ciencia Tecnología e Innovacióninstacron:CONCYTEC20.500.12390/1433oai:repositorio.concytec.gob.pe:20.500.12390/14332024-05-30 16:03:23.269https://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_14cbinfo:eu-repo/semantics/closedAccessmetadata only accesshttps://repositorio.concytec.gob.peRepositorio Institucional CONCYTECrepositorio@concytec.gob.pe#PLACEHOLDER_PARENT_METADATA_VALUE#<Publication xmlns="https://www.openaire.eu/cerif-profile/1.1/" id="0d5158d5-aecc-4a6e-80c7-eef4bcf1591d"> <Type xmlns="https://www.openaire.eu/cerif-profile/vocab/COAR_Publication_Types">http://purl.org/coar/resource_type/c_1843</Type> <Language>spa</Language> <Title>Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo</Title> <PublishedIn> <Publication> </Publication> </PublishedIn> <PublicationDate>2019</PublicationDate> <Authors> <Author> <DisplayName>Pereira Noriega, José Humberto</DisplayName> <Person id="rp04193" /> <Affiliation> <OrgUnit> </OrgUnit> </Affiliation> </Author> </Authors> <Editors> </Editors> <Publishers> <Publisher> <DisplayName>Pontificia Universidad Católica del Perú</DisplayName> <OrgUnit /> </Publisher> </Publishers> <License>https://creativecommons.org/licenses/by-nc-nd/4.0/</License> <Keyword>Lingüística computacional</Keyword> <Keyword>Lenguas índigenas--Perú (Shipibo-Conibo)</Keyword> <Keyword>Lingüística--Procesamiento de datos</Keyword> <Abstract>Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.</Abstract> <Access xmlns="http://purl.org/coar/access_right" > </Access> </Publication> -1
score 13.444865
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).