Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
Descripción del Articulo
Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin emba...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2019 |
| Institución: | Consejo Nacional de Ciencia Tecnología e Innovación |
| Repositorio: | CONCYTEC-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.concytec.gob.pe:20.500.12390/1433 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12390/1433 |
| Nivel de acceso: | acceso abierto |
| Materia: | Lingüística computacional Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos https://purl.org/pe-repo/ocde/ford#2.00.00 |
| id |
CONC_2d233977eaa4a2e055a406327cc50ef1 |
|---|---|
| oai_identifier_str |
oai:repositorio.concytec.gob.pe:20.500.12390/1433 |
| network_acronym_str |
CONC |
| network_name_str |
CONCYTEC-Institucional |
| repository_id_str |
4689 |
| dc.title.none.fl_str_mv |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| title |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| spellingShingle |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo Pereira Noriega, José Humberto Lingüística computacional Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos https://purl.org/pe-repo/ocde/ford#2.00.00 |
| title_short |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| title_full |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| title_fullStr |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| title_full_unstemmed |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| title_sort |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
| author |
Pereira Noriega, José Humberto |
| author_facet |
Pereira Noriega, José Humberto |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Pereira Noriega, José Humberto |
| dc.subject.none.fl_str_mv |
Lingüística computacional |
| topic |
Lingüística computacional Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos https://purl.org/pe-repo/ocde/ford#2.00.00 |
| dc.subject.es_PE.fl_str_mv |
Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos |
| dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.00.00 |
| description |
Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas. |
| publishDate |
2019 |
| dc.date.accessioned.none.fl_str_mv |
2024-05-30T23:13:38Z |
| dc.date.available.none.fl_str_mv |
2024-05-30T23:13:38Z |
| dc.date.issued.fl_str_mv |
2019 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12390/1433 |
| url |
https://hdl.handle.net/20.500.12390/1433 |
| dc.language.iso.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| dc.publisher.none.fl_str_mv |
Pontificia Universidad Católica del Perú |
| publisher.none.fl_str_mv |
Pontificia Universidad Católica del Perú |
| dc.source.none.fl_str_mv |
reponame:CONCYTEC-Institucional instname:Consejo Nacional de Ciencia Tecnología e Innovación instacron:CONCYTEC |
| instname_str |
Consejo Nacional de Ciencia Tecnología e Innovación |
| instacron_str |
CONCYTEC |
| institution |
CONCYTEC |
| reponame_str |
CONCYTEC-Institucional |
| collection |
CONCYTEC-Institucional |
| repository.name.fl_str_mv |
Repositorio Institucional CONCYTEC |
| repository.mail.fl_str_mv |
repositorio@concytec.gob.pe |
| _version_ |
1844883054253834240 |
| spelling |
Publicationrp04193600Pereira Noriega, José Humberto2024-05-30T23:13:38Z2024-05-30T23:13:38Z2019https://hdl.handle.net/20.500.12390/1433Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.Consejo Nacional de Ciencia, Tecnología e Innovación Tecnológica - ConcytecspaPontificia Universidad Católica del Perúinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/4.0/Lingüística computacionalLenguas índigenas--Perú (Shipibo-Conibo)-1Lingüística--Procesamiento de datos-1https://purl.org/pe-repo/ocde/ford#2.00.00-1Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-koniboinfo:eu-repo/semantics/bachelorThesisreponame:CONCYTEC-Institucionalinstname:Consejo Nacional de Ciencia Tecnología e Innovacióninstacron:CONCYTEC20.500.12390/1433oai:repositorio.concytec.gob.pe:20.500.12390/14332024-05-30 16:03:23.269https://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_14cbinfo:eu-repo/semantics/closedAccessmetadata only accesshttps://repositorio.concytec.gob.peRepositorio Institucional CONCYTECrepositorio@concytec.gob.pe#PLACEHOLDER_PARENT_METADATA_VALUE#<Publication xmlns="https://www.openaire.eu/cerif-profile/1.1/" id="0d5158d5-aecc-4a6e-80c7-eef4bcf1591d"> <Type xmlns="https://www.openaire.eu/cerif-profile/vocab/COAR_Publication_Types">http://purl.org/coar/resource_type/c_1843</Type> <Language>spa</Language> <Title>Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo</Title> <PublishedIn> <Publication> </Publication> </PublishedIn> <PublicationDate>2019</PublicationDate> <Authors> <Author> <DisplayName>Pereira Noriega, José Humberto</DisplayName> <Person id="rp04193" /> <Affiliation> <OrgUnit> </OrgUnit> </Affiliation> </Author> </Authors> <Editors> </Editors> <Publishers> <Publisher> <DisplayName>Pontificia Universidad Católica del Perú</DisplayName> <OrgUnit /> </Publisher> </Publishers> <License>https://creativecommons.org/licenses/by-nc-nd/4.0/</License> <Keyword>Lingüística computacional</Keyword> <Keyword>Lenguas índigenas--Perú (Shipibo-Conibo)</Keyword> <Keyword>Lingüística--Procesamiento de datos</Keyword> <Abstract>Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.</Abstract> <Access xmlns="http://purl.org/coar/access_right" > </Access> </Publication> -1 |
| score |
13.444865 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).