Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
Descripción del Articulo
Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin emba...
Autor: | |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2018 |
Institución: | Pontificia Universidad Católica del Perú |
Repositorio: | PUCP-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/13495 |
Enlace del recurso: | http://hdl.handle.net/20.500.12404/13495 |
Nivel de acceso: | acceso abierto |
Materia: | Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos Lingüística computacional https://purl.org/pe-repo/ocde/ford#1.02.00 |
id |
PUCP_6bba601cc68b5bcb8aa469eaac548d02 |
---|---|
oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/13495 |
network_acronym_str |
PUCP |
network_name_str |
PUCP-Tesis |
repository_id_str |
. |
dc.title.es_ES.fl_str_mv |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
title |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
spellingShingle |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo Pereira Noriega, José Humberto Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos Lingüística computacional https://purl.org/pe-repo/ocde/ford#1.02.00 |
title_short |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
title_full |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
title_fullStr |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
title_full_unstemmed |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
title_sort |
Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo |
author |
Pereira Noriega, José Humberto |
author_facet |
Pereira Noriega, José Humberto |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Oncevay Marcos, Felix Arturo |
dc.contributor.author.fl_str_mv |
Pereira Noriega, José Humberto |
dc.subject.es_ES.fl_str_mv |
Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos Lingüística computacional |
topic |
Lenguas índigenas--Perú (Shipibo-Conibo) Lingüística--Procesamiento de datos Lingüística computacional https://purl.org/pe-repo/ocde/ford#1.02.00 |
dc.subject.ocde.es_ES.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.00 |
description |
Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas. |
publishDate |
2018 |
dc.date.created.es_ES.fl_str_mv |
2018 |
dc.date.accessioned.es_ES.fl_str_mv |
2019-02-13T15:43:57Z |
dc.date.available.es_ES.fl_str_mv |
2019-02-13T15:43:57Z |
dc.date.issued.fl_str_mv |
2019-02-15 |
dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/13495 |
url |
http://hdl.handle.net/20.500.12404/13495 |
dc.language.iso.es_ES.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
dc.publisher.country.es_ES.fl_str_mv |
PE |
dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
instname_str |
Pontificia Universidad Católica del Perú |
instacron_str |
PUCP |
institution |
PUCP |
reponame_str |
PUCP-Tesis |
collection |
PUCP-Tesis |
bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/bf41be9a-c25d-491c-9ea1-a21a9c7a9e0e/download https://tesis.pucp.edu.pe/bitstreams/167c3764-a9dc-4a5b-a539-ab64b45d8280/download https://tesis.pucp.edu.pe/bitstreams/c68667fe-fe04-48f2-b3c2-9771854afb7a/download https://tesis.pucp.edu.pe/bitstreams/a26f7ffe-763a-42be-acf7-924a9838739f/download https://tesis.pucp.edu.pe/bitstreams/7adbe3de-e213-423f-a317-417c755df173/download |
bitstream.checksum.fl_str_mv |
63e069777db1d022a8dc5e82df4e9160 8a4605be74aa9ea9d79846c1fba20a33 cf3c2270b78bcd6aebdc67c9a7522f1e 4679e63268e901c45bd3b030f786b193 56ac809ea90557158f740bb460cb55c7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
_version_ |
1834737120599605248 |
spelling |
Oncevay Marcos, Felix ArturoPereira Noriega, José Humberto2019-02-13T15:43:57Z2019-02-13T15:43:57Z20182019-02-15http://hdl.handle.net/20.500.12404/13495Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Lenguas índigenas--Perú (Shipibo-Conibo)Lingüística--Procesamiento de datosLingüística computacionalhttps://purl.org/pe-repo/ocde/ford#1.02.00Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-koniboinfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática46440101https://orcid.org/0000-0001-7675-6208612286https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81030https://tesis.pucp.edu.pe/bitstreams/bf41be9a-c25d-491c-9ea1-a21a9c7a9e0e/download63e069777db1d022a8dc5e82df4e9160MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/167c3764-a9dc-4a5b-a539-ab64b45d8280/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTEXTPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.txtPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.txtExtracted texttext/plain160469https://tesis.pucp.edu.pe/bitstreams/c68667fe-fe04-48f2-b3c2-9771854afb7a/downloadcf3c2270b78bcd6aebdc67c9a7522f1eMD55falseAnonymousREADORIGINALPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdfPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdfTexto completoapplication/pdf2134946https://tesis.pucp.edu.pe/bitstreams/a26f7ffe-763a-42be-acf7-924a9838739f/download4679e63268e901c45bd3b030f786b193MD56trueAnonymousREADTHUMBNAILPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.jpgPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.jpgIM Thumbnailimage/jpeg17713https://tesis.pucp.edu.pe/bitstreams/7adbe3de-e213-423f-a317-417c755df173/download56ac809ea90557158f740bb460cb55c7MD57falseAnonymousREAD20.500.12404/13495oai:tesis.pucp.edu.pe:20.500.12404/134952025-03-12 18:17:14.966http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
13.871945 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).