Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo

Descripción del Articulo

Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin emba...

Descripción completa

Detalles Bibliográficos
Autor: Pereira Noriega, José Humberto
Formato: tesis de grado
Fecha de Publicación:2018
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/13495
Enlace del recurso:http://hdl.handle.net/20.500.12404/13495
Nivel de acceso:acceso abierto
Materia:Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_6bba601cc68b5bcb8aa469eaac548d02
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/13495
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
spellingShingle Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
Pereira Noriega, José Humberto
Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_full Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_fullStr Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_full_unstemmed Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
title_sort Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-konibo
author Pereira Noriega, José Humberto
author_facet Pereira Noriega, José Humberto
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Felix Arturo
dc.contributor.author.fl_str_mv Pereira Noriega, José Humberto
dc.subject.es_ES.fl_str_mv Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
topic Lenguas índigenas--Perú (Shipibo-Conibo)
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.
publishDate 2018
dc.date.created.es_ES.fl_str_mv 2018
dc.date.accessioned.es_ES.fl_str_mv 2019-02-13T15:43:57Z
dc.date.available.es_ES.fl_str_mv 2019-02-13T15:43:57Z
dc.date.issued.fl_str_mv 2019-02-15
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/13495
url http://hdl.handle.net/20.500.12404/13495
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/bf41be9a-c25d-491c-9ea1-a21a9c7a9e0e/download
https://tesis.pucp.edu.pe/bitstreams/167c3764-a9dc-4a5b-a539-ab64b45d8280/download
https://tesis.pucp.edu.pe/bitstreams/c68667fe-fe04-48f2-b3c2-9771854afb7a/download
https://tesis.pucp.edu.pe/bitstreams/a26f7ffe-763a-42be-acf7-924a9838739f/download
https://tesis.pucp.edu.pe/bitstreams/7adbe3de-e213-423f-a317-417c755df173/download
bitstream.checksum.fl_str_mv 63e069777db1d022a8dc5e82df4e9160
8a4605be74aa9ea9d79846c1fba20a33
cf3c2270b78bcd6aebdc67c9a7522f1e
4679e63268e901c45bd3b030f786b193
56ac809ea90557158f740bb460cb55c7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737120599605248
spelling Oncevay Marcos, Felix ArturoPereira Noriega, José Humberto2019-02-13T15:43:57Z2019-02-13T15:43:57Z20182019-02-15http://hdl.handle.net/20.500.12404/13495Desde que el Ministerio de Educación oficializó el alfabeto shipibo-konibo, existe la necesidad de generar una gran cantidad de documentos educativos y oficiales para los hablantes de esta lengua, los cuales solo se realizan actualmente mediante el apoyo de traductores o personas bilingües. Sin embargo, en el campo de la lingüística computacional existen herramientas que permiten facilitar estas labores, como es el caso de un lematizador, el cual se encarga de obtener el lema o forma base de una palabra a partir de su forma flexionada. Su realización se da comúnmente mediante dos métodos: el uso de reglas morfológicas y el uso de diccionarios. Debido a esto, este proyecto tiene como objetivo principal desarrollar una herramienta de lematización para el shipibo-konibo usando un corpus de palabras, la cual se base en los estándares de anotación utilizados en otras lenguas, y que sea fácil de utilizar mediante una librería de funciones y un servicio web. Esta herramienta final se realizó utilizando principalmente el método de clasificación de los k-vecinos más cercanos, el cual permite estimar la clase de un nuevo caso mediante la comparación de sus características con las de casos previamente clasificados y dando como resultado la clase más frecuente para valores similares. Finalmente, la herramienta de lematización desarrollada logró alcanzar una precisión de 0.736 y de esta manera superar a herramientas utilizadas en otros idiomas.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Lenguas índigenas--Perú (Shipibo-Conibo)Lingüística--Procesamiento de datosLingüística computacionalhttps://purl.org/pe-repo/ocde/ford#1.02.00Implementación de un lematizador para una lengua de escasos recursos: caso shipibo-koniboinfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática46440101https://orcid.org/0000-0001-7675-6208612286https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81030https://tesis.pucp.edu.pe/bitstreams/bf41be9a-c25d-491c-9ea1-a21a9c7a9e0e/download63e069777db1d022a8dc5e82df4e9160MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/167c3764-a9dc-4a5b-a539-ab64b45d8280/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTEXTPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.txtPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.txtExtracted texttext/plain160469https://tesis.pucp.edu.pe/bitstreams/c68667fe-fe04-48f2-b3c2-9771854afb7a/downloadcf3c2270b78bcd6aebdc67c9a7522f1eMD55falseAnonymousREADORIGINALPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdfPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdfTexto completoapplication/pdf2134946https://tesis.pucp.edu.pe/bitstreams/a26f7ffe-763a-42be-acf7-924a9838739f/download4679e63268e901c45bd3b030f786b193MD56trueAnonymousREADTHUMBNAILPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.jpgPEREIRA_NORIEGA_JOSÉ_HUMBERTO.pdf.jpgIM Thumbnailimage/jpeg17713https://tesis.pucp.edu.pe/bitstreams/7adbe3de-e213-423f-a317-417c755df173/download56ac809ea90557158f740bb460cb55c7MD57falseAnonymousREAD20.500.12404/13495oai:tesis.pucp.edu.pe:20.500.12404/134952025-03-12 18:17:14.966http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.871945
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).