Desarrollo de recursos léxicos multi-dialécticos para el quechua

Descripción del Articulo

Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma po...

Descripción completa

Detalles Bibliográficos
Autor: Melgarejo Vergara, Nelsi Belly
Formato: tesis de maestría
Fecha de Publicación:2022
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/24477
Enlace del recurso:http://hdl.handle.net/20.500.12404/24477
Nivel de acceso:acceso abierto
Materia:Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_3f5815f5b2eab51de7451114dba6ee47
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/24477
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Desarrollo de recursos léxicos multi-dialécticos para el quechua
title Desarrollo de recursos léxicos multi-dialécticos para el quechua
spellingShingle Desarrollo de recursos léxicos multi-dialécticos para el quechua
Melgarejo Vergara, Nelsi Belly
Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_full Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_fullStr Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_full_unstemmed Desarrollo de recursos léxicos multi-dialécticos para el quechua
title_sort Desarrollo de recursos léxicos multi-dialécticos para el quechua
author Melgarejo Vergara, Nelsi Belly
author_facet Melgarejo Vergara, Nelsi Belly
author_role author
dc.contributor.advisor.fl_str_mv Gómez Montoya, Héctor Erasmo
dc.contributor.author.fl_str_mv Melgarejo Vergara, Nelsi Belly
dc.subject.es_ES.fl_str_mv Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
topic Procesamiento en lenguaje natural (Informática)
Algoritmos computacionales
Quechua--Estudio y enseñanza
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.
publishDate 2022
dc.date.created.none.fl_str_mv 2022
dc.date.accessioned.none.fl_str_mv 2023-03-13T19:52:06Z
dc.date.available.none.fl_str_mv 2023-03-13T19:52:06Z
dc.date.issued.fl_str_mv 2023-03-13
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/24477
url http://hdl.handle.net/20.500.12404/24477
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/3bf7a3f0-5710-4483-b3b9-dd1d9f1ae912/download
https://tesis.pucp.edu.pe/bitstreams/91e3cef1-276e-448a-8805-d8711dd92b39/download
https://tesis.pucp.edu.pe/bitstreams/9179acc6-1412-4cfd-897a-58097306ce59/download
https://tesis.pucp.edu.pe/bitstreams/f2169925-1c71-42dd-afef-5a8df773af50/download
https://tesis.pucp.edu.pe/bitstreams/95a7c180-0b8b-4d8c-a799-ced44eb314bd/download
https://tesis.pucp.edu.pe/bitstreams/bf5a2d78-7a4a-4719-a921-62a1b97b0241/download
https://tesis.pucp.edu.pe/bitstreams/2fe073d9-4504-4f7b-9199-8e36379a7bb5/download
https://tesis.pucp.edu.pe/bitstreams/eaa92886-106e-4d07-a717-b2d95184e7e3/download
bitstream.checksum.fl_str_mv 11f68e675ff89f132ba55a3a76213878
291fb348c45cf12d4248633a818c17b6
8fc46f5e71650fd7adee84a69b9163c2
8a4605be74aa9ea9d79846c1fba20a33
33d3aea9b8dbfdfdbb9ab711647e75d8
0feba8fc1da91966598018226401894b
732a27a5a7e5fe413629b6153349e5bf
14708ee089bc723b7733d3f11d7eb9b7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834736853350088704
spelling Gómez Montoya, Héctor ErasmoMelgarejo Vergara, Nelsi Belly2023-03-13T19:52:06Z2023-03-13T19:52:06Z20222023-03-13http://hdl.handle.net/20.500.12404/24477Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Procesamiento en lenguaje natural (Informática)Algoritmos computacionalesQuechua--Estudio y enseñanzahttps://purl.org/pe-repo/ocde/ford#1.02.00Desarrollo de recursos léxicos multi-dialécticos para el quechuainfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación70599170https://orcid.org/0000-0002-1338-339271432187611087Villanueva Talavera, Edwin RafaelGomez Montoya, Hector ErasmoOncevay Marcos, Felix Arturohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALMELGAREJO_VERGARA_NELSI_DESARROLLO_RECURSOS_LEXICOS.pdfMELGAREJO_VERGARA_NELSI_DESARROLLO_RECURSOS_LEXICOS.pdfTexto completoapplication/pdf625247https://tesis.pucp.edu.pe/bitstreams/3bf7a3f0-5710-4483-b3b9-dd1d9f1ae912/download11f68e675ff89f132ba55a3a76213878MD51trueAnonymousREADMELGAREJO_VERGARA_NELSI_BELLY_T.pdfMELGAREJO_VERGARA_NELSI_BELLY_T.pdfReporte de originalidadapplication/pdf6741064https://tesis.pucp.edu.pe/bitstreams/91e3cef1-276e-448a-8805-d8711dd92b39/download291fb348c45cf12d4248633a818c17b6MD52falseAnonymousREAD2500-01-01CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81037https://tesis.pucp.edu.pe/bitstreams/9179acc6-1412-4cfd-897a-58097306ce59/download8fc46f5e71650fd7adee84a69b9163c2MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/f2169925-1c71-42dd-afef-5a8df773af50/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTHUMBNAILMELGAREJO_VERGARA_NELSI_DESARROLLO_RECURSOS_LEXICOS.pdf.jpgMELGAREJO_VERGARA_NELSI_DESARROLLO_RECURSOS_LEXICOS.pdf.jpgIM Thumbnailimage/jpeg11972https://tesis.pucp.edu.pe/bitstreams/95a7c180-0b8b-4d8c-a799-ced44eb314bd/download33d3aea9b8dbfdfdbb9ab711647e75d8MD55falseAnonymousREADMELGAREJO_VERGARA_NELSI_BELLY_T.pdf.jpgMELGAREJO_VERGARA_NELSI_BELLY_T.pdf.jpgIM Thumbnailimage/jpeg7232https://tesis.pucp.edu.pe/bitstreams/bf5a2d78-7a4a-4719-a921-62a1b97b0241/download0feba8fc1da91966598018226401894bMD56falseAnonymousREAD2500-01-01TEXTMELGAREJO_VERGARA_NELSI_DESARROLLO_RECURSOS_LEXICOS.pdf.txtMELGAREJO_VERGARA_NELSI_DESARROLLO_RECURSOS_LEXICOS.pdf.txtExtracted texttext/plain101085https://tesis.pucp.edu.pe/bitstreams/2fe073d9-4504-4f7b-9199-8e36379a7bb5/download732a27a5a7e5fe413629b6153349e5bfMD57falseAnonymousREADMELGAREJO_VERGARA_NELSI_BELLY_T.pdf.txtMELGAREJO_VERGARA_NELSI_BELLY_T.pdf.txtExtracted texttext/plain4470https://tesis.pucp.edu.pe/bitstreams/eaa92886-106e-4d07-a717-b2d95184e7e3/download14708ee089bc723b7733d3f11d7eb9b7MD58falseAnonymousREAD2500-01-0120.500.12404/24477oai:tesis.pucp.edu.pe:20.500.12404/244772025-03-05 03:16:43.962http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.968272
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).