A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language

Descripción del Articulo

Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina mino...

Descripción completa

Detalles Bibliográficos
Autor: Gómez Montoya, Héctor Erasmo
Formato: tesis de maestría
Fecha de Publicación:2019
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/14989
Enlace del recurso:http://hdl.handle.net/20.500.12404/14989
Nivel de acceso:acceso abierto
Materia:Traductores--Programas para computadoras
Traductores--Métodos estadísticos
Traducción automática--Lenguas indígenas--Perú
Traducción automática--Shipibo-Conibo
Traducción automática--Español
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_ef7392d22e61548b95faaffba951d2d6
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/14989
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
title A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
spellingShingle A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
Gómez Montoya, Héctor Erasmo
Traductores--Programas para computadoras
Traductores--Métodos estadísticos
Traducción automática--Lenguas indígenas--Perú
Traducción automática--Shipibo-Conibo
Traducción automática--Español
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
title_full A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
title_fullStr A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
title_full_unstemmed A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
title_sort A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian language
author Gómez Montoya, Héctor Erasmo
author_facet Gómez Montoya, Héctor Erasmo
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Felix Arturo
dc.contributor.author.fl_str_mv Gómez Montoya, Héctor Erasmo
dc.subject.es_ES.fl_str_mv Traductores--Programas para computadoras
Traductores--Métodos estadísticos
Traducción automática--Lenguas indígenas--Perú
Traducción automática--Shipibo-Conibo
Traducción automática--Español
topic Traductores--Programas para computadoras
Traductores--Métodos estadísticos
Traducción automática--Lenguas indígenas--Perú
Traducción automática--Shipibo-Conibo
Traducción automática--Español
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos. Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable. El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones. En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas.
publishDate 2019
dc.date.accessioned.es_ES.fl_str_mv 2019-09-14T01:48:16Z
dc.date.available.none.fl_str_mv 2019-09-14T01:48:16Z
dc.date.available.es_ES.fl_str_mv 2019-09-14T01:48:16Z
dc.date.created.es_ES.fl_str_mv 2019
dc.date.issued.fl_str_mv 2019-09-13
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/14989
url http://hdl.handle.net/20.500.12404/14989
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/3c41a846-f539-4f6f-9538-3e66ce2d0fe1/download
https://tesis.pucp.edu.pe/bitstreams/77eb838e-1fe9-4a6f-ad80-5f655fffe389/download
https://tesis.pucp.edu.pe/bitstreams/43b76a61-74f2-40f0-8df6-0e3baacbe27c/download
https://tesis.pucp.edu.pe/bitstreams/ad43b568-f39f-4358-acc5-28bafe42d6cb/download
https://tesis.pucp.edu.pe/bitstreams/6781f28e-4f25-4017-a542-630960cfcc14/download
bitstream.checksum.fl_str_mv bc2761b80639f6b5b6a8a4fdcccff13f
cecad8b9db9baa545d9832dd94d55f6b
35481b2c8d414f16a5a053be5878fdb5
04ca8569d674bc9195acd4530e853de5
8eddee4079251fd84b33381afb0636a1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737006799749120
spelling Oncevay Marcos, Felix ArturoGómez Montoya, Héctor Erasmo2019-09-14T01:48:16Z2019-09-14T01:48:16Z2019-09-14T01:48:16Z20192019-09-13http://hdl.handle.net/20.500.12404/14989Para las comunidades más pequeñas y nativas en un país, es muy difícil encontrar información que se encuentre en su idioma original, esto debido a que su lengua no tiene el alcance ni la cantidad suficiente de hablantes, para poder seguir siendo transmitida. A este tipo de lengua se le denomina minoritaria o de pocos recursos. Una de las principales formas en las que el gobierno incentiva el proceso de multilingüismo es proporcionando educación en el idioma nativo a su población, tal es el caso de los hablantes de Shipibo-Konibo que se encuentran dispersos a lo largo de la amazonía del Perú. Ellos cuentan con colegios donde se les imparten clases en su lengua nativa para los niveles de primaria y secundaria. Sin embargo, una necesidad con la que cuentan los pobladores es que la cantidad de material educativo completamente traducido a Shipibo-Konibo es reducida. Esto debido a que el proceso de traducción es muy costoso y poco confiable. El Grupo de investigación en Inteligencia Artificial de la PUCP (IA-PUCP, ex GRPIAA) ha desarrollado una plataforma que utiliza corpus paralelos la creación de un modelo estadístico de traducción automática para las lenguas Shipibo-Konibo y español. Este modelo sufre de ciertas limitantes, entre las cuales tenemos: la cantidad de recursos bibliográficos y material completamente traducido, esto debido a que al ser una lengua minoritaria o de pocos recursos carecen de facilidades para la generación de nuevos corpus. Por otro lado, se desea mejorar el modelo actual en parámetros de eficiencia y obtener mejores resultados en las traducciones. En este contexto nace la pregunta que motiva el presente trabajo: ¿de qué manera podemos incrementar el corpus paralelo de forma eficiente y confiable para la mejora del modelo actual de traducción automática? Por consiguiente, en el presente trabajo se propone desarrollar un agente conversacional que permita la generación de nuevos corpus paralelos entre Shipibo-Konibo y español que permitan mejorar un modelo de traducción automática neuronal en las lenguas ya mencionadas.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Traductores--Programas para computadorasTraductores--Métodos estadísticosTraducción automática--Lenguas indígenas--PerúTraducción automática--Shipibo-ConiboTraducción automática--Españolhttps://purl.org/pe-repo/ocde/ford#1.02.00A crowd-powered conversational assistant for the improvement of a neural machine translation system in native peruvian languageinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de PosgradoInformática con mención en Ciencias de la Computación46440101611087https://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALGOMEZ_MONTOYA_HECTOR_ERASMO_CROWD_POWERED_CONVERSATIONAL.pdfGOMEZ_MONTOYA_HECTOR_ERASMO_CROWD_POWERED_CONVERSATIONAL.pdfTexto completoapplication/pdf2599680https://tesis.pucp.edu.pe/bitstreams/3c41a846-f539-4f6f-9538-3e66ce2d0fe1/downloadbc2761b80639f6b5b6a8a4fdcccff13fMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://tesis.pucp.edu.pe/bitstreams/77eb838e-1fe9-4a6f-ad80-5f655fffe389/downloadcecad8b9db9baa545d9832dd94d55f6bMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81650https://tesis.pucp.edu.pe/bitstreams/43b76a61-74f2-40f0-8df6-0e3baacbe27c/download35481b2c8d414f16a5a053be5878fdb5MD53falseAnonymousREADTHUMBNAILGOMEZ_MONTOYA_HECTOR_ERASMO_CROWD_POWERED_CONVERSATIONAL.pdf.jpgGOMEZ_MONTOYA_HECTOR_ERASMO_CROWD_POWERED_CONVERSATIONAL.pdf.jpgIM Thumbnailimage/jpeg12714https://tesis.pucp.edu.pe/bitstreams/ad43b568-f39f-4358-acc5-28bafe42d6cb/download04ca8569d674bc9195acd4530e853de5MD54falseAnonymousREADTEXTGOMEZ_MONTOYA_HECTOR_ERASMO_CROWD_POWERED_CONVERSATIONAL.pdf.txtGOMEZ_MONTOYA_HECTOR_ERASMO_CROWD_POWERED_CONVERSATIONAL.pdf.txtExtracted texttext/plain55476https://tesis.pucp.edu.pe/bitstreams/6781f28e-4f25-4017-a542-630960cfcc14/download8eddee4079251fd84b33381afb0636a1MD55falseAnonymousREAD20.500.12404/14989oai:tesis.pucp.edu.pe:20.500.12404/149892024-12-03 12:11:27.004http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTElDRU5DSUEgRVNUw4FOREFSCgpCYWpvIGxvcyBzaWd1aWVudGVzIHTDqXJtaW5vcywgYXV0b3Jpem8gZWwgZGVww7NzaXRvIGRlIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZW4gZWwgUmVwb3NpdG9yaW8gRGlnaXRhbCBkZSBUZXNpcyBQVUNQLiAKCkNvbiBsYSBhdXRvcml6YWNpw7NuIGRlIGRlcMOzc2l0byBkZSBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuLCBvdG9yZ28gYSBsYSBQb250aWZpY2lhIFVuaXZlcnNpZGFkIENhdMOzbGljYSBkZWwgUGVyw7ogdW5hIGxpY2VuY2lhIG5vIGV4Y2x1c2l2YSBwYXJhIHJlcHJvZHVjaXIsIGRpc3RyaWJ1aXIsIGNvbXVuaWNhciBhbCBww7pibGljbyB0cmFuc2Zvcm1hciAow7puaWNhbWVudGUgbWVkaWFudGUgc3UgdHJhZHVjY2nDs24gYSBvdHJvcyBpZGlvbWFzKSB5IHBvbmVyIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIChpbmNsdWlkbyBlbCByZXN1bWVuKSwgZW4gZm9ybWF0byBmw61zaWNvIG8gZGlnaXRhbCwgZW4gY3VhbHF1aWVyIG1lZGlvLCBjb25vY2lkbyBwb3IgY29ub2NlcnNlLCBhIHRyYXbDqXMgZGUgbG9zIGRpdmVyc29zIHNlcnZpY2lvcyBwcm92aXN0b3MgcG9yIGxhIFVuaXZlcnNpZGFkLCBjcmVhZG9zIG8gcG9yIGNyZWFyc2UsIHRhbGVzIGNvbW8gZWwgUmVwb3NpdG9yaW8gRGlnaXRhbCBkZSBUZXNpcyBQVUNQLCBjb2xlY2Npw7NuIGRlIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuLCBlbnRyZSBvdHJvcywgZW4gZWwgUGVyw7ogeSBlbiBlbCBleHRyYW5qZXJvLCBwb3IgZWwgdGllbXBvIHkgdmVjZXMgcXVlIGNvbnNpZGVyZSBuZWNlc2FyaWFzLCB5IGxpYnJlIGRlIHJlbXVuZXJhY2lvbmVzLiBFbiB2aXJ0dWQgZGUgZGljaGEgbGljZW5jaWEsIGxhIFBvbnRpZmljaWEgVW5pdmVyc2lkYWQgQ2F0w7NsaWNhIGRlbCBQZXLDuiBwb2Ryw6EgcmVwcm9kdWNpciBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGVuIGN1YWxxdWllciB0aXBvIGRlIHNvcG9ydGUgeSBlbiBtw6FzIGRlIHVuIGVqZW1wbGFyLCBzaW4gbW9kaWZpY2FyIHN1IGNvbnRlbmlkbywgc29sbyBjb24gcHJvcMOzc2l0b3MgZGUgc2VndXJpZGFkLCByZXNwYWxkbyB5IHByZXNlcnZhY2nDs24uIERlY2xhcm8gcXVlIGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZXMgdW5hIGNyZWFjacOzbiBkZSBtaSBhdXRvcsOtYSB5IGV4Y2x1c2l2YSB0aXR1bGFyaWRhZCwgbyBjby1hdXRvcsOtYSBjb24gdGl0dWxhcmlkYWQgY29tcGFydGlkYSwgeSBtZSBlbmN1ZW50cm8gZmFjdWx0YWRvIGEgY29uY2VkZXIgbGEgcHJlc2VudGUgbGljZW5jaWEgeSwgYXNpbWlzbW8sIGdhcmFudGl6byBxdWUgZGljaG8gdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBubyBpbmZyaW5nZSBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJhcyBwZXJzb25hcy4gTGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZCBDYXTDs2xpY2EgZGVsIFBlcsO6IGNvbnNpZ25hcsOhIGVsIG5vbWJyZSBkZWwvIGxvcyBhdXRvci9lcyBkZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgeSBubyBsZSBoYXLDoSBuaW5ndW5hIG1vZGlmaWNhY2nDs24gbcOhcyBxdWUgbGEgcGVybWl0aWRhIGVuIGxhIHByZXNlbnRlIGxpY2VuY2lhLgoK
score 13.887938
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).