Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
Descripción del Articulo
De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüíst...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2020 |
Institución: | Pontificia Universidad Católica del Perú |
Repositorio: | PUCP-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/16265 |
Enlace del recurso: | http://hdl.handle.net/20.500.12404/16265 |
Nivel de acceso: | acceso abierto |
Materia: | Lingüística computacional Lenguas indígenas--Perú Redes neuronales Ortografía https://purl.org/pe-repo/ocde/ford#1.02.00 |
id |
PUCP_f9cb90aff615329282b752b31fe5373a |
---|---|
oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/16265 |
network_acronym_str |
PUCP |
network_name_str |
PUCP-Tesis |
repository_id_str |
. |
dc.title.es_ES.fl_str_mv |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
title |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
spellingShingle |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia Lara Avila, César Jesús Lingüística computacional Lenguas indígenas--Perú Redes neuronales Ortografía https://purl.org/pe-repo/ocde/ford#1.02.00 |
title_short |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
title_full |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
title_fullStr |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
title_full_unstemmed |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
title_sort |
Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia |
author |
Lara Avila, César Jesús |
author_facet |
Lara Avila, César Jesús |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Oncevay Marcos, Félix Arturo |
dc.contributor.author.fl_str_mv |
Lara Avila, César Jesús |
dc.subject.es_ES.fl_str_mv |
Lingüística computacional Lenguas indígenas--Perú Redes neuronales Ortografía |
topic |
Lingüística computacional Lenguas indígenas--Perú Redes neuronales Ortografía https://purl.org/pe-repo/ocde/ford#1.02.00 |
dc.subject.ocde.es_ES.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.00 |
description |
De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica. |
publishDate |
2020 |
dc.date.accessioned.none.fl_str_mv |
2020-05-26T15:41:39Z |
dc.date.available.none.fl_str_mv |
2020-05-26T15:41:39Z |
dc.date.created.none.fl_str_mv |
2020 |
dc.date.issued.fl_str_mv |
2020-05-26 |
dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/16265 |
url |
http://hdl.handle.net/20.500.12404/16265 |
dc.language.iso.es_ES.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
dc.publisher.country.es_ES.fl_str_mv |
PE |
dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
instname_str |
Pontificia Universidad Católica del Perú |
instacron_str |
PUCP |
institution |
PUCP |
reponame_str |
PUCP-Tesis |
collection |
PUCP-Tesis |
bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/d585d240-fc69-4ece-a4dc-061bf37db8fe/download https://tesis.pucp.edu.pe/bitstreams/e2647f0a-1583-4394-ba18-6c5cae2e5907/download https://tesis.pucp.edu.pe/bitstreams/40ca6135-663a-4c1e-ba6d-4560feeffc81/download https://tesis.pucp.edu.pe/bitstreams/494899c2-0993-4b88-aa3d-ac7b0bd79937/download |
bitstream.checksum.fl_str_mv |
a162d1a90394b57c5c413f97ebabe7fa cecad8b9db9baa545d9832dd94d55f6b 35481b2c8d414f16a5a053be5878fdb5 7adfe91a4a131ba0930734664456ee2b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
_version_ |
1834737036113739776 |
spelling |
Oncevay Marcos, Félix ArturoLara Avila, César Jesús2020-05-26T15:41:39Z2020-05-26T15:41:39Z20202020-05-26http://hdl.handle.net/20.500.12404/16265De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Lingüística computacionalLenguas indígenas--PerúRedes neuronalesOrtografíahttps://purl.org/pe-repo/ocde/ford#1.02.00Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuenciainfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de PosgradoInformática con mención en Ciencias de la Computación46440101611087https://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdfLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdfapplication/pdf1423591https://tesis.pucp.edu.pe/bitstreams/d585d240-fc69-4ece-a4dc-061bf37db8fe/downloada162d1a90394b57c5c413f97ebabe7faMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://tesis.pucp.edu.pe/bitstreams/e2647f0a-1583-4394-ba18-6c5cae2e5907/downloadcecad8b9db9baa545d9832dd94d55f6bMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81650https://tesis.pucp.edu.pe/bitstreams/40ca6135-663a-4c1e-ba6d-4560feeffc81/download35481b2c8d414f16a5a053be5878fdb5MD53falseAnonymousREADTHUMBNAILLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdf.jpgLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdf.jpgIM Thumbnailimage/jpeg12979https://tesis.pucp.edu.pe/bitstreams/494899c2-0993-4b88-aa3d-ac7b0bd79937/download7adfe91a4a131ba0930734664456ee2bMD54falseAnonymousREAD20.500.12404/16265oai:tesis.pucp.edu.pe:20.500.12404/162652024-12-03 11:42:37.714http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTElDRU5DSUEgRVNUw4FOREFSCgpCYWpvIGxvcyBzaWd1aWVudGVzIHTDqXJtaW5vcywgYXV0b3Jpem8gZWwgZGVww7NzaXRvIGRlIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZW4gZWwgUmVwb3NpdG9yaW8gRGlnaXRhbCBkZSBUZXNpcyBQVUNQLiAKCkNvbiBsYSBhdXRvcml6YWNpw7NuIGRlIGRlcMOzc2l0byBkZSBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuLCBvdG9yZ28gYSBsYSBQb250aWZpY2lhIFVuaXZlcnNpZGFkIENhdMOzbGljYSBkZWwgUGVyw7ogdW5hIGxpY2VuY2lhIG5vIGV4Y2x1c2l2YSBwYXJhIHJlcHJvZHVjaXIsIGRpc3RyaWJ1aXIsIGNvbXVuaWNhciBhbCBww7pibGljbyB0cmFuc2Zvcm1hciAow7puaWNhbWVudGUgbWVkaWFudGUgc3UgdHJhZHVjY2nDs24gYSBvdHJvcyBpZGlvbWFzKSB5IHBvbmVyIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIChpbmNsdWlkbyBlbCByZXN1bWVuKSwgZW4gZm9ybWF0byBmw61zaWNvIG8gZGlnaXRhbCwgZW4gY3VhbHF1aWVyIG1lZGlvLCBjb25vY2lkbyBwb3IgY29ub2NlcnNlLCBhIHRyYXbDqXMgZGUgbG9zIGRpdmVyc29zIHNlcnZpY2lvcyBwcm92aXN0b3MgcG9yIGxhIFVuaXZlcnNpZGFkLCBjcmVhZG9zIG8gcG9yIGNyZWFyc2UsIHRhbGVzIGNvbW8gZWwgUmVwb3NpdG9yaW8gRGlnaXRhbCBkZSBUZXNpcyBQVUNQLCBjb2xlY2Npw7NuIGRlIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuLCBlbnRyZSBvdHJvcywgZW4gZWwgUGVyw7ogeSBlbiBlbCBleHRyYW5qZXJvLCBwb3IgZWwgdGllbXBvIHkgdmVjZXMgcXVlIGNvbnNpZGVyZSBuZWNlc2FyaWFzLCB5IGxpYnJlIGRlIHJlbXVuZXJhY2lvbmVzLiBFbiB2aXJ0dWQgZGUgZGljaGEgbGljZW5jaWEsIGxhIFBvbnRpZmljaWEgVW5pdmVyc2lkYWQgQ2F0w7NsaWNhIGRlbCBQZXLDuiBwb2Ryw6EgcmVwcm9kdWNpciBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGVuIGN1YWxxdWllciB0aXBvIGRlIHNvcG9ydGUgeSBlbiBtw6FzIGRlIHVuIGVqZW1wbGFyLCBzaW4gbW9kaWZpY2FyIHN1IGNvbnRlbmlkbywgc29sbyBjb24gcHJvcMOzc2l0b3MgZGUgc2VndXJpZGFkLCByZXNwYWxkbyB5IHByZXNlcnZhY2nDs24uIERlY2xhcm8gcXVlIGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZXMgdW5hIGNyZWFjacOzbiBkZSBtaSBhdXRvcsOtYSB5IGV4Y2x1c2l2YSB0aXR1bGFyaWRhZCwgbyBjby1hdXRvcsOtYSBjb24gdGl0dWxhcmlkYWQgY29tcGFydGlkYSwgeSBtZSBlbmN1ZW50cm8gZmFjdWx0YWRvIGEgY29uY2VkZXIgbGEgcHJlc2VudGUgbGljZW5jaWEgeSwgYXNpbWlzbW8sIGdhcmFudGl6byBxdWUgZGljaG8gdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBubyBpbmZyaW5nZSBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJhcyBwZXJzb25hcy4gTGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZCBDYXTDs2xpY2EgZGVsIFBlcsO6IGNvbnNpZ25hcsOhIGVsIG5vbWJyZSBkZWwvIGxvcyBhdXRvci9lcyBkZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgeSBubyBsZSBoYXLDoSBuaW5ndW5hIG1vZGlmaWNhY2nDs24gbcOhcyBxdWUgbGEgcGVybWl0aWRhIGVuIGxhIHByZXNlbnRlIGxpY2VuY2lhLgoK |
score |
13.947759 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).