Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia

Descripción del Articulo

De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüíst...

Descripción completa

Detalles Bibliográficos
Autor: Lara Avila, César Jesús
Formato: tesis de maestría
Fecha de Publicación:2020
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/16265
Enlace del recurso:http://hdl.handle.net/20.500.12404/16265
Nivel de acceso:acceso abierto
Materia:Lingüística computacional
Lenguas indígenas--Perú
Redes neuronales
Ortografía
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_f9cb90aff615329282b752b31fe5373a
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/16265
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
title Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
spellingShingle Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
Lara Avila, César Jesús
Lingüística computacional
Lenguas indígenas--Perú
Redes neuronales
Ortografía
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
title_full Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
title_fullStr Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
title_full_unstemmed Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
title_sort Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuencia
author Lara Avila, César Jesús
author_facet Lara Avila, César Jesús
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Félix Arturo
dc.contributor.author.fl_str_mv Lara Avila, César Jesús
dc.subject.es_ES.fl_str_mv Lingüística computacional
Lenguas indígenas--Perú
Redes neuronales
Ortografía
topic Lingüística computacional
Lenguas indígenas--Perú
Redes neuronales
Ortografía
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.
publishDate 2020
dc.date.accessioned.none.fl_str_mv 2020-05-26T15:41:39Z
dc.date.available.none.fl_str_mv 2020-05-26T15:41:39Z
dc.date.created.none.fl_str_mv 2020
dc.date.issued.fl_str_mv 2020-05-26
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/16265
url http://hdl.handle.net/20.500.12404/16265
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/d585d240-fc69-4ece-a4dc-061bf37db8fe/download
https://tesis.pucp.edu.pe/bitstreams/e2647f0a-1583-4394-ba18-6c5cae2e5907/download
https://tesis.pucp.edu.pe/bitstreams/40ca6135-663a-4c1e-ba6d-4560feeffc81/download
https://tesis.pucp.edu.pe/bitstreams/494899c2-0993-4b88-aa3d-ac7b0bd79937/download
bitstream.checksum.fl_str_mv a162d1a90394b57c5c413f97ebabe7fa
cecad8b9db9baa545d9832dd94d55f6b
35481b2c8d414f16a5a053be5878fdb5
7adfe91a4a131ba0930734664456ee2b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737036113739776
spelling Oncevay Marcos, Félix ArturoLara Avila, César Jesús2020-05-26T15:41:39Z2020-05-26T15:41:39Z20202020-05-26http://hdl.handle.net/20.500.12404/16265De acuerdo a la Base de Datos Oficial de Pueblos Indígenas u Originarios (BDPI), el Perú cuenta con 55 pueblos indígenas, identificados hasta la fecha; que hablan al menos 47 lenguas originarias y que según el Documento Nacional de Lenguas Originarias del Perú están divididos en 19 familias lingüísticas, siendo las familias Pano y Arawak las que presentan una mayor cantidad de lenguas, ambas con 10 lenguas. En este trabajo, se plantea un modelo de corrección ortográfica utilizando modelos de redes neuronales profundas, a nivel de caracteres, en lenguas de las dos familias antes mencionadas: Shipibo-Konibo de la familia Pano y Yanesha, Yine y Ashaninka para la familia Arawak. Para ello se han realizamos experimentos en conjuntos de datos obtenidos de páginas como PerúEduca, incorporando errores ortográficas cometidos a nivel de caracteres, en modelos secuencia a secuencia (seq2seq) que han demostrado recientemente ser un marco exitoso para varias tareas de procesamiento de lenguaje natural, incluyendo el proceso de corrección ortográfica.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Lingüística computacionalLenguas indígenas--PerúRedes neuronalesOrtografíahttps://purl.org/pe-repo/ocde/ford#1.02.00Corrección ortográfica de lenguas amazónicas usando redes neuronales secuencia a secuenciainfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de PosgradoInformática con mención en Ciencias de la Computación46440101611087https://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdfLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdfapplication/pdf1423591https://tesis.pucp.edu.pe/bitstreams/d585d240-fc69-4ece-a4dc-061bf37db8fe/downloada162d1a90394b57c5c413f97ebabe7faMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81036https://tesis.pucp.edu.pe/bitstreams/e2647f0a-1583-4394-ba18-6c5cae2e5907/downloadcecad8b9db9baa545d9832dd94d55f6bMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81650https://tesis.pucp.edu.pe/bitstreams/40ca6135-663a-4c1e-ba6d-4560feeffc81/download35481b2c8d414f16a5a053be5878fdb5MD53falseAnonymousREADTHUMBNAILLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdf.jpgLARA_AVILA_CESAR_CORRECCION_ORTOGRAFICA_LENGUAS.pdf.jpgIM Thumbnailimage/jpeg12979https://tesis.pucp.edu.pe/bitstreams/494899c2-0993-4b88-aa3d-ac7b0bd79937/download7adfe91a4a131ba0930734664456ee2bMD54falseAnonymousREAD20.500.12404/16265oai:tesis.pucp.edu.pe:20.500.12404/162652024-12-03 11:42:37.714http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTElDRU5DSUEgRVNUw4FOREFSCgpCYWpvIGxvcyBzaWd1aWVudGVzIHTDqXJtaW5vcywgYXV0b3Jpem8gZWwgZGVww7NzaXRvIGRlIG1pIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZW4gZWwgUmVwb3NpdG9yaW8gRGlnaXRhbCBkZSBUZXNpcyBQVUNQLiAKCkNvbiBsYSBhdXRvcml6YWNpw7NuIGRlIGRlcMOzc2l0byBkZSBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuLCBvdG9yZ28gYSBsYSBQb250aWZpY2lhIFVuaXZlcnNpZGFkIENhdMOzbGljYSBkZWwgUGVyw7ogdW5hIGxpY2VuY2lhIG5vIGV4Y2x1c2l2YSBwYXJhIHJlcHJvZHVjaXIsIGRpc3RyaWJ1aXIsIGNvbXVuaWNhciBhbCBww7pibGljbyB0cmFuc2Zvcm1hciAow7puaWNhbWVudGUgbWVkaWFudGUgc3UgdHJhZHVjY2nDs24gYSBvdHJvcyBpZGlvbWFzKSB5IHBvbmVyIGEgZGlzcG9zaWNpw7NuIGRlbCBww7pibGljbyBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIChpbmNsdWlkbyBlbCByZXN1bWVuKSwgZW4gZm9ybWF0byBmw61zaWNvIG8gZGlnaXRhbCwgZW4gY3VhbHF1aWVyIG1lZGlvLCBjb25vY2lkbyBwb3IgY29ub2NlcnNlLCBhIHRyYXbDqXMgZGUgbG9zIGRpdmVyc29zIHNlcnZpY2lvcyBwcm92aXN0b3MgcG9yIGxhIFVuaXZlcnNpZGFkLCBjcmVhZG9zIG8gcG9yIGNyZWFyc2UsIHRhbGVzIGNvbW8gZWwgUmVwb3NpdG9yaW8gRGlnaXRhbCBkZSBUZXNpcyBQVUNQLCBjb2xlY2Npw7NuIGRlIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuLCBlbnRyZSBvdHJvcywgZW4gZWwgUGVyw7ogeSBlbiBlbCBleHRyYW5qZXJvLCBwb3IgZWwgdGllbXBvIHkgdmVjZXMgcXVlIGNvbnNpZGVyZSBuZWNlc2FyaWFzLCB5IGxpYnJlIGRlIHJlbXVuZXJhY2lvbmVzLiBFbiB2aXJ0dWQgZGUgZGljaGEgbGljZW5jaWEsIGxhIFBvbnRpZmljaWEgVW5pdmVyc2lkYWQgQ2F0w7NsaWNhIGRlbCBQZXLDuiBwb2Ryw6EgcmVwcm9kdWNpciBtaSB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGVuIGN1YWxxdWllciB0aXBvIGRlIHNvcG9ydGUgeSBlbiBtw6FzIGRlIHVuIGVqZW1wbGFyLCBzaW4gbW9kaWZpY2FyIHN1IGNvbnRlbmlkbywgc29sbyBjb24gcHJvcMOzc2l0b3MgZGUgc2VndXJpZGFkLCByZXNwYWxkbyB5IHByZXNlcnZhY2nDs24uIERlY2xhcm8gcXVlIGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gZXMgdW5hIGNyZWFjacOzbiBkZSBtaSBhdXRvcsOtYSB5IGV4Y2x1c2l2YSB0aXR1bGFyaWRhZCwgbyBjby1hdXRvcsOtYSBjb24gdGl0dWxhcmlkYWQgY29tcGFydGlkYSwgeSBtZSBlbmN1ZW50cm8gZmFjdWx0YWRvIGEgY29uY2VkZXIgbGEgcHJlc2VudGUgbGljZW5jaWEgeSwgYXNpbWlzbW8sIGdhcmFudGl6byBxdWUgZGljaG8gdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBubyBpbmZyaW5nZSBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJhcyBwZXJzb25hcy4gTGEgUG9udGlmaWNpYSBVbml2ZXJzaWRhZCBDYXTDs2xpY2EgZGVsIFBlcsO6IGNvbnNpZ25hcsOhIGVsIG5vbWJyZSBkZWwvIGxvcyBhdXRvci9lcyBkZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiwgeSBubyBsZSBoYXLDoSBuaW5ndW5hIG1vZGlmaWNhY2nDs24gbcOhcyBxdWUgbGEgcGVybWl0aWRhIGVuIGxhIHByZXNlbnRlIGxpY2VuY2lhLgoK
score 13.947759
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).