Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital

Descripción del Articulo

Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de...

Descripción completa

Detalles Bibliográficos
Autor: Espichán Linares, Alexandra Mercedes
Formato: tesis de grado
Fecha de Publicación:2019
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/148812
Enlace del recurso:http://hdl.handle.net/20.500.12404/13482
Nivel de acceso:acceso abierto
Materia:Sistema de reconocimiento de patrones--Lingüística
Lenguas índigenas--Perú
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
id RPUC_6426a1c3de0eaefbba5fb11edafbbf66
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/148812
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
spelling Oncevay Marcos, Félix ArturoEspichán Linares, Alexandra Mercedes2019-02-12T15:46:41Z2019-02-12T15:46:41Z20192019-02-12http://hdl.handle.net/20.500.12404/13482Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e investigación de dichas lenguas. De este modo, y desde el punto de vista de la informática, una de las primeras y principales tareas lingüísticas que incorporan métodos computacionales es la identificación automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es un paso esencial en el procesamiento automático de los datos del mundo real, donde una multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del lenguaje natural típicamente presuponen que todos los documentos a ser procesados están escritos en un lenguaje dado. Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y (3) en comparar estadísticamente los resultados obtenidos. Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Sistema de reconocimiento de patrones--LingüísticaLenguas índigenas--PerúLingüística--Procesamiento de datosLingüística computacionalhttps://purl.org/pe-repo/ocde/ford#1.02.00Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digitalinfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática46440101https://orcid.org/0000-0001-7675-6208612286https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesis20.500.14657/148812oai:repositorio.pucp.edu.pe:20.500.14657/1488122025-03-11 10:28:38.849http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
title Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
spellingShingle Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
Espichán Linares, Alexandra Mercedes
Sistema de reconocimiento de patrones--Lingüística
Lenguas índigenas--Perú
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
title_full Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
title_fullStr Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
title_full_unstemmed Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
title_sort Implementación de algoritmos para la identificación automática de lenguas originarias peruanas en un repositorio digital
author Espichán Linares, Alexandra Mercedes
author_facet Espichán Linares, Alexandra Mercedes
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Félix Arturo
dc.contributor.author.fl_str_mv Espichán Linares, Alexandra Mercedes
dc.subject.es_ES.fl_str_mv Sistema de reconocimiento de patrones--Lingüística
Lenguas índigenas--Perú
Lingüística--Procesamiento de datos
Lingüística computacional
topic Sistema de reconocimiento de patrones--Lingüística
Lenguas índigenas--Perú
Lingüística--Procesamiento de datos
Lingüística computacional
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Debido a la revitalización lingüística en el Perú a lo largo de los últimos años, existe un creciente interés por reforzar la educación bilingüe en el país y aumentar la investigación enfocada en sus lenguas nativas. Asimismo, hay que considerar que en el Perú actualmente alrededor de 4 millones de personas hablan alguna de las 47 lenguas nativas conservadas. Por tanto, hay una gran variedad de lenguas con las cuales trabajar, por lo que sería de utilidad contar con herramientas automáticas que permitan agilizar algunas tareas en el estudio e investigación de dichas lenguas. De este modo, y desde el punto de vista de la informática, una de las primeras y principales tareas lingüísticas que incorporan métodos computacionales es la identificación automática de lenguaje, la cual se refiere a determinar el lenguaje en el que está escrito un texto dado, el cual puede ser un documento, un párrafo o incluso una oración. Este además es un paso esencial en el procesamiento automático de los datos del mundo real, donde una multitud de lenguajes pueden estar presentes, ya que las técnicas de procesamiento del lenguaje natural típicamente presuponen que todos los documentos a ser procesados están escritos en un lenguaje dado. Por lo tanto, este trabajo se enfoca en tres pasos: (1) en construir desde cero un corpus anotado digital para 49 lenguas y dialectos indígenas peruanos, (2) en adaptarse a los enfoques de aprendizaje de máquina estándar y profundo para la identificación de lenguas, y (3) en comparar estadísticamente los resultados obtenidos. Los resultados obtenidos fueron prometedores, el modelo estándar superó al modelo de aprendizaje profundo tal como se esperaba, con una precisión promedio de 95.9%. En el futuro, se espera que se aproveche el corpus y el modelo para tareas más complejas.
publishDate 2019
dc.date.accessioned.es_ES.fl_str_mv 2019-02-12T15:46:41Z
dc.date.available.es_ES.fl_str_mv 2019-02-12T15:46:41Z
dc.date.created.es_ES.fl_str_mv 2019
dc.date.issued.fl_str_mv 2019-02-12
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/13482
url http://hdl.handle.net/20.500.12404/13482
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835638884668538880
score 13.806414
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).