Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR

Descripción del Articulo

Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el des...

Descripción completa

Detalles Bibliográficos
Autor: Mallqui Merma, Rodrigo Roel
Formato: tesis de maestría
Fecha de Publicación:2025
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/32901
Enlace del recurso:http://hdl.handle.net/20.500.12404/32901
Nivel de acceso:acceso abierto
Materia:Aprendizaje profundo (Aprendizaje automático)
Aguaruna
Lenguas indígenas--Perú--Amazonía, Región
Procesamieto en lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.02
id PUCP_a2335089a4209bea1d19c71b730c0a89
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/32901
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.none.fl_str_mv Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
title Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
spellingShingle Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
Mallqui Merma, Rodrigo Roel
Aprendizaje profundo (Aprendizaje automático)
Aguaruna
Lenguas indígenas--Perú--Amazonía, Región
Procesamieto en lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.02
title_short Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
title_full Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
title_fullStr Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
title_full_unstemmed Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
title_sort Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
author Mallqui Merma, Rodrigo Roel
author_facet Mallqui Merma, Rodrigo Roel
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Matos, Félix Arturo
dc.contributor.author.fl_str_mv Mallqui Merma, Rodrigo Roel
dc.subject.none.fl_str_mv Aprendizaje profundo (Aprendizaje automático)
Aguaruna
Lenguas indígenas--Perú--Amazonía, Región
Procesamieto en lenguaje natural (Computación)
topic Aprendizaje profundo (Aprendizaje automático)
Aguaruna
Lenguas indígenas--Perú--Amazonía, Región
Procesamieto en lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.02
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.02
description Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el desarrollo de este modelo se utilizaron las arquitecturas Tacotron 2 y HiFi-GAN, ampliamente utilizadas en la generación de voz de calidad. El proceso metodológico incluyó la recolección, limpieza y alineación de un conjunto de datos compuesto por audios y textos en lengua Awajún, obtenidos de las plataformas Scripture Earth y Ojo Público. Posteriormente, los datos fueron utilizados para entrenar a diferentes modelos TTS, generando muestras de audio a partir de texto escrito. La evaluación de los modelos TTS se realizó mediante la métrica CER (Character Error Rate), utilizando un modelo de Automatic Speech Recognition (ASR). Los resultados permitieron identificar el modelo con mejor desempeño que logró generar el habla en lengua Awajún, demostrando el potencial de las redes neuronales para el procesamiento de lenguas de bajos recursos. Finalmente, se utilizó la métrica MOS, en la que hablantes nativos calificaron la naturalidad de los audios generados del mejor modelo identificado. Este trabajo constituye un aporte significativo a la preservación de la lengua Awajún, y abre la posibilidad de futuras investigaciones orientadas a la creación de herramientas tecnológicas para la lengua Awajún y otras lenguas originarias del Perú.
publishDate 2025
dc.date.created.none.fl_str_mv 2025
dc.date.accessioned.none.fl_str_mv 2026-01-13T17:15:55Z
dc.date.available.none.fl_str_mv 2026-01-13T17:15:55Z
dc.date.issued.fl_str_mv 2026-01-13
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/32901
url http://hdl.handle.net/20.500.12404/32901
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/5359637f-77d3-4b05-9ddf-2dd8052d7bbd/download
https://tesis.pucp.edu.pe/bitstreams/93d46039-6a02-498d-a0e1-8720f76ad5a7/download
https://tesis.pucp.edu.pe/bitstreams/3576235a-183d-4b0c-bcec-3e40f96e382a/download
https://tesis.pucp.edu.pe/bitstreams/60a3ada8-705e-4db9-b9ea-950263bf619b/download
https://tesis.pucp.edu.pe/bitstreams/ccbab430-e011-49e0-861b-b7a75f878c51/download
https://tesis.pucp.edu.pe/bitstreams/bc7042a5-7028-4d78-8413-6117bcaad7f7/download
https://tesis.pucp.edu.pe/bitstreams/c706c387-15a3-4040-a637-34896d12b6d0/download
https://tesis.pucp.edu.pe/bitstreams/88d9525c-c3d9-4073-84ce-50fb1b0d50b2/download
bitstream.checksum.fl_str_mv d579e7ec6397fd3cea2b408c27198276
b1bbefa1aaf2e9f2c5b1587e4a7d6978
3cce22cdbfa6875906fb15a718e73ab5
bb9bdc0b3349e4284e09149f943790b4
7c90453317d593757e21407375a2e1ce
198010337bde4d5a20a3f0cfe0fd31ae
8774962db83fd9b8c79ddab22d3ca941
4c7508cce0a32b1b3f8464c3da9b8fe5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1855030503142326272
spelling Oncevay Matos, Félix ArturoMallqui Merma, Rodrigo Roel2026-01-13T17:15:55Z2026-01-13T17:15:55Z20252026-01-13http://hdl.handle.net/20.500.12404/32901Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el desarrollo de este modelo se utilizaron las arquitecturas Tacotron 2 y HiFi-GAN, ampliamente utilizadas en la generación de voz de calidad. El proceso metodológico incluyó la recolección, limpieza y alineación de un conjunto de datos compuesto por audios y textos en lengua Awajún, obtenidos de las plataformas Scripture Earth y Ojo Público. Posteriormente, los datos fueron utilizados para entrenar a diferentes modelos TTS, generando muestras de audio a partir de texto escrito. La evaluación de los modelos TTS se realizó mediante la métrica CER (Character Error Rate), utilizando un modelo de Automatic Speech Recognition (ASR). Los resultados permitieron identificar el modelo con mejor desempeño que logró generar el habla en lengua Awajún, demostrando el potencial de las redes neuronales para el procesamiento de lenguas de bajos recursos. Finalmente, se utilizó la métrica MOS, en la que hablantes nativos calificaron la naturalidad de los audios generados del mejor modelo identificado. Este trabajo constituye un aporte significativo a la preservación de la lengua Awajún, y abre la posibilidad de futuras investigaciones orientadas a la creación de herramientas tecnológicas para la lengua Awajún y otras lenguas originarias del Perú.This research aims to develop a Text-to-Speech (TTS) model for the Awajún language, one of the 48 indigenous languages of Peru, with the purpose of contributing to its preservation through a voice synthesis model based on deep learning. For the development of this model, the Tacotron 2 and HiFi-GAN architectures were used, both widely recognized for generating high-quality speech. The methodological process included the collection, cleaning, and alignment of a dataset composed of audio recordings and Awajún text, obtained from the Scripture Earth and Ojo Público platforms. Subsequently, the data were used to train different TTS models, generating audio samples from written text. The evaluation of the TTS models was carried out using the Character Error Rate (CER) metric, with the support of an Automatic Speech Recognition (ASR) model. The results made it possible to identify the best-performing model, which successfully generated speech in the Awajún language, demonstrating the potential of neural networks for processing low-resource languages. Finally, the Mean Opinion Score (MOS) metric was employed, in which native speakers rated the naturalness of the audios generated by the best-identified model. This work represents a significant contribution to the preservation of the Awajún language and opens the door to future research focused on developing technological tools for the Awajún language and other indigenous languages of Peru.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Aprendizaje profundo (Aprendizaje automático)AguarunaLenguas indígenas--Perú--Amazonía, RegiónProcesamieto en lenguaje natural (Computación)https://purl.org/pe-repo/ocde/ford#1.02.02Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASRinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46440101https://orcid.org/0000-0001-7675-620844884967611087Gómez Montoya, Héctor ErasmoOncevay Marcos, Félix ArturoSobrevilla Cabezudo, Marco Antoniohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALMALLQUI_MERMA_RODRIGO_ROEL.pdfMALLQUI_MERMA_RODRIGO_ROEL.pdfTexto completoapplication/pdf318712https://tesis.pucp.edu.pe/bitstreams/5359637f-77d3-4b05-9ddf-2dd8052d7bbd/downloadd579e7ec6397fd3cea2b408c27198276MD51trueAnonymousREADMALLQUI_MERMA_RODRIGO_ROEL_T.pdfMALLQUI_MERMA_RODRIGO_ROEL_T.pdfReporte de originalidadapplication/pdf2626948https://tesis.pucp.edu.pe/bitstreams/93d46039-6a02-498d-a0e1-8720f76ad5a7/downloadb1bbefa1aaf2e9f2c5b1587e4a7d6978MD52falseAdministratorREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81166https://tesis.pucp.edu.pe/bitstreams/3576235a-183d-4b0c-bcec-3e40f96e382a/download3cce22cdbfa6875906fb15a718e73ab5MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/60a3ada8-705e-4db9-b9ea-950263bf619b/downloadbb9bdc0b3349e4284e09149f943790b4MD54falseAnonymousREADTEXTMALLQUI_MERMA_RODRIGO_ROEL.pdf.txtMALLQUI_MERMA_RODRIGO_ROEL.pdf.txtExtracted texttext/plain38817https://tesis.pucp.edu.pe/bitstreams/ccbab430-e011-49e0-861b-b7a75f878c51/download7c90453317d593757e21407375a2e1ceMD55falseAnonymousREADMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.txtMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.txtExtracted texttext/plain1503https://tesis.pucp.edu.pe/bitstreams/bc7042a5-7028-4d78-8413-6117bcaad7f7/download198010337bde4d5a20a3f0cfe0fd31aeMD57falseAdministratorREADTHUMBNAILMALLQUI_MERMA_RODRIGO_ROEL.pdf.jpgMALLQUI_MERMA_RODRIGO_ROEL.pdf.jpgGenerated Thumbnailimage/jpeg10686https://tesis.pucp.edu.pe/bitstreams/c706c387-15a3-4040-a637-34896d12b6d0/download8774962db83fd9b8c79ddab22d3ca941MD56falseAnonymousREADMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.jpgMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.jpgGenerated Thumbnailimage/jpeg6838https://tesis.pucp.edu.pe/bitstreams/88d9525c-c3d9-4073-84ce-50fb1b0d50b2/download4c7508cce0a32b1b3f8464c3da9b8fe5MD58falseAdministratorREAD20.500.12404/32901oai:tesis.pucp.edu.pe:20.500.12404/329012026-01-14 09:31:22.648http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.89881
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).