Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR
Descripción del Articulo
Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el des...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2025 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/32901 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/32901 |
| Nivel de acceso: | acceso abierto |
| Materia: | Aprendizaje profundo (Aprendizaje automático) Aguaruna Lenguas indígenas--Perú--Amazonía, Región Procesamieto en lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#1.02.02 |
| id |
PUCP_a2335089a4209bea1d19c71b730c0a89 |
|---|---|
| oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/32901 |
| network_acronym_str |
PUCP |
| network_name_str |
PUCP-Tesis |
| repository_id_str |
. |
| dc.title.none.fl_str_mv |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| title |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| spellingShingle |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR Mallqui Merma, Rodrigo Roel Aprendizaje profundo (Aprendizaje automático) Aguaruna Lenguas indígenas--Perú--Amazonía, Región Procesamieto en lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#1.02.02 |
| title_short |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| title_full |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| title_fullStr |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| title_full_unstemmed |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| title_sort |
Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASR |
| author |
Mallqui Merma, Rodrigo Roel |
| author_facet |
Mallqui Merma, Rodrigo Roel |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Oncevay Matos, Félix Arturo |
| dc.contributor.author.fl_str_mv |
Mallqui Merma, Rodrigo Roel |
| dc.subject.none.fl_str_mv |
Aprendizaje profundo (Aprendizaje automático) Aguaruna Lenguas indígenas--Perú--Amazonía, Región Procesamieto en lenguaje natural (Computación) |
| topic |
Aprendizaje profundo (Aprendizaje automático) Aguaruna Lenguas indígenas--Perú--Amazonía, Región Procesamieto en lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#1.02.02 |
| dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.02 |
| description |
Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el desarrollo de este modelo se utilizaron las arquitecturas Tacotron 2 y HiFi-GAN, ampliamente utilizadas en la generación de voz de calidad. El proceso metodológico incluyó la recolección, limpieza y alineación de un conjunto de datos compuesto por audios y textos en lengua Awajún, obtenidos de las plataformas Scripture Earth y Ojo Público. Posteriormente, los datos fueron utilizados para entrenar a diferentes modelos TTS, generando muestras de audio a partir de texto escrito. La evaluación de los modelos TTS se realizó mediante la métrica CER (Character Error Rate), utilizando un modelo de Automatic Speech Recognition (ASR). Los resultados permitieron identificar el modelo con mejor desempeño que logró generar el habla en lengua Awajún, demostrando el potencial de las redes neuronales para el procesamiento de lenguas de bajos recursos. Finalmente, se utilizó la métrica MOS, en la que hablantes nativos calificaron la naturalidad de los audios generados del mejor modelo identificado. Este trabajo constituye un aporte significativo a la preservación de la lengua Awajún, y abre la posibilidad de futuras investigaciones orientadas a la creación de herramientas tecnológicas para la lengua Awajún y otras lenguas originarias del Perú. |
| publishDate |
2025 |
| dc.date.created.none.fl_str_mv |
2025 |
| dc.date.accessioned.none.fl_str_mv |
2026-01-13T17:15:55Z |
| dc.date.available.none.fl_str_mv |
2026-01-13T17:15:55Z |
| dc.date.issued.fl_str_mv |
2026-01-13 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/32901 |
| url |
http://hdl.handle.net/20.500.12404/32901 |
| dc.language.iso.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
| dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
| dc.publisher.country.none.fl_str_mv |
PE |
| dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
| instname_str |
Pontificia Universidad Católica del Perú |
| instacron_str |
PUCP |
| institution |
PUCP |
| reponame_str |
PUCP-Tesis |
| collection |
PUCP-Tesis |
| bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/5359637f-77d3-4b05-9ddf-2dd8052d7bbd/download https://tesis.pucp.edu.pe/bitstreams/93d46039-6a02-498d-a0e1-8720f76ad5a7/download https://tesis.pucp.edu.pe/bitstreams/3576235a-183d-4b0c-bcec-3e40f96e382a/download https://tesis.pucp.edu.pe/bitstreams/60a3ada8-705e-4db9-b9ea-950263bf619b/download https://tesis.pucp.edu.pe/bitstreams/ccbab430-e011-49e0-861b-b7a75f878c51/download https://tesis.pucp.edu.pe/bitstreams/bc7042a5-7028-4d78-8413-6117bcaad7f7/download https://tesis.pucp.edu.pe/bitstreams/c706c387-15a3-4040-a637-34896d12b6d0/download https://tesis.pucp.edu.pe/bitstreams/88d9525c-c3d9-4073-84ce-50fb1b0d50b2/download |
| bitstream.checksum.fl_str_mv |
d579e7ec6397fd3cea2b408c27198276 b1bbefa1aaf2e9f2c5b1587e4a7d6978 3cce22cdbfa6875906fb15a718e73ab5 bb9bdc0b3349e4284e09149f943790b4 7c90453317d593757e21407375a2e1ce 198010337bde4d5a20a3f0cfe0fd31ae 8774962db83fd9b8c79ddab22d3ca941 4c7508cce0a32b1b3f8464c3da9b8fe5 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
| repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
| _version_ |
1855030503142326272 |
| spelling |
Oncevay Matos, Félix ArturoMallqui Merma, Rodrigo Roel2026-01-13T17:15:55Z2026-01-13T17:15:55Z20252026-01-13http://hdl.handle.net/20.500.12404/32901Este trabajo de investigación tiene como objetivo desarrollar un modelo Text-to-Speech (TTS) para la lengua Awajún, una de las 48 lenguas originarias del Perú, con el propósito de contribuir a su preservación mediante el uso de un modelo de síntesis de voz basado en aprendizaje profundo. Para el desarrollo de este modelo se utilizaron las arquitecturas Tacotron 2 y HiFi-GAN, ampliamente utilizadas en la generación de voz de calidad. El proceso metodológico incluyó la recolección, limpieza y alineación de un conjunto de datos compuesto por audios y textos en lengua Awajún, obtenidos de las plataformas Scripture Earth y Ojo Público. Posteriormente, los datos fueron utilizados para entrenar a diferentes modelos TTS, generando muestras de audio a partir de texto escrito. La evaluación de los modelos TTS se realizó mediante la métrica CER (Character Error Rate), utilizando un modelo de Automatic Speech Recognition (ASR). Los resultados permitieron identificar el modelo con mejor desempeño que logró generar el habla en lengua Awajún, demostrando el potencial de las redes neuronales para el procesamiento de lenguas de bajos recursos. Finalmente, se utilizó la métrica MOS, en la que hablantes nativos calificaron la naturalidad de los audios generados del mejor modelo identificado. Este trabajo constituye un aporte significativo a la preservación de la lengua Awajún, y abre la posibilidad de futuras investigaciones orientadas a la creación de herramientas tecnológicas para la lengua Awajún y otras lenguas originarias del Perú.This research aims to develop a Text-to-Speech (TTS) model for the Awajún language, one of the 48 indigenous languages of Peru, with the purpose of contributing to its preservation through a voice synthesis model based on deep learning. For the development of this model, the Tacotron 2 and HiFi-GAN architectures were used, both widely recognized for generating high-quality speech. The methodological process included the collection, cleaning, and alignment of a dataset composed of audio recordings and Awajún text, obtained from the Scripture Earth and Ojo Público platforms. Subsequently, the data were used to train different TTS models, generating audio samples from written text. The evaluation of the TTS models was carried out using the Character Error Rate (CER) metric, with the support of an Automatic Speech Recognition (ASR) model. The results made it possible to identify the best-performing model, which successfully generated speech in the Awajún language, demonstrating the potential of neural networks for processing low-resource languages. Finally, the Mean Opinion Score (MOS) metric was employed, in which native speakers rated the naturalness of the audios generated by the best-identified model. This work represents a significant contribution to the preservation of the Awajún language and opens the door to future research focused on developing technological tools for the Awajún language and other indigenous languages of Peru.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/Aprendizaje profundo (Aprendizaje automático)AguarunaLenguas indígenas--Perú--Amazonía, RegiónProcesamieto en lenguaje natural (Computación)https://purl.org/pe-repo/ocde/ford#1.02.02Desarrollo de un modelo Text-to-Speech para la lengua Awajún y su evaluación automática con ASRinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46440101https://orcid.org/0000-0001-7675-620844884967611087Gómez Montoya, Héctor ErasmoOncevay Marcos, Félix ArturoSobrevilla Cabezudo, Marco Antoniohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALMALLQUI_MERMA_RODRIGO_ROEL.pdfMALLQUI_MERMA_RODRIGO_ROEL.pdfTexto completoapplication/pdf318712https://tesis.pucp.edu.pe/bitstreams/5359637f-77d3-4b05-9ddf-2dd8052d7bbd/downloadd579e7ec6397fd3cea2b408c27198276MD51trueAnonymousREADMALLQUI_MERMA_RODRIGO_ROEL_T.pdfMALLQUI_MERMA_RODRIGO_ROEL_T.pdfReporte de originalidadapplication/pdf2626948https://tesis.pucp.edu.pe/bitstreams/93d46039-6a02-498d-a0e1-8720f76ad5a7/downloadb1bbefa1aaf2e9f2c5b1587e4a7d6978MD52falseAdministratorREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81166https://tesis.pucp.edu.pe/bitstreams/3576235a-183d-4b0c-bcec-3e40f96e382a/download3cce22cdbfa6875906fb15a718e73ab5MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/60a3ada8-705e-4db9-b9ea-950263bf619b/downloadbb9bdc0b3349e4284e09149f943790b4MD54falseAnonymousREADTEXTMALLQUI_MERMA_RODRIGO_ROEL.pdf.txtMALLQUI_MERMA_RODRIGO_ROEL.pdf.txtExtracted texttext/plain38817https://tesis.pucp.edu.pe/bitstreams/ccbab430-e011-49e0-861b-b7a75f878c51/download7c90453317d593757e21407375a2e1ceMD55falseAnonymousREADMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.txtMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.txtExtracted texttext/plain1503https://tesis.pucp.edu.pe/bitstreams/bc7042a5-7028-4d78-8413-6117bcaad7f7/download198010337bde4d5a20a3f0cfe0fd31aeMD57falseAdministratorREADTHUMBNAILMALLQUI_MERMA_RODRIGO_ROEL.pdf.jpgMALLQUI_MERMA_RODRIGO_ROEL.pdf.jpgGenerated Thumbnailimage/jpeg10686https://tesis.pucp.edu.pe/bitstreams/c706c387-15a3-4040-a637-34896d12b6d0/download8774962db83fd9b8c79ddab22d3ca941MD56falseAnonymousREADMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.jpgMALLQUI_MERMA_RODRIGO_ROEL_T.pdf.jpgGenerated Thumbnailimage/jpeg6838https://tesis.pucp.edu.pe/bitstreams/88d9525c-c3d9-4073-84ce-50fb1b0d50b2/download4c7508cce0a32b1b3f8464c3da9b8fe5MD58falseAdministratorREAD20.500.12404/32901oai:tesis.pucp.edu.pe:20.500.12404/329012026-01-14 09:31:22.648http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.89881 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).