Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español

Descripción del Articulo

Esta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectar...

Descripción completa

Detalles Bibliográficos
Autor: Cabrera Díaz, Daniel Alonso
Formato: tesis de maestría
Fecha de Publicación:2024
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/28908
Enlace del recurso:http://hdl.handle.net/20.500.12404/28908
Nivel de acceso:acceso abierto
Materia:Tartamudez--Procesamiento de datos
Aprendizaje automático (Inteligencia artificial)
Aprendizaje profundo (Aprendizaje automático)
Reconocimiento automático del habla
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_550b1c8115b197dbb2d0cd3d2c33fef7
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/28908
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
title Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
spellingShingle Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
Cabrera Díaz, Daniel Alonso
Tartamudez--Procesamiento de datos
Aprendizaje automático (Inteligencia artificial)
Aprendizaje profundo (Aprendizaje automático)
Reconocimiento automático del habla
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
title_full Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
title_fullStr Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
title_full_unstemmed Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
title_sort Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español
author Cabrera Díaz, Daniel Alonso
author_facet Cabrera Díaz, Daniel Alonso
author_role author
dc.contributor.advisor.fl_str_mv Sobrevilla Cabezudo, Marco Antonio
dc.contributor.author.fl_str_mv Cabrera Díaz, Daniel Alonso
dc.subject.es_ES.fl_str_mv Tartamudez--Procesamiento de datos
Aprendizaje automático (Inteligencia artificial)
Aprendizaje profundo (Aprendizaje automático)
Reconocimiento automático del habla
topic Tartamudez--Procesamiento de datos
Aprendizaje automático (Inteligencia artificial)
Aprendizaje profundo (Aprendizaje automático)
Reconocimiento automático del habla
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Esta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectaron audios en español de cinco participantes con tartamudez, conformes a los estándares del dataset SEP-28K y con apoyo de dos especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones limitó la diversidad de disfluencias observadas, estos audios proporcionaron una base sólida para el desarrollo del modelo. El modelo presentado se basó en el modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0 XLSR53 aprovechando su robusta base de datos multilingüe. El modelo demostró su capacidad para identificar y clasificar disfluencias en español, aunque su rendimiento fue inferior comparado con modelos equivalentes en inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la detección de disfluencias, se implementaron dos estrategias de aumento de datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales, como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de disfluencias en contextos de habla espontánea y procesar los audios restantes del corpus inicial para explorar mejoras en la clasificación y detección de disfluencias. Además, se explorarán métodos avanzados de clonación de voz y otras técnicas de modificación de audios para enriquecer los datasets y mejorar los modelos de detección y clasificación de disfluencias.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-09-18T17:33:02Z
dc.date.available.none.fl_str_mv 2024-09-18T17:33:02Z
dc.date.created.none.fl_str_mv 2024
dc.date.issued.fl_str_mv 2024-09-18
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/28908
url http://hdl.handle.net/20.500.12404/28908
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/29dc387b-14e4-471e-8242-d9451ae48c7c/download
https://tesis.pucp.edu.pe/bitstreams/e54d9972-b51c-4b4f-be27-68c938c1ccaf/download
https://tesis.pucp.edu.pe/bitstreams/9073eec1-930f-4498-ac02-ef9841c913a2/download
https://tesis.pucp.edu.pe/bitstreams/08556392-73c2-45c9-b930-c9e2e7d5d55b/download
https://tesis.pucp.edu.pe/bitstreams/80c5c9e1-b95f-40d1-94ed-7148a8eb38d1/download
https://tesis.pucp.edu.pe/bitstreams/847e81bc-327d-4e2f-8599-90b538236d1e/download
bitstream.checksum.fl_str_mv 188f724d0f4ee4b1c73615198a9509bd
391a25ef60925dfe65efae8105495234
5a4ffbc01f1b5eb70a835dac0d501661
8a4605be74aa9ea9d79846c1fba20a33
a0ea25b4909058a23f31837f54a5bf58
120f731ca603e09374b15cb8a4ed756c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834736983663968256
spelling Sobrevilla Cabezudo, Marco AntonioCabrera Díaz, Daniel Alonso2024-09-18T17:33:02Z2024-09-18T17:33:02Z20242024-09-18http://hdl.handle.net/20.500.12404/28908Esta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectaron audios en español de cinco participantes con tartamudez, conformes a los estándares del dataset SEP-28K y con apoyo de dos especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones limitó la diversidad de disfluencias observadas, estos audios proporcionaron una base sólida para el desarrollo del modelo. El modelo presentado se basó en el modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0 XLSR53 aprovechando su robusta base de datos multilingüe. El modelo demostró su capacidad para identificar y clasificar disfluencias en español, aunque su rendimiento fue inferior comparado con modelos equivalentes en inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la detección de disfluencias, se implementaron dos estrategias de aumento de datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales, como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de disfluencias en contextos de habla espontánea y procesar los audios restantes del corpus inicial para explorar mejoras en la clasificación y detección de disfluencias. Además, se explorarán métodos avanzados de clonación de voz y otras técnicas de modificación de audios para enriquecer los datasets y mejorar los modelos de detección y clasificación de disfluencias.This thesis focused on the development of computational resources for the detection and classification of stuttering disfluencies in Spanish, spanning from the collection and annotation of audio data to the implementation of a machine learning model and data augmentation strategies. Audios in Spanish from five participants with stuttering were collected, adhering to the SEP-28K dataset standards and supported by two specialists in stuttering. Although the controlled nature of the recordings limited the diversity of observed disfluencies, these audios provided a solid foundation for the model development. The model was based on the DisfluencyNet and pre-trained using wav2vec 2.0 XLSR53, leveraging its robust multilingual database. The model demonstrated its ability to identify and classify disfluencies in Spanish, though its performance was inferior compared to similar models in English, highlighting the need for more data. To enhance disfluency detection, two data augmentation strategies were implemented. The first involved pitch variations, reverberation addition, and white noise, effectively doubling the available data. Although this strategy improved recall for certain disfluencies, precision and F1 results were mixed. The second strategy, using voice cloning with the XTTS-v2 model, generated new audios that emulated natural disfluencies, such as prolongations and blocks. While it enhanced recall, particularly in later rounds of data augmentation, precision and F1 continued to be challenging. Future research will focus on expanding the annotation of disfluencies in spontaneous speech contexts and processing the remaining audios from the initial corpus to explore improvements in classification and detection of disfluencies. Additionally, advanced voice cloning methods and other audio modification techniques will be explored to enrich the datasets and enhance the detection and classification models.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/pe/Tartamudez--Procesamiento de datosAprendizaje automático (Inteligencia artificial)Aprendizaje profundo (Aprendizaje automático)Reconocimiento automático del hablahttps://purl.org/pe-repo/ocde/ford#1.02.00Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en españolinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46299018https://orcid.org/0000-0001-7625-991474290451611087Melgar Sasieta, Hector AndresSobrevilla Cabezudo, Marco AntonioOncevay Marcos, Felix Arturohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALCABRERA_DIAZ_DANIEL_ALONSO_CONSTRUCCION_RECURSOS.pdfCABRERA_DIAZ_DANIEL_ALONSO_CONSTRUCCION_RECURSOS.pdfTexto completoapplication/pdf1588603https://tesis.pucp.edu.pe/bitstreams/29dc387b-14e4-471e-8242-d9451ae48c7c/download188f724d0f4ee4b1c73615198a9509bdMD51trueAnonymousREADCABRERA_DIAZ_DANIEL_ALONSO_T.pdfCABRERA_DIAZ_DANIEL_ALONSO_T.pdfReporte de originalidadapplication/pdf10079751https://tesis.pucp.edu.pe/bitstreams/e54d9972-b51c-4b4f-be27-68c938c1ccaf/download391a25ef60925dfe65efae8105495234MD52falseAnonymousREAD2500-01-01CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://tesis.pucp.edu.pe/bitstreams/9073eec1-930f-4498-ac02-ef9841c913a2/download5a4ffbc01f1b5eb70a835dac0d501661MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/08556392-73c2-45c9-b930-c9e2e7d5d55b/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTHUMBNAILCABRERA_DIAZ_DANIEL_ALONSO_CONSTRUCCION_RECURSOS.pdf.jpgCABRERA_DIAZ_DANIEL_ALONSO_CONSTRUCCION_RECURSOS.pdf.jpgIM Thumbnailimage/jpeg24785https://tesis.pucp.edu.pe/bitstreams/80c5c9e1-b95f-40d1-94ed-7148a8eb38d1/downloada0ea25b4909058a23f31837f54a5bf58MD55falseAnonymousREADCABRERA_DIAZ_DANIEL_ALONSO_T.pdf.jpgCABRERA_DIAZ_DANIEL_ALONSO_T.pdf.jpgIM Thumbnailimage/jpeg10046https://tesis.pucp.edu.pe/bitstreams/847e81bc-327d-4e2f-8599-90b538236d1e/download120f731ca603e09374b15cb8a4ed756cMD56falseAnonymousREAD2500-01-0120.500.12404/28908oai:tesis.pucp.edu.pe:20.500.12404/289082024-10-14 14:27:00.317http://creativecommons.org/licenses/by/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.924177
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).