Evaluation and Fine-Tuning of Pretrained Models for Audio Transcription and Disfluency Correction in Spanish-Speaking Individuals Who Stutter.
Descripción del Articulo
El presente trabajo se enfoca en evaluar y ajustar (fine-tuning) modelos preentrenados de reconocimiento automático del habla (ASR) como wav2vec2 y Whisper, específicamente para la transcripción y corrección de disfluencias en personas con tartamudez que hablan español. El objetivo principal fue mej...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2025 |
| Institución: | Superintendencia Nacional de Educación Superior Universitaria |
| Repositorio: | Registro Nacional de Trabajos conducentes a Grados y Títulos - RENATI |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.sunedu.gob.pe:20.500.14366/5794 |
| Enlace del recurso: | https://hdl.handle.net/20.500.14366/5794 |
| Nivel de acceso: | acceso abierto |
| Materia: | Disfluencias del habla Reconocimiento automáticodel habla (ASR). Modelos preentrenados. Métricas de evaluación. Redes adversariales generativas (GAN) Corrección de texto. Inclusión tecnológica. https://purl.org/pe-repo/ocde/ford#2.00.00 |
| Sumario: | El presente trabajo se enfoca en evaluar y ajustar (fine-tuning) modelos preentrenados de reconocimiento automático del habla (ASR) como wav2vec2 y Whisper, específicamente para la transcripción y corrección de disfluencias en personas con tartamudez que hablan español. El objetivo principal fue mejorar la precisión de los modelos preentrenados, ya que actualmente presentan limitaciones significativas al transcribir el habla disfluente, afectando la comunicación efectiva mediante tecnologías que dependen del ASR. Para esto, se adaptó un dataset especializado con audios y textos alineados mediante la técnica de segmentación de audios mediante oraciones textuales, provenientes de personas con tartamudez, optimizando así la precisión en la identificación y corrección de patrones disfluentes como repeticiones, prolongaciones y bloqueos. Se realizaron evaluaciones detalladas mediante métricas específicas como Word Error Rate (WER), Character Error Rate (CER), y F1-score. Además, se emplearon técnicas avanzadas de procesamiento del lenguaje natural y redes adversariales generativas (GANs) para corregir las transcripciones resultantes, obteniendo mejoras sustanciales en la legibilidad del texto generado. Este trabajo contribuye significativamente hacia una comunicación inclusiva y efectiva para personas con tartamudez mediante el uso y adaptación de tecnologías avanzadas de inteligencia artificial. El presente trabajo se enfoca en evaluar y ajustar (fine-tuning) modelos preentrenados de reconocimiento automático del habla (ASR) como wav2vec2 y Whisper, específicamente para la transcripción y corrección de disfluencias en personas con tartamudez que hablan español. El objetivo principal fue mejorar la precisión de los modelos preentrenados, ya que actualmente presentan limitaciones significativas al transcribir el habla disfluente, afectando la comunicación efectiva mediante tecnologías que dependen del ASR. Para esto, se adaptó un dataset especializado con audios y textos alineados mediante la técnica de segmentación de audios mediante oraciones textuales, provenientes de personas con tartamudez, optimizando así la precisión en la identificación y corrección de patrones disfluentes como repeticiones, prolongaciones y bloqueos. Se realizaron evaluaciones detalladas mediante métricas específicas como Word Error Rate (WER), Character Error Rate (CER), y F1-score. Además, se emplearon técnicas avanzadas de procesamiento del lenguaje natural y redes adversariales generativas (GANs) para corregir las transcripciones resultantes, obteniendo mejoras sustanciales en la legibilidad del texto generado. Este trabajo contribuye significativamente hacia una comunicación inclusiva y efectiva para personas con tartamudez mediante el uso y adaptación de tecnologías avanzadas de inteligencia artificial. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).