Evaluation and Fine-Tuning of Pretrained Models for Audio Transcription and Disfluency Correction in Spanish-Speaking Individuals Who Stutter.

Mera Sanchez, Marcos Irving

Evaluation and Fine-Tuning of Pretrained Models for Audio Transcription and Disfluency Correction in Spanish-Speaking Individuals Who Stutter.

Descripción del Articulo

El presente trabajo se enfoca en evaluar y ajustar (fine-tuning) modelos preentrenados de reconocimiento automático del habla (ASR) como wav2vec2 y Whisper, específicamente para la transcripción y corrección de disfluencias en personas con tartamudez que hablan español. El objetivo principal fue mej...

Descripción completa

Detalles Bibliográficos
Autor:	Mera Sanchez, Marcos Irving
Formato:	tesis de maestría
Fecha de Publicación:	2025
Institución:	Superintendencia Nacional de Educación Superior Universitaria
Repositorio:	Registro Nacional de Trabajos conducentes a Grados y Títulos - RENATI
Lenguaje:	español
OAI Identifier:	oai:repositorio.sunedu.gob.pe:20.500.14366/5794
Enlace del recurso:	https://hdl.handle.net/20.500.14366/5794
Nivel de acceso:	acceso abierto
Materia:	Disfluencias del habla Reconocimiento automáticodel habla (ASR). Modelos preentrenados. Métricas de evaluación. Redes adversariales generativas (GAN) Corrección de texto. Inclusión tecnológica. https://purl.org/pe-repo/ocde/ford#2.00.00

Descripción
Sumario:	El presente trabajo se enfoca en evaluar y ajustar (fine-tuning) modelos preentrenados de reconocimiento automático del habla (ASR) como wav2vec2 y Whisper, específicamente para la transcripción y corrección de disfluencias en personas con tartamudez que hablan español. El objetivo principal fue mejorar la precisión de los modelos preentrenados, ya que actualmente presentan limitaciones significativas al transcribir el habla disfluente, afectando la comunicación efectiva mediante tecnologías que dependen del ASR. Para esto, se adaptó un dataset especializado con audios y textos alineados mediante la técnica de segmentación de audios mediante oraciones textuales, provenientes de personas con tartamudez, optimizando así la precisión en la identificación y corrección de patrones disfluentes como repeticiones, prolongaciones y bloqueos. Se realizaron evaluaciones detalladas mediante métricas específicas como Word Error Rate (WER), Character Error Rate (CER), y F1-score. Además, se emplearon técnicas avanzadas de procesamiento del lenguaje natural y redes adversariales generativas (GANs) para corregir las transcripciones resultantes, obteniendo mejoras sustanciales en la legibilidad del texto generado. Este trabajo contribuye significativamente hacia una comunicación inclusiva y efectiva para personas con tartamudez mediante el uso y adaptación de tecnologías avanzadas de inteligencia artificial. El presente trabajo se enfoca en evaluar y ajustar (fine-tuning) modelos preentrenados de reconocimiento automático del habla (ASR) como wav2vec2 y Whisper, específicamente para la transcripción y corrección de disfluencias en personas con tartamudez que hablan español. El objetivo principal fue mejorar la precisión de los modelos preentrenados, ya que actualmente presentan limitaciones significativas al transcribir el habla disfluente, afectando la comunicación efectiva mediante tecnologías que dependen del ASR. Para esto, se adaptó un dataset especializado con audios y textos alineados mediante la técnica de segmentación de audios mediante oraciones textuales, provenientes de personas con tartamudez, optimizando así la precisión en la identificación y corrección de patrones disfluentes como repeticiones, prolongaciones y bloqueos. Se realizaron evaluaciones detalladas mediante métricas específicas como Word Error Rate (WER), Character Error Rate (CER), y F1-score. Además, se emplearon técnicas avanzadas de procesamiento del lenguaje natural y redes adversariales generativas (GANs) para corregir las transcripciones resultantes, obteniendo mejoras sustanciales en la legibilidad del texto generado. Este trabajo contribuye significativamente hacia una comunicación inclusiva y efectiva para personas con tartamudez mediante el uso y adaptación de tecnologías avanzadas de inteligencia artificial.

Evaluation and Fine-Tuning of Pretrained Models for Audio Transcription and Disfluency Correction in Spanish-Speaking Individuals Who Stutter.

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Evaluation and Fine-Tuning of Pretrained Models for Audio Transcription and Disfluency Correction in Spanish-Speaking Individuals Who Stutter.

Descripción del Articulo

Ejemplares Similares