Redes neuronales convolucionales para la conversión de audio a texto: revisión sistemática

Descripción del Articulo

La conversión de audio a texto mediante redes neuronales convolucionales (CNN) representa un avance significativo en la accesibilidad comunicativa, permitiendo la traducción de sonido a información escrita en tiempo real. Este estudio tiene como objetivo examinar críticamente las aplicaciones de las...

Descripción completa

Detalles Bibliográficos
Autor: Callirgos Burga, Cristhian Alejandro
Formato: tesis de grado
Fecha de Publicación:2025
Institución:Universidad Señor de Sipan
Repositorio:USS-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.uss.edu.pe:20.500.12802/15189
Enlace del recurso:https://hdl.handle.net/20.500.12802/15189
Nivel de acceso:acceso abierto
Materia:Redes neuronales convolucionales
Conversión de audio a texto
Accesibilidad comunicativa
MFCC
Espectrogramas
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:La conversión de audio a texto mediante redes neuronales convolucionales (CNN) representa un avance significativo en la accesibilidad comunicativa, permitiendo la traducción de sonido a información escrita en tiempo real. Este estudio tiene como objetivo examinar críticamente las aplicaciones de las CNN en la conversión de audio a texto, comparando métodos de procesamiento, estándares de evaluación y limitaciones. La metodología empleada incluye una revisión sistemática de la literatura basada en las directrices PRISMA, utilizando bases de datos científicas como Scopus y ScienceDirect. Se analizaron 35 artículos relevantes, destacando que las arquitecturas GoogLeNet, ResNet y AlexNet son las más utilizadas, con precisiones de hasta el 89.61%. Las técnicas de preprocesamiento más eficaces incluyen los coeficientes cepstrales en frecuencia mel (MFCC) y los espectrogramas. La revisión concluye que, aunque las CNN son efectivas, enfrentan retos como la variabilidad del ambiente sonoro y la necesidad de bases de datos adaptadas a cada idioma. Esta investigación es crucial para mejorar la interacción y comunicación de personas con discapacidades auditivas y del habla mediante la tecnología y la inteligencia artificial.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).