Redes neuronales convolucionales para la conversión de audio a texto: revisión sistemática
Descripción del Articulo
La conversión de audio a texto mediante redes neuronales convolucionales (CNN) representa un avance significativo en la accesibilidad comunicativa, permitiendo la traducción de sonido a información escrita en tiempo real. Este estudio tiene como objetivo examinar críticamente las aplicaciones de las...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2025 |
| Institución: | Universidad Señor de Sipan |
| Repositorio: | USS-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.uss.edu.pe:20.500.12802/15189 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12802/15189 |
| Nivel de acceso: | acceso abierto |
| Materia: | Redes neuronales convolucionales Conversión de audio a texto Accesibilidad comunicativa MFCC Espectrogramas https://purl.org/pe-repo/ocde/ford#2.02.04 |
| Sumario: | La conversión de audio a texto mediante redes neuronales convolucionales (CNN) representa un avance significativo en la accesibilidad comunicativa, permitiendo la traducción de sonido a información escrita en tiempo real. Este estudio tiene como objetivo examinar críticamente las aplicaciones de las CNN en la conversión de audio a texto, comparando métodos de procesamiento, estándares de evaluación y limitaciones. La metodología empleada incluye una revisión sistemática de la literatura basada en las directrices PRISMA, utilizando bases de datos científicas como Scopus y ScienceDirect. Se analizaron 35 artículos relevantes, destacando que las arquitecturas GoogLeNet, ResNet y AlexNet son las más utilizadas, con precisiones de hasta el 89.61%. Las técnicas de preprocesamiento más eficaces incluyen los coeficientes cepstrales en frecuencia mel (MFCC) y los espectrogramas. La revisión concluye que, aunque las CNN son efectivas, enfrentan retos como la variabilidad del ambiente sonoro y la necesidad de bases de datos adaptadas a cada idioma. Esta investigación es crucial para mejorar la interacción y comunicación de personas con discapacidades auditivas y del habla mediante la tecnología y la inteligencia artificial. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).