Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video
Descripción del Articulo
La presente investigación está basada en el trabajo previo de los autores en “Emotional 3D Speech Visualization from 2D Audio Visual Data” [1] que consiste en: Análisis y propósito de la investigación: La animación facial es una de las tareas más complejas para desarrolladores debido a la necesidad...
Autores: | , |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2024 |
Institución: | Universidad Peruana de Ciencias Aplicadas |
Repositorio: | UPC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorioacademico.upc.edu.pe:10757/684205 |
Enlace del recurso: | http://doi.org/10.19083/tesis/684205 http://hdl.handle.net/10757/684205 |
Nivel de acceso: | acceso abierto |
Materia: | Animación del Habla Animación Procedural Habla Audiovisual Speech Animation Procedural Animation Audio-visual https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
Sumario: | La presente investigación está basada en el trabajo previo de los autores en “Emotional 3D Speech Visualization from 2D Audio Visual Data” [1] que consiste en: Análisis y propósito de la investigación: La animación facial es una de las tareas más complejas para desarrolladores debido a la necesidad de mantener los detalles en las expresiones que satisfagan tanto a ellos como al público. Actualmente, se ha desarrollado tecnología para facilitar este proceso, como herramientas de animación procedural o sincronización de labios y habla que utilizan, en su mayoría, Visión Computacional y Machine Learning; sin embargo, estas soluciones frecuentemente presentan uno o más de los siguientes problemas: dificultad en adaptarse al lenguaje, actor u otro software, requerimiento de hardware de gama alta, o resultados que no son convincentes para la audiencia. Diseño o Metodología o Aproximación: Se diseñó un modelo de Deep Learning que anima rostros expresivos en hardware de gama media/baja introduciendo audio. El proceso empieza por la extracción de características de audio de conversaciones emocionales ricas en fonemas. Estos audios son obtenidos de videos de los cuales se extraen las marcas faciales del actor y se alinean con las características de audio en cada fotograma. Se entrenaron cuatro modelos utilizando dos funciones de pérdida con y sin condición emocional para evaluarse en una encuesta de percepción. Resultados: Se encontró que el modelo con Función de Pérdida de Reconstrucción y Condición Emocional obtuvo mejores resultados, con un 38.89% de votos en sincronización de lenguaje a partir de tres idiomas distintos y un 65.55% de aprobación para percepción de naturalidad. Principal conclusión: Utilizar un modelo LSTM ayuda a mantener características de tiempo secuencial del dato de entrada usado en esta propuesta. Los modelos entrenados a partir de las descripciones gráficas detalladas de rostros humanos, como los puntos de referencia, y las características de audio obtienen rápidamente animaciones generadas y una aceptación decente bajo la perspectiva del usuario. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).