Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video
Descripción del Articulo
La presente investigación está basada en el trabajo previo de los autores en “Emotional 3D Speech Visualization from 2D Audio Visual Data” [1] que consiste en: Análisis y propósito de la investigación: La animación facial es una de las tareas más complejas para desarrolladores debido a la necesidad...
Autores: | , |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2024 |
Institución: | Universidad Peruana de Ciencias Aplicadas |
Repositorio: | UPC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorioacademico.upc.edu.pe:10757/684205 |
Enlace del recurso: | http://doi.org/10.19083/tesis/684205 http://hdl.handle.net/10757/684205 |
Nivel de acceso: | acceso abierto |
Materia: | Animación del Habla Animación Procedural Habla Audiovisual Speech Animation Procedural Animation Audio-visual https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
id |
UUPC_ab8833503bad3d11572365e4fd807da2 |
---|---|
oai_identifier_str |
oai:repositorioacademico.upc.edu.pe:10757/684205 |
network_acronym_str |
UUPC |
network_name_str |
UPC-Institucional |
repository_id_str |
2670 |
dc.title.es_PE.fl_str_mv |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
dc.title.alternative.none.fl_str_mv |
Expressive 3D Facial Animation Generation from Audio and Video Data |
title |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
spellingShingle |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video Guillermo Lopez, Luis Angel Animación del Habla Animación Procedural Habla Audiovisual Speech Animation Procedural Animation Audio-visual https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
title_short |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
title_full |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
title_fullStr |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
title_full_unstemmed |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
title_sort |
Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y Video |
author |
Guillermo Lopez, Luis Angel |
author_facet |
Guillermo Lopez, Luis Angel Rojas Guimarey, Jose Maria Ansset |
author_role |
author |
author2 |
Rojas Guimarey, Jose Maria Ansset |
author2_role |
author |
dc.contributor.advisor.fl_str_mv |
Ugarte Rojas, Willy Gustavo |
dc.contributor.author.fl_str_mv |
Guillermo Lopez, Luis Angel Rojas Guimarey, Jose Maria Ansset |
dc.subject.none.fl_str_mv |
Animación del Habla Animación Procedural Habla Audiovisual Speech Animation Procedural Animation Audio-visual |
topic |
Animación del Habla Animación Procedural Habla Audiovisual Speech Animation Procedural Animation Audio-visual https://purl.org/pe-repo/ocde/ford#2.02.04 https://purl.org/pe-repo/ocde/ford#1.00.00 |
dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.00.00 |
description |
La presente investigación está basada en el trabajo previo de los autores en “Emotional 3D Speech Visualization from 2D Audio Visual Data” [1] que consiste en: Análisis y propósito de la investigación: La animación facial es una de las tareas más complejas para desarrolladores debido a la necesidad de mantener los detalles en las expresiones que satisfagan tanto a ellos como al público. Actualmente, se ha desarrollado tecnología para facilitar este proceso, como herramientas de animación procedural o sincronización de labios y habla que utilizan, en su mayoría, Visión Computacional y Machine Learning; sin embargo, estas soluciones frecuentemente presentan uno o más de los siguientes problemas: dificultad en adaptarse al lenguaje, actor u otro software, requerimiento de hardware de gama alta, o resultados que no son convincentes para la audiencia. Diseño o Metodología o Aproximación: Se diseñó un modelo de Deep Learning que anima rostros expresivos en hardware de gama media/baja introduciendo audio. El proceso empieza por la extracción de características de audio de conversaciones emocionales ricas en fonemas. Estos audios son obtenidos de videos de los cuales se extraen las marcas faciales del actor y se alinean con las características de audio en cada fotograma. Se entrenaron cuatro modelos utilizando dos funciones de pérdida con y sin condición emocional para evaluarse en una encuesta de percepción. Resultados: Se encontró que el modelo con Función de Pérdida de Reconstrucción y Condición Emocional obtuvo mejores resultados, con un 38.89% de votos en sincronización de lenguaje a partir de tres idiomas distintos y un 65.55% de aprobación para percepción de naturalidad. Principal conclusión: Utilizar un modelo LSTM ayuda a mantener características de tiempo secuencial del dato de entrada usado en esta propuesta. Los modelos entrenados a partir de las descripciones gráficas detalladas de rostros humanos, como los puntos de referencia, y las características de audio obtienen rápidamente animaciones generadas y una aceptación decente bajo la perspectiva del usuario. |
publishDate |
2024 |
dc.date.accessioned.none.fl_str_mv |
2025-02-12T16:21:06Z |
dc.date.available.none.fl_str_mv |
2025-02-12T16:21:06Z |
dc.date.issued.fl_str_mv |
2024-05-20 |
dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.other.es_PE.fl_str_mv |
Tesis |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
format |
bachelorThesis |
dc.identifier.doi.none.fl_str_mv |
http://doi.org/10.19083/tesis/684205 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10757/684205 |
dc.identifier.isni.es_PE.fl_str_mv |
000000012196144X |
url |
http://doi.org/10.19083/tesis/684205 http://hdl.handle.net/10757/684205 |
identifier_str_mv |
000000012196144X |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.relation.url.none.fl_str_mv |
https://audio.com/raupc/audio/12608 |
dc.relation.embedded.none.fl_str_mv |
<div style="height: 228px; width: 600px;"><iframe src="https://audio.com/embed/audio/1825589292461150?theme=image" style="display:block; border-radius: 1px; border: none; height: 204px; width: 600px;"></iframe><a href='https://audio.com/raupc' style="text-align: center; display: block; color: #A4ABB6; font-size: 12px; font-family: sans-serif; line-height: 16px; margin-top: 8px; overflow: hidden; white-space: nowrap; text-overflow: ellipsis;">@raupc</a></div> |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.coar.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
dc.format.en_US.fl_str_mv |
application/pdf application/epub application/msword |
dc.publisher.es_PE.fl_str_mv |
Universidad Peruana de Ciencias Aplicadas (UPC) |
dc.publisher.country.es_PE.fl_str_mv |
PE |
dc.source.es_PE.fl_str_mv |
Universidad Peruana de Ciencias Aplicadas (UPC) Repositorio Académico - UPC |
dc.source.none.fl_str_mv |
reponame:UPC-Institucional instname:Universidad Peruana de Ciencias Aplicadas instacron:UPC |
instname_str |
Universidad Peruana de Ciencias Aplicadas |
instacron_str |
UPC |
institution |
UPC |
reponame_str |
UPC-Institucional |
collection |
UPC-Institucional |
bitstream.url.fl_str_mv |
https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/11/Rojas_GJ_Fichaautorizacion.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/12/Rojas_GJ_Reportesimilitud.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/13/Rojas_GJ_Actasimilitud.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/16/Rojas_GJ.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/6/Rojas_GJ.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/7/Rojas_GJ_Fichaautorizacion.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/8/Rojas_GJ_Reportesimilitud.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/9/Rojas_GJ_Actasimilitud.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/14/Rojas_GJ.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/3/Rojas_GJ_Fichaautorizacion.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/4/Rojas_GJ_Reportesimilitud.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/5/Rojas_GJ_Actasimilitud.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/15/Rojas_GJ.docx |
bitstream.checksum.fl_str_mv |
f08c9e11335657d67d5011903ad04a75 889e0a92509ca07ade45e230cec9e665 c49710219051328cf6e2a9c0ac493b2e ee9332536b77a9eae1b25e97a9c532a5 d7e4928ca73cea8701a5c1f87f4f4be3 5faf9d7c29cd31b6046e36155d14098b a1f46a4557934b1e9e1679278c1f4d54 508eeb74c47310d766d7adeace256646 5dcf63f7c917dfd3f02dc5c31ce8166d 4d8405d341024b0d5b322fd931027def 37b5fb3582446e624a476f088b03e0b8 5ec53c47f6433a5532a6eae2b7f527e2 07bd0c86ae3e1f5a6d9388952113e254 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio académico upc |
repository.mail.fl_str_mv |
upc@openrepository.com |
_version_ |
1842260454528778240 |
spelling |
031233e802ba59a9bca6a99f8f98a4efUgarte Rojas, Willy Gustavoa8022bc5c06fa14414ce563c1b127f34500d38a53d2387a34e29318f94a8c7dbaa2500Guillermo Lopez, Luis AngelRojas Guimarey, Jose Maria Ansset2025-02-12T16:21:06Z2025-02-12T16:21:06Z2024-05-20http://doi.org/10.19083/tesis/684205http://hdl.handle.net/10757/684205000000012196144XLa presente investigación está basada en el trabajo previo de los autores en “Emotional 3D Speech Visualization from 2D Audio Visual Data” [1] que consiste en: Análisis y propósito de la investigación: La animación facial es una de las tareas más complejas para desarrolladores debido a la necesidad de mantener los detalles en las expresiones que satisfagan tanto a ellos como al público. Actualmente, se ha desarrollado tecnología para facilitar este proceso, como herramientas de animación procedural o sincronización de labios y habla que utilizan, en su mayoría, Visión Computacional y Machine Learning; sin embargo, estas soluciones frecuentemente presentan uno o más de los siguientes problemas: dificultad en adaptarse al lenguaje, actor u otro software, requerimiento de hardware de gama alta, o resultados que no son convincentes para la audiencia. Diseño o Metodología o Aproximación: Se diseñó un modelo de Deep Learning que anima rostros expresivos en hardware de gama media/baja introduciendo audio. El proceso empieza por la extracción de características de audio de conversaciones emocionales ricas en fonemas. Estos audios son obtenidos de videos de los cuales se extraen las marcas faciales del actor y se alinean con las características de audio en cada fotograma. Se entrenaron cuatro modelos utilizando dos funciones de pérdida con y sin condición emocional para evaluarse en una encuesta de percepción. Resultados: Se encontró que el modelo con Función de Pérdida de Reconstrucción y Condición Emocional obtuvo mejores resultados, con un 38.89% de votos en sincronización de lenguaje a partir de tres idiomas distintos y un 65.55% de aprobación para percepción de naturalidad. Principal conclusión: Utilizar un modelo LSTM ayuda a mantener características de tiempo secuencial del dato de entrada usado en esta propuesta. Los modelos entrenados a partir de las descripciones gráficas detalladas de rostros humanos, como los puntos de referencia, y las características de audio obtienen rápidamente animaciones generadas y una aceptación decente bajo la perspectiva del usuario.This research is based upon a previous work made by the authors titled: “Emotional 3D Speech Visualization from 2D Audio Visual Data” [1] which consists of: Analysis and purpose of research: Facial animation is one of the hardest tasks for developers due to the skill required to preserve the details in human expressions and the need to comply expectations for both developers, and, most importantly, the audience. At present, technology has been developed to ease the process, such tools as procedural animation or speech-lip synchronization that use, in most cases, Computer Vision and Machine Learning; however, those approaches frequently bear one or more of these problems: difficulty on language, subject or software adaptation, requires high hardware specifications, or the results were not convincing for the audience. Design/methodology/approach: We designed a Deep Learning model that animates faces in an expressive way taking audio as input using low/medium hardware specifications. The process starts by extracting audio features from emotional audio containing speeches with a great number of phonemes. The audios are obtained from videos which later we used to extract landmarks from the actors’ faces and match them frame by frame with the audio features. We trained four models using two functions losses with and without emotion conditioning to be used in a user perspective survey. Results: We found that the most accepted model was the one that has a Reconstruction Loss Function conditioned with emotion, having a 38.89% of the votes in language synchronization from three languages and a 65.55% average score for perception of naturalness. Main conclusion: Using a LSTM model helps keeping time sequential features from the input data used in this approach. The models trained with a detailed graphic description of a human face like the landmarks and the audio features achieves a fast animation output and a decent acceptation from a user perspective.TesisODS 9: Industria, innovación e infraestructuraODS 8: Trabajo decente y crecimiento económicoODS 4: Educación de calidadapplication/pdfapplication/epubapplication/mswordspaUniversidad Peruana de Ciencias Aplicadas (UPC)PEhttps://audio.com/raupc/audio/12608<div style="height: 228px; width: 600px;"><iframe src="https://audio.com/embed/audio/1825589292461150?theme=image" style="display:block; border-radius: 1px; border: none; height: 204px; width: 600px;"></iframe><a href='https://audio.com/raupc' style="text-align: center; display: block; color: #A4ABB6; font-size: 12px; font-family: sans-serif; line-height: 16px; margin-top: 8px; overflow: hidden; white-space: nowrap; text-overflow: ellipsis;">@raupc</a></div>SUNEDUinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/http://purl.org/coar/access_right/c_abf2Universidad Peruana de Ciencias Aplicadas (UPC)Repositorio Académico - UPCreponame:UPC-Institucionalinstname:Universidad Peruana de Ciencias Aplicadasinstacron:UPCAnimación del HablaAnimación ProceduralHabla AudiovisualSpeech AnimationProcedural AnimationAudio-visualhttps://purl.org/pe-repo/ocde/ford#2.02.04https://purl.org/pe-repo/ocde/ford#1.00.00Generación de Animaciones Faciales Expresivas en 3D a partir de Datos de Audio y VideoExpressive 3D Facial Animation Generation from Audio and Video Datainfo:eu-repo/semantics/bachelorThesisTesishttp://purl.org/coar/resource_type/c_7a1fUniversidad Peruana de Ciencias Aplicadas (UPC). Facultad de IngenieríaLicenciaturaCiencias de la ComputaciónLicenciado en Ciencias de la Computación2025-02-12T17:07:26Zhttps://purl.org/pe-repo/renati/type#tesishttps://orcid.org/0000-0002-7510-618X43673615https://purl.org/pe-repo/renati/level#tituloProfesional611016Diaz Suarez, Jorge EduardoZubieta Cardenas, Robert ErnestoRojas Sihua, Diego7263243971894495CONVERTED2_3971268THUMBNAILRojas_GJ_Fichaautorizacion.pdf.jpgRojas_GJ_Fichaautorizacion.pdf.jpgGenerated Thumbnailimage/jpeg26326https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/11/Rojas_GJ_Fichaautorizacion.pdf.jpgf08c9e11335657d67d5011903ad04a75MD511falseRojas_GJ_Reportesimilitud.pdf.jpgRojas_GJ_Reportesimilitud.pdf.jpgGenerated Thumbnailimage/jpeg37952https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/12/Rojas_GJ_Reportesimilitud.pdf.jpg889e0a92509ca07ade45e230cec9e665MD512falseRojas_GJ_Actasimilitud.pdf.jpgRojas_GJ_Actasimilitud.pdf.jpgGenerated Thumbnailimage/jpeg40579https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/13/Rojas_GJ_Actasimilitud.pdf.jpgc49710219051328cf6e2a9c0ac493b2eMD513falseRojas_GJ.pdf.jpgRojas_GJ.pdf.jpgGenerated Thumbnailimage/jpeg28144https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/16/Rojas_GJ.pdf.jpgee9332536b77a9eae1b25e97a9c532a5MD516falseCONVERTED2_3960459TEXTRojas_GJ.pdf.txtRojas_GJ.pdf.txtExtracted texttext/plain47373https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/6/Rojas_GJ.pdf.txtd7e4928ca73cea8701a5c1f87f4f4be3MD56falseRojas_GJ_Fichaautorizacion.pdf.txtRojas_GJ_Fichaautorizacion.pdf.txtExtracted texttext/plain2741https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/7/Rojas_GJ_Fichaautorizacion.pdf.txt5faf9d7c29cd31b6046e36155d14098bMD57falseRojas_GJ_Reportesimilitud.pdf.txtRojas_GJ_Reportesimilitud.pdf.txtExtracted texttext/plain1442https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/8/Rojas_GJ_Reportesimilitud.pdf.txta1f46a4557934b1e9e1679278c1f4d54MD58falseRojas_GJ_Actasimilitud.pdf.txtRojas_GJ_Actasimilitud.pdf.txtExtracted texttext/plain1196https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/9/Rojas_GJ_Actasimilitud.pdf.txt508eeb74c47310d766d7adeace256646MD59falseORIGINALRojas_GJ.pdfRojas_GJ.pdfapplication/pdf704197https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/14/Rojas_GJ.pdf5dcf63f7c917dfd3f02dc5c31ce8166dMD514trueRojas_GJ_Fichaautorizacion.pdfRojas_GJ_Fichaautorizacion.pdfapplication/pdf164839https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/3/Rojas_GJ_Fichaautorizacion.pdf4d8405d341024b0d5b322fd931027defMD53falseRojas_GJ_Reportesimilitud.pdfRojas_GJ_Reportesimilitud.pdfapplication/pdf4469665https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/4/Rojas_GJ_Reportesimilitud.pdf37b5fb3582446e624a476f088b03e0b8MD54falseRojas_GJ_Actasimilitud.pdfRojas_GJ_Actasimilitud.pdfapplication/pdf122315https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/5/Rojas_GJ_Actasimilitud.pdf5ec53c47f6433a5532a6eae2b7f527e2MD55falseRojas_GJ.docxRojas_GJ.docxapplication/vnd.openxmlformats-officedocument.wordprocessingml.document1513750https://repositorioacademico.upc.edu.pe/bitstream/10757/684205/15/Rojas_GJ.docx07bd0c86ae3e1f5a6d9388952113e254MD515false10757/684205oai:repositorioacademico.upc.edu.pe:10757/6842052025-08-26 13:11:29.105Repositorio académico upcupc@openrepository.com |
score |
13.395781 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).