ACMC: Red de atención cruzada multicabezal aumentada con datos para reconocer características de expresiones faciales

Descripción del Articulo

El reconocimiento de expresiones faciales actualmente es usada en el área de interacción humano computador. Sin embargo, en entornos no controlados sigue siendo un desafío abierto en visión por computador. Los modelos de aprendizaje profundo actuales ofrecen la mejor tasa de rendimiento, pero aún no...

Descripción completa

Detalles Bibliográficos
Autor: Velasquez Rodriguez, Sol Morelia
Formato: tesis de grado
Fecha de Publicación:2025
Institución:Universidad Católica San Pablo
Repositorio:UCSP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ucsp.edu.pe:20.500.12590/18964
Enlace del recurso:https://hdl.handle.net/20.500.12590/18964
Nivel de acceso:acceso abierto
Materia:Visión por computadora
Aprendizaje profundo
Reconocimiento de expresiones faciales
Aumento de datos
Balanceo de datos
Red de atención cruzada multicabezal
http://purl.org/pe-repo/ocde/ford#1.02.01
Descripción
Sumario:El reconocimiento de expresiones faciales actualmente es usada en el área de interacción humano computador. Sin embargo, en entornos no controlados sigue siendo un desafío abierto en visión por computador. Los modelos de aprendizaje profundo actuales ofrecen la mejor tasa de rendimiento, pero aún no logran generalizar la clasificación con exactitud. Esta falta de generalización se debe la selección de características relevantes y la distribución no uniforme de los conjuntos de datos. En esta tesis se propone ACMC, una arquitectura que permite extraer la mayor cantidad de características del rostro. La arquitectura consta con dos módulos, el primero es el del aumento de datos donde se aplican técnicas como rotación, borrado aleatorio, recorte y cambio de orientación. El segundo es el módulo de extracción y clasificación de características consta de tres componentes: El primer componente es la red de agrupamiento de características que extrae las características más robustas. El segundo componente es la red de atención cruzada multicabezal que detecta rasgos relevantes en diferentes áreas faciales. Finalmente la red de fusión de atención ordena los mapas de atención. El modelo ha sido evaluado con el conjunto de datos RAF-DB donde se obtuvo 65.68 % de exactitud para la emoción del miedo. Para el conjunto de datos AffectNet se obtuvo 48.06 % en la emoción del miedo.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).