ACMC: Red de atención cruzada multicabezal aumentada con datos para reconocer características de expresiones faciales
Descripción del Articulo
El reconocimiento de expresiones faciales actualmente es usada en el área de interacción humano computador. Sin embargo, en entornos no controlados sigue siendo un desafío abierto en visión por computador. Los modelos de aprendizaje profundo actuales ofrecen la mejor tasa de rendimiento, pero aún no...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2025 |
| Institución: | Universidad Católica San Pablo |
| Repositorio: | UCSP-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.ucsp.edu.pe:20.500.12590/18964 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12590/18964 |
| Nivel de acceso: | acceso abierto |
| Materia: | Visión por computadora Aprendizaje profundo Reconocimiento de expresiones faciales Aumento de datos Balanceo de datos Red de atención cruzada multicabezal http://purl.org/pe-repo/ocde/ford#1.02.01 |
| Sumario: | El reconocimiento de expresiones faciales actualmente es usada en el área de interacción humano computador. Sin embargo, en entornos no controlados sigue siendo un desafío abierto en visión por computador. Los modelos de aprendizaje profundo actuales ofrecen la mejor tasa de rendimiento, pero aún no logran generalizar la clasificación con exactitud. Esta falta de generalización se debe la selección de características relevantes y la distribución no uniforme de los conjuntos de datos. En esta tesis se propone ACMC, una arquitectura que permite extraer la mayor cantidad de características del rostro. La arquitectura consta con dos módulos, el primero es el del aumento de datos donde se aplican técnicas como rotación, borrado aleatorio, recorte y cambio de orientación. El segundo es el módulo de extracción y clasificación de características consta de tres componentes: El primer componente es la red de agrupamiento de características que extrae las características más robustas. El segundo componente es la red de atención cruzada multicabezal que detecta rasgos relevantes en diferentes áreas faciales. Finalmente la red de fusión de atención ordena los mapas de atención. El modelo ha sido evaluado con el conjunto de datos RAF-DB donde se obtuvo 65.68 % de exactitud para la emoción del miedo. Para el conjunto de datos AffectNet se obtuvo 48.06 % en la emoción del miedo. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).