Identificación de personas a partir de un sistema biométrico bimodal audio-visual
Descripción del Articulo
La presente tesis de grado propone el desarrollo de un sistema biométrico audio-visual para el reconocimiento e identificación de personas. La parte del audio corresponde al reconocimiento del locutor y la parte visual al reconocimiento de rostro. En el caso del reconocimiento de locutor se hace uso...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2017 |
| Institución: | Universidad Católica San Pablo |
| Repositorio: | UCSP-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.ucsp.edu.pe:20.500.12590/15496 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12590/15496 |
| Nivel de acceso: | acceso abierto |
| Materia: | Sistemas biométricos Coeficientes cepstrales a escala de frecuencia Mel (MFCC) Modelo de mezclas Gaussianas (GMM) Eigenface https://purl.org/pe-repo/ocde/ford#2.02.05 |
| Sumario: | La presente tesis de grado propone el desarrollo de un sistema biométrico audio-visual para el reconocimiento e identificación de personas. La parte del audio corresponde al reconocimiento del locutor y la parte visual al reconocimiento de rostro. En el caso del reconocimiento de locutor se hace uso de los Coeficientes Cepstrales a escala de frecuencia Mel (MFCC) para la etapa de la extracción de características, en esta misma etapa se hizo uso de la técnica de Normalización de Media Cepstral (CMN) para mejorar el porcentaje de reconocimiento del hablante, así mismo, se utilizó la técnica de las mezclas gaussianas (GMM) para la etapa de la clasificación, la cual entrena un modelo que permite la identificación del hablante. En el caso del reconocimiento de rostro se hace uso de los eigenface para la etapa de extracción de características así mismo se utilizó la distancia euclidiana para el reconocimiento. Ambas biometrías son combinadas de forma lineal mediante la normalización z-score, que permite asignar pesos distintos en un amplio rango de valores, siendo la del rostro la de mayor rango con respecto a la de la voz, debido a su mayor robustez en el proceso de la adquisición. Los resultados obtenidos mediante la experimentación han demostrado que con el sistema bimodal se obtiene un 95.63% de acierto en la identificación de personas. Así mismo el porcentaje de acierto de la voz alcanzó un 90.35%, mayor al obtenido al porcentaje de acierto del rostro, el cual fue de 89%. Por consecuencia, los resultados demuestran que los sistemas bimodales son más robustos que los sistemas unimodales al lograr un mejor desempeño en términos de seguridad. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).