Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov

Descripción del Articulo

El habla es un tipo de señal complicada producto del resultado de una serie de trans¬formaciones ocurridas en diferentes niveles: semántica, lingüística y acústica. Estas trans¬formaciones conducen a diferencias en las características de un individuo ampliamente estudiadas por la Biometría. La ident...

Descripción completa

Detalles Bibliográficos
Autores: Auccapuma Gamarra, Jhon Dennis, Mamani Condori, Errol Wilderd
Formato: tesis de grado
Fecha de Publicación:2016
Institución:Universidad Nacional de San Antonio Abad del Cusco
Repositorio:UNSAAC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsaac.edu.pe:20.500.12918/2466
Enlace del recurso:http://hdl.handle.net/20.500.12918/2466
Nivel de acceso:acceso cerrado
Materia:Biometría
MFCC
HMM
VQ
K-means
http://purl.org/pe-repo/ocde/ford#2.02.03
id RUNS_ba26130e061c3afa4e0c802613cf7797
oai_identifier_str oai:repositorio.unsaac.edu.pe:20.500.12918/2466
network_acronym_str RUNS
network_name_str UNSAAC-Institucional
repository_id_str
dc.title.es_PE.fl_str_mv Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
title Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
spellingShingle Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
Auccapuma Gamarra, Jhon Dennis
Biometría
MFCC
HMM
VQ
K-means
http://purl.org/pe-repo/ocde/ford#2.02.03
title_short Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
title_full Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
title_fullStr Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
title_full_unstemmed Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
title_sort Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markov
author Auccapuma Gamarra, Jhon Dennis
author_facet Auccapuma Gamarra, Jhon Dennis
Mamani Condori, Errol Wilderd
author_role author
author2 Mamani Condori, Errol Wilderd
author2_role author
dc.contributor.advisor.fl_str_mv Villafuerte Serna, Rony
dc.contributor.author.fl_str_mv Auccapuma Gamarra, Jhon Dennis
Mamani Condori, Errol Wilderd
dc.subject.es_PE.fl_str_mv Biometría
MFCC
HMM
VQ
K-means
topic Biometría
MFCC
HMM
VQ
K-means
http://purl.org/pe-repo/ocde/ford#2.02.03
dc.subject.ocde.none.fl_str_mv http://purl.org/pe-repo/ocde/ford#2.02.03
description El habla es un tipo de señal complicada producto del resultado de una serie de trans¬formaciones ocurridas en diferentes niveles: semántica, lingüística y acústica. Estas trans¬formaciones conducen a diferencias en las características de un individuo ampliamente estudiadas por la Biometría. La identificación de locutor (identificar quién es la persona que emitió la voz) en síntesis, es un análisis detallado de las características del habla de cada individuo basado en puntuaciones. En este contexto este proyecto se centró en la identificación de locutor mediante Coeficientes Cepstrales en las Frecuencias Mel o Mel Frequency Cepstral Cofficients (MPCC) y Modelos Ocultos de Markov o Hidden Markov Model (HMM). Iniciando el procesamiento de voz, para obtener las características más importantes de un individuo se utilizó Coeficientes Cepstrales en las Frecuencias Mel , debido a que en la actualidad otorgan los mejores resultarlos en el análisis Cepstral según el estado de arte, posteriormente; se hiso uso de la cuantificación vectorial o Vector quan- tization (VQ) que por medio del algoritmo de clasificación K-means ,divide el conjunto de vectores característicos en un número determinado de vectores representativos, los cuales mejoran sustancialmente el tiempo de procesamiento. Para el modelamiento de los de vectores representativos se hiso uso de los Modelos Ocultos de Markov; los HMMs son en¬trenados para generar el modelo oculto del locutor el cual estará formado por la secuencia de observaciones (símbolos de observación) y la secuencia de estados, para luego encontrar la secuencia de estados con mayor probabilidad, la identidad de un locutor se determi¬na mediante el modelo que obtenga la máxima probabilidad (puntuación) determinado por el algoritmo de Viterbi. Adicionalmente se estimaron los parámetros de los módulos de pre procesamiento, extracción de características, pos procesamiento v el cuantificador vectorial basado en codebooks; para sugerir el tamaño de codebook más adecuado y los parámetros con los que se obtenga buenos resultados en la identificación de un locutor ;para cada módulo se describió la teoría y la implementación del código fuente en Java. Finalmente, nuestros resultados experimentales muestran los parámetros con los que se obtienen buenos resultados teniendo un 90% de aceptación para un grupo reducido y cerrado de 5 personas en condiciones reales (con ruido de fondo), con una tendencia de decrecimiento a medida que aumenta el número de población y una mayor efectividad en condiciones ideales (ambiente cerrado y sin ruido de fondo).
publishDate 2016
dc.date.accessioned.none.fl_str_mv 2017-12-27T15:32:47Z
dc.date.available.none.fl_str_mv 2017-12-27T15:32:47Z
dc.date.issued.fl_str_mv 2016
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.other.none.fl_str_mv 253T20160079
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12918/2466
identifier_str_mv 253T20160079
url http://hdl.handle.net/20.500.12918/2466
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/closedAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv closedAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.en_US.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Antonio Abad del Cusco
dc.publisher.country.none.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Antonio Abad del Cusco
Repositorio Institucional - UNSAAC
dc.source.none.fl_str_mv reponame:UNSAAC-Institucional
instname:Universidad Nacional de San Antonio Abad del Cusco
instacron:UNSAAC
instname_str Universidad Nacional de San Antonio Abad del Cusco
instacron_str UNSAAC
institution UNSAAC
reponame_str UNSAAC-Institucional
collection UNSAAC-Institucional
bitstream.url.fl_str_mv http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/2466/1/253T20160079.pdf
http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/2466/2/253T20160079.pdf.txt
bitstream.checksum.fl_str_mv 66584bedc62dd076e6bd5deffb5db955
6d1f10b1be703171de2d751a0562452a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv DSpace de la UNSAAC
repository.mail.fl_str_mv soporte.repositorio@unsaac.edu.pe
_version_ 1742881470502928384
spelling Villafuerte Serna, RonyAuccapuma Gamarra, Jhon DennisMamani Condori, Errol Wilderd2017-12-27T15:32:47Z2017-12-27T15:32:47Z2016253T20160079http://hdl.handle.net/20.500.12918/2466El habla es un tipo de señal complicada producto del resultado de una serie de trans¬formaciones ocurridas en diferentes niveles: semántica, lingüística y acústica. Estas trans¬formaciones conducen a diferencias en las características de un individuo ampliamente estudiadas por la Biometría. La identificación de locutor (identificar quién es la persona que emitió la voz) en síntesis, es un análisis detallado de las características del habla de cada individuo basado en puntuaciones. En este contexto este proyecto se centró en la identificación de locutor mediante Coeficientes Cepstrales en las Frecuencias Mel o Mel Frequency Cepstral Cofficients (MPCC) y Modelos Ocultos de Markov o Hidden Markov Model (HMM). Iniciando el procesamiento de voz, para obtener las características más importantes de un individuo se utilizó Coeficientes Cepstrales en las Frecuencias Mel , debido a que en la actualidad otorgan los mejores resultarlos en el análisis Cepstral según el estado de arte, posteriormente; se hiso uso de la cuantificación vectorial o Vector quan- tization (VQ) que por medio del algoritmo de clasificación K-means ,divide el conjunto de vectores característicos en un número determinado de vectores representativos, los cuales mejoran sustancialmente el tiempo de procesamiento. Para el modelamiento de los de vectores representativos se hiso uso de los Modelos Ocultos de Markov; los HMMs son en¬trenados para generar el modelo oculto del locutor el cual estará formado por la secuencia de observaciones (símbolos de observación) y la secuencia de estados, para luego encontrar la secuencia de estados con mayor probabilidad, la identidad de un locutor se determi¬na mediante el modelo que obtenga la máxima probabilidad (puntuación) determinado por el algoritmo de Viterbi. Adicionalmente se estimaron los parámetros de los módulos de pre procesamiento, extracción de características, pos procesamiento v el cuantificador vectorial basado en codebooks; para sugerir el tamaño de codebook más adecuado y los parámetros con los que se obtenga buenos resultados en la identificación de un locutor ;para cada módulo se describió la teoría y la implementación del código fuente en Java. Finalmente, nuestros resultados experimentales muestran los parámetros con los que se obtienen buenos resultados teniendo un 90% de aceptación para un grupo reducido y cerrado de 5 personas en condiciones reales (con ruido de fondo), con una tendencia de decrecimiento a medida que aumenta el número de población y una mayor efectividad en condiciones ideales (ambiente cerrado y sin ruido de fondo).Tesisapplication/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/closedAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Antonio Abad del CuscoRepositorio Institucional - UNSAACreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACBiometríaMFCCHMMVQK-meanshttp://purl.org/pe-repo/ocde/ford#2.02.03Identificación de locutor usando codebooks de coeficientes cepstrales en las frecuencias de Mel y modelos ocultos de Markovinfo:eu-repo/semantics/bachelorThesisSUNEDUIngeniero Informático y de SistemasUniversidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y MecánicaTítulo profesionalIngeniería Informática y de Sistemas4713391546511982https://orcid.org/0000-0003-4607-522X23957778http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#tituloProfesional612296ORIGINAL253T20160079.pdfapplication/pdf72866http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/2466/1/253T20160079.pdf66584bedc62dd076e6bd5deffb5db955MD51TEXT253T20160079.pdf.txt253T20160079.pdf.txtExtracted texttext/plain3355http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/2466/2/253T20160079.pdf.txt6d1f10b1be703171de2d751a0562452aMD5220.500.12918/2466oai:repositorio.unsaac.edu.pe:20.500.12918/24662021-07-27 21:39:48.215DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe
score 13.987529
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).