End-To-End Deep Learning para el reconocimiento automático del habla

Ramos Lovón, Wilber Roberto

End-To-End Deep Learning para el reconocimiento automático del habla

Descripción del Articulo

Está tesis presenta un análisis del paradigma End-To-End Deep Learning, que proyecta importantes desarrollos en diversas áreas de investigación. Este paradigma ha revolucionado la arquitectura, la implementación y las aplicaciones de los sistemas computacionales que se denominan comúnmente ASR 1 los...

Descripción completa

Detalles Bibliográficos
Autor:	Ramos Lovón, Wilber Roberto
Formato:	tesis de maestría
Fecha de Publicación:	2019
Institución:	Universidad Nacional de San Agustín
Repositorio:	UNSA-Institucional
Lenguaje:	español
OAI Identifier:	oai:repositorio.unsa.edu.pe:20.500.12773/11909
Enlace del recurso:	http://hdl.handle.net/20.500.12773/11909
Nivel de acceso:	acceso abierto
Materia:	Automatic Speech Recognition End-To-End Deep Learning ciencia de la computación matemáticas https://purl.org/pe-repo/ocde/ford#2.11.02

id	UNSA_2c7055c6e17477b02fa8c40ceb289b6c
oai_identifier_str	oai:repositorio.unsa.edu.pe:20.500.12773/11909
network_acronym_str	UNSA
network_name_str	UNSA-Institucional
repository_id_str	4847
dc.title.es_PE.fl_str_mv	End-To-End Deep Learning para el reconocimiento automático del habla
title	End-To-End Deep Learning para el reconocimiento automático del habla
spellingShingle	End-To-End Deep Learning para el reconocimiento automático del habla Ramos Lovón, Wilber Roberto Automatic Speech Recognition End-To-End Deep Learning ciencia de la computación matemáticas https://purl.org/pe-repo/ocde/ford#2.11.02
title_short	End-To-End Deep Learning para el reconocimiento automático del habla
title_full	End-To-End Deep Learning para el reconocimiento automático del habla
title_fullStr	End-To-End Deep Learning para el reconocimiento automático del habla
title_full_unstemmed	End-To-End Deep Learning para el reconocimiento automático del habla
title_sort	End-To-End Deep Learning para el reconocimiento automático del habla
author	Ramos Lovón, Wilber Roberto
author_facet	Ramos Lovón, Wilber Roberto
author_role	author
dc.contributor.advisor.fl_str_mv	Gutierrez Caceres, Juan Carlos
dc.contributor.author.fl_str_mv	Ramos Lovón, Wilber Roberto
dc.subject.es_PE.fl_str_mv	Automatic Speech Recognition End-To-End Deep Learning ciencia de la computación matemáticas
topic	Automatic Speech Recognition End-To-End Deep Learning ciencia de la computación matemáticas https://purl.org/pe-repo/ocde/ford#2.11.02
dc.subject.ocde.es_PE.fl_str_mv	https://purl.org/pe-repo/ocde/ford#2.11.02
description	Está tesis presenta un análisis del paradigma End-To-End Deep Learning, que proyecta importantes desarrollos en diversas áreas de investigación. Este paradigma ha revolucionado la arquitectura, la implementación y las aplicaciones de los sistemas computacionales que se denominan comúnmente ASR 1 los cuales son capaces de reconocer el habla y generar un texto en forma automática que represente lo hablado. Este análisis, se basa en el trabajo del Baidu Research – Silicon Valley AI Lab, denominado Deep Speech [2]. La clave de este enfoque es el entrenamiento de una RNN 2 optimizada, que utiliza GPU 3, así como un conjunto de nuevas técnicas de sintetización que nos permiten obtener una gran cantidad de datos variados para el entrenamiento. Está arquitectura es más simple que los sistemas de voz tradicionales, que se basan en el enfoque estadístico, con arquitecturas de estructura poco profunda como GMM-HMM 4, que tienden a funcionar mal cuando se usan en entornos ruidosos. Por el contrario, Deep Speech no necesita un diccionario de fonemas y tampoco filtros para eliminar el ruido de fondo, la reverberación o la variación de los altavoces, sino que aprende directamente de una función que es robusta. El entrenamiento de los sistemas End-To-End se basa en gradientes descendentes al sistema en su conjunto y están diseñados específicamente para que todos los módulos sean diferenciables. El Deep Speech muestra claramente el esquema de entrenamiento unificado, que aprovecha la mayor parte de la información disponible, teniendo en cuenta las etiquetas (aprendizaje supervisado) y las recompensas (aprendizaje de refuerzo), en lugar de depender solo de la distribución de entrada (pre-entrenamiento no supervisado). Debido a las complejidades involucradas en el paradigma End-To-End Deep Learning, muchas veces es tratado como una caja negra por las personas que lo usan. Sin embargo, para obtener el máximo beneficio, uno debe descubrir el misterio oculto observando la ciencia de la computación y las matemáticas asociadas con él. TensorFlow ha sido elegido por su flexibilidad para fines de investigación y su facilidad de uso. El código presentado en está tesis está disponible y permite probar ejemplos y presentar casos de uso
publishDate	2019
dc.date.accessioned.none.fl_str_mv	2021-02-11T19:14:05Z
dc.date.available.none.fl_str_mv	2021-02-11T19:14:05Z
dc.date.issued.fl_str_mv	2019
dc.type.es_PE.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/20.500.12773/11909
url	http://hdl.handle.net/20.500.12773/11909
dc.language.iso.es_PE.fl_str_mv	spa
language	spa
dc.relation.ispartof.fl_str_mv	SUNEDU
dc.rights.es_PE.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.es_PE.fl_str_mv	application/pdf
dc.publisher.es_PE.fl_str_mv	Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.es_PE.fl_str_mv	PE
dc.source.es_PE.fl_str_mv	Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA
dc.source.none.fl_str_mv	reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA
instname_str	Universidad Nacional de San Agustín
instacron_str	UNSA
institution	UNSA
reponame_str	UNSA-Institucional
collection	UNSA-Institucional
bitstream.url.fl_str_mv	https://repositorio.unsa.edu.pe/bitstreams/7f356ce4-5c68-449c-94be-287477a80616/download https://repositorio.unsa.edu.pe/bitstreams/c1e289e3-3dc8-46ba-8034-05d687d0c7d7/download https://repositorio.unsa.edu.pe/bitstreams/9bc4c24a-fbb8-400b-a7da-8b9e9d4c8a16/download
bitstream.checksum.fl_str_mv	9cd7e2c4f5a15c610ed1a1e500e3348e c52066b9c50a8f86be96c82978636682 9f82fbdfec810c96285bb9c6926cb658
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional UNSA
repository.mail.fl_str_mv	repositorio@unsa.edu.pe
_version_	1828762771933626368
spelling	Gutierrez Caceres, Juan CarlosRamos Lovón, Wilber Roberto2021-02-11T19:14:05Z2021-02-11T19:14:05Z2019Está tesis presenta un análisis del paradigma End-To-End Deep Learning, que proyecta importantes desarrollos en diversas áreas de investigación. Este paradigma ha revolucionado la arquitectura, la implementación y las aplicaciones de los sistemas computacionales que se denominan comúnmente ASR 1 los cuales son capaces de reconocer el habla y generar un texto en forma automática que represente lo hablado. Este análisis, se basa en el trabajo del Baidu Research – Silicon Valley AI Lab, denominado Deep Speech [2]. La clave de este enfoque es el entrenamiento de una RNN 2 optimizada, que utiliza GPU 3, así como un conjunto de nuevas técnicas de sintetización que nos permiten obtener una gran cantidad de datos variados para el entrenamiento. Está arquitectura es más simple que los sistemas de voz tradicionales, que se basan en el enfoque estadístico, con arquitecturas de estructura poco profunda como GMM-HMM 4, que tienden a funcionar mal cuando se usan en entornos ruidosos. Por el contrario, Deep Speech no necesita un diccionario de fonemas y tampoco filtros para eliminar el ruido de fondo, la reverberación o la variación de los altavoces, sino que aprende directamente de una función que es robusta. El entrenamiento de los sistemas End-To-End se basa en gradientes descendentes al sistema en su conjunto y están diseñados específicamente para que todos los módulos sean diferenciables. El Deep Speech muestra claramente el esquema de entrenamiento unificado, que aprovecha la mayor parte de la información disponible, teniendo en cuenta las etiquetas (aprendizaje supervisado) y las recompensas (aprendizaje de refuerzo), en lugar de depender solo de la distribución de entrada (pre-entrenamiento no supervisado). Debido a las complejidades involucradas en el paradigma End-To-End Deep Learning, muchas veces es tratado como una caja negra por las personas que lo usan. Sin embargo, para obtener el máximo beneficio, uno debe descubrir el misterio oculto observando la ciencia de la computación y las matemáticas asociadas con él. TensorFlow ha sido elegido por su flexibilidad para fines de investigación y su facilidad de uso. El código presentado en está tesis está disponible y permite probar ejemplos y presentar casos de usoTesisapplication/pdfhttp://hdl.handle.net/20.500.12773/11909spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAAutomatic Speech RecognitionEnd-To-End Deep Learningciencia de la computaciónmatemáticashttps://purl.org/pe-repo/ocde/ford#2.11.02End-To-End Deep Learning para el reconocimiento automático del hablainfo:eu-repo/semantics/masterThesisSUNEDU30677357https://orcid.org/0000-0001-6379-869529525079611107Gutiérrez Cáceres, Juan CarlosPuente de la Vega, Karim GuevaraLópez del Álamo, Cristian Joséhttp://purl.org/pe-repo/renati/level#maestrohttp://purl.org/pe-repo/renati/type#tesisMaestría en Ciencias: Informática, con mención en Tecnologías de la Información y Comunicación en Gestión y EducaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosMaestríaMaestro en Ciencias: Informática, con mención en Tecnologías de la Información y Comunicación en Gestión y EducaciónORIGINALUPralowr.pdfUPralowr.pdfapplication/pdf23879009https://repositorio.unsa.edu.pe/bitstreams/7f356ce4-5c68-449c-94be-287477a80616/download9cd7e2c4f5a15c610ed1a1e500e3348eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81327https://repositorio.unsa.edu.pe/bitstreams/c1e289e3-3dc8-46ba-8034-05d687d0c7d7/downloadc52066b9c50a8f86be96c82978636682MD52TEXTUPralowr.pdf.txtUPralowr.pdf.txtExtracted texttext/plain197892https://repositorio.unsa.edu.pe/bitstreams/9bc4c24a-fbb8-400b-a7da-8b9e9d4c8a16/download9f82fbdfec810c96285bb9c6926cb658MD5320.500.12773/11909oai:repositorio.unsa.edu.pe:20.500.12773/119092022-05-29 11:32:54.029http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe77u/TGljZW5jaWEgZGUgVXNvCiAKRWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCwgZGlmdW5kZSBtZWRpYW50ZSBsb3MgdHJhYmFqb3MgZGUgaW52ZXN0aWdhY2nDs24gcHJvZHVjaWRvcyBwb3IgbG9zIG1pZW1icm9zIGRlIGxhIHVuaXZlcnNpZGFkLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIGVzIG5lY2VzYXJpbyBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCkVsIG5lY2VzYXJpbyByZWNvbm9jaW1pZW50byBkZSBsYSBhdXRvcsOtYSBkZSBsYSBvYnJhLCBpZGVudGlmaWNhbmRvIG9wb3J0dW5hIHkgY29ycmVjdGFtZW50ZSBhIGxhIHBlcnNvbmEgcXVlIHBvc2VhIGxvcyBkZXJlY2hvcyBkZSBhdXRvci4KCk5vIGVzdMOhIHBlcm1pdGlkbyBlbCB1c28gaW5kZWJpZG8gZGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gY29uIGZpbmVzIGRlIGx1Y3JvIG8gY3VhbHF1aWVyIHRpcG8gZGUgYWN0aXZpZGFkIHF1ZSBwcm9kdXpjYSBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgdW5pdmVyc2lkYWQgbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgMTg5wrAgZGVsIGRlY3JldG8gbGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZGVyZWNob3MgZGUgYXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA1IChMZXkgTsKwMjg1MTcpLCBEZWNyZXRvIExlZ2lzbGF0aXZvIHF1ZSBhcHJ1ZWJhIGxhIG1vZGlmaWNhY2nDs24gZGVsIERlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggKEQuTC4gTsKwMTA3NikuCg==
score	13.982926

End-To-End Deep Learning para el reconocimiento automático del habla

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

End-To-End Deep Learning para el reconocimiento automático del habla

Descripción del Articulo

Ejemplares Similares