Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio
Descripción del Articulo
Solicitud de envío manuscrito de artículo científico.
Autores: | , |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2020 |
Institución: | Universidad Peruana de Ciencias Aplicadas |
Repositorio: | UPC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorioacademico.upc.edu.pe:10757/652711 |
Enlace del recurso: | http://doi.org/10.19083/tesis/652711 http://hdl.handle.net/10757/652711 |
Nivel de acceso: | acceso embargado |
Materia: | Modelo psicoacústico Redes neuronales Señales de audio Nivel de presión sonora Encoder Multiscale convolutional neural networks Audio signal Sound pressure level |
id |
UUPC_3ee5972c9104407209686627f7611a1f |
---|---|
oai_identifier_str |
oai:repositorioacademico.upc.edu.pe:10757/652711 |
network_acronym_str |
UUPC |
network_name_str |
UPC-Institucional |
repository_id_str |
2670 |
dc.title.en_US.fl_str_mv |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
dc.title.alternative.en_US.fl_str_mv |
Convolutional neural networks applied to the emulation of the psychoacoustic model for MPEG-1, Layer I audio signal encoders |
title |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
spellingShingle |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio Sanchez Huapaya, Alonso Sebastián Modelo psicoacústico Redes neuronales Señales de audio Nivel de presión sonora Encoder Multiscale convolutional neural networks Audio signal Sound pressure level |
title_short |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
title_full |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
title_fullStr |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
title_full_unstemmed |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
title_sort |
Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio |
author |
Sanchez Huapaya, Alonso Sebastián |
author_facet |
Sanchez Huapaya, Alonso Sebastián Serpa Pinillos, Sergio André |
author_role |
author |
author2 |
Serpa Pinillos, Sergio André |
author2_role |
author |
dc.contributor.advisor.fl_str_mv |
Kemper Vásquez, Guillermo Leopoldo |
dc.contributor.author.fl_str_mv |
Sanchez Huapaya, Alonso Sebastián Serpa Pinillos, Sergio André |
dc.subject.en_US.fl_str_mv |
Modelo psicoacústico Redes neuronales Señales de audio Nivel de presión sonora Encoder Multiscale convolutional neural networks Audio signal Sound pressure level |
topic |
Modelo psicoacústico Redes neuronales Señales de audio Nivel de presión sonora Encoder Multiscale convolutional neural networks Audio signal Sound pressure level |
description |
Solicitud de envío manuscrito de artículo científico. |
publishDate |
2020 |
dc.date.accessioned.none.fl_str_mv |
2020-09-11T05:28:49Z |
dc.date.available.none.fl_str_mv |
2020-09-11T05:28:49Z |
dc.date.issued.fl_str_mv |
2020-08-26 |
dc.type.en_US.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.other.es_PE.fl_str_mv |
Tesis |
dc.type.coar.es_PE.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
format |
bachelorThesis |
dc.identifier.doi.es_PE.fl_str_mv |
http://doi.org/10.19083/tesis/652711 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10757/652711 |
dc.identifier.isni.none.fl_str_mv |
0000 0001 2196 144X |
url |
http://doi.org/10.19083/tesis/652711 http://hdl.handle.net/10757/652711 |
identifier_str_mv |
0000 0001 2196 144X |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/embargoedAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.coar.es_PE.fl_str_mv |
http://purl.org/coar/access_right/c_f1cf |
eu_rights_str_mv |
embargoedAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_f1cf |
dc.format.en_US.fl_str_mv |
application/pdf application/epub application/msword |
dc.publisher.en_US.fl_str_mv |
Universidad Peruana de Ciencias Aplicadas (UPC) |
dc.publisher.country.es_PE.fl_str_mv |
PE |
dc.source.es_PE.fl_str_mv |
Universidad Peruana de Ciencias Aplicadas (UPC) Repositorio Académico - UPC |
dc.source.none.fl_str_mv |
reponame:UPC-Institucional instname:Universidad Peruana de Ciencias Aplicadas instacron:UPC |
instname_str |
Universidad Peruana de Ciencias Aplicadas |
instacron_str |
UPC |
institution |
UPC |
reponame_str |
UPC-Institucional |
collection |
UPC-Institucional |
bitstream.url.fl_str_mv |
https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/16/Sanchez_HA.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/13/Sanchez_HA_Resumen.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/15/Sanchez_HA.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/18/Sanchez_HA_Ficha.pdf.jpg https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/12/Sanchez_HA_Resumen.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/14/Sanchez_HA.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/17/Sanchez_HA_Ficha.pdf.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/11/Sanchez_HA_Resumen.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/3/Sanchez_HA.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/4/Sanchez_HA.docx https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/5/Sanchez_HA_Ficha.pdf https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/2/license.txt https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/1/license_rdf |
bitstream.checksum.fl_str_mv |
be51ba4d58f4f659888814446bf0d47d 7dd7b5e7866a03cb906d73faeb651d6c f4531981a0547e4269c1bda68730887e 59bca90f3a2c36eae984adccdfec8210 e2d1f734979252fd7b78578e48c885fb 9405d2ecbf37c3aabdc1f494d3de3316 e1c06d85ae7b8b032bef47e42e4c08f9 c66fe7d5f4197bf6cfe8b9edc0bd7569 fb3090786977f7333743de50e6fb74f6 33a4499c608a20d8dd397d97ae752a5b 81f766914039b954fca8171a31fbe219 8a4605be74aa9ea9d79846c1fba20a33 934f4ca17e109e0a05eaeaba504d7ce4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio académico upc |
repository.mail.fl_str_mv |
upc@openrepository.com |
_version_ |
1839090228070973440 |
spelling |
ce87b607f8743a5c60124a14515a937c500Kemper Vásquez, Guillermo Leopoldo8da78f3d57fc687bdc7bcaba0c0ef5f3500f7f1a390a9396307676b0949a17a740c500Sanchez Huapaya, Alonso SebastiánSerpa Pinillos, Sergio André2020-09-11T05:28:49Z2020-09-11T05:28:49Z2020-08-26http://doi.org/10.19083/tesis/652711http://hdl.handle.net/10757/6527110000 0001 2196 144XSolicitud de envío manuscrito de artículo científico.El presente trabajo propone 4 alternativas de codificadores inspirados en el codificador MPEG-1, capa I, descrito en el estándar ISO/IEC 11172-3. El problema que se intenta resolver es el de requerir definir un modelo psicoacústico explícitamente para lograr codificar audio, reemplazándolo por redes neuronales. Todas las alternativas de codificador están basadas en redes neuronales convolucionales multiescala (MCNN) que emulan el modelo psicoacústico 1 del codificador mencionado. Las redes tienen 32 entradas que corresponden a las 32 subbandas del nivel de presión sonora (SPL – sound pressure level), y una única salida que corresponde a una de las 32 subbandas de o bien la relación señal a máscara (SMR) o bien el vector de asignación de bits. Es decir, un codificador está compuesto de un conjunto de 32 redes neuronales. La validación empleó los 10 primeros segundos de 15 canciones elegidas aleatoriamente de 10 géneros musicales distintos. Se comparó la calidad de las señales de audio generadas por cada codificador contra la de MPEG-1, capa I, mediante la métrica de ODG. El codificador cuya entrada es el SPL y cuya salida es la SMR, planteado por Guillermo Kemper, obtuvo los mejores resultados al realizar la comparación para 96 kbps y 192 kbps. El codificador denominado “SBU1” obtuvo los mejores resultados para 128 kbps.The present work proposes 4 encoder alternatives, inspired in the MPEG-1, layer I encoder described in the ISO/IEC 11172-3 standard. The problem addressed here is the requirement of explicitly defining a psychoacoustic model to code audio, instead replacing it by neural networks. All the proposals are based on multiscale convolutional neural networks (MCNN) that emulate the psychoacoustic model 1 of the referred encoder. The networks have 32 inputs that map the 32 subbands of the sound pressure level (SPL), and a single output that corresponds to each of the 32 subbands of either the signal-to-mask ratio (SMR) or the bit allocation vector. Thus, an encoder is composed of a set of 32 neural networks. The validation process took the first 10 seconds of 15 randomly chosen songs of 10 different musical genres. The audio signal quality of the proposed encoders was compared to that of the MPEG-1, layer I encoder, using the ODG metric. The encoder whose input is the SPL and whose output is the SMR, proposed by Guillermo Kemper, yielded the best results for 96 kbps and 192 kbps. The encoder named “SBU1” had the best results for 128 kbps.Tesisapplication/pdfapplication/epubapplication/mswordspaUniversidad Peruana de Ciencias Aplicadas (UPC)PEinfo:eu-repo/semantics/embargoedAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/http://purl.org/coar/access_right/c_f1cfUniversidad Peruana de Ciencias Aplicadas (UPC)Repositorio Académico - UPCreponame:UPC-Institucionalinstname:Universidad Peruana de Ciencias Aplicadasinstacron:UPCModelo psicoacústicoRedes neuronalesSeñales de audioNivel de presión sonoraEncoderMultiscale convolutional neural networksAudio signalSound pressure levelAplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audioConvolutional neural networks applied to the emulation of the psychoacoustic model for MPEG-1, Layer I audio signal encodersinfo:eu-repo/semantics/bachelorThesisTesishttp://purl.org/coar/resource_type/c_7a1fSUNEDUUniversidad Peruana de Ciencias Aplicadas (UPC). Facultad de IngenieríaLicenciaturaIngeniería ElectrónicaIngeniero electrónico2020-09-11T22:19:38Zhttps://purl.org/pe-repo/renati/type#tesishttps://purl.org/pe-repo/renati/nivel#tituloProfesionalCONVERTED2_37136262090-08-26Sanchez_HA.pdfSanchez_HA.pdfapplication/pdf3789851https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/16/Sanchez_HA.pdfbe51ba4d58f4f659888814446bf0d47dMD516falseTHUMBNAILSanchez_HA_Resumen.pdf.jpgSanchez_HA_Resumen.pdf.jpgGenerated Thumbnailimage/jpeg36919https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/13/Sanchez_HA_Resumen.pdf.jpg7dd7b5e7866a03cb906d73faeb651d6cMD513falseSanchez_HA.pdf.jpgSanchez_HA.pdf.jpgGenerated Thumbnailimage/jpeg31418https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/15/Sanchez_HA.pdf.jpgf4531981a0547e4269c1bda68730887eMD515false2090-08-26Sanchez_HA_Ficha.pdf.jpgSanchez_HA_Ficha.pdf.jpgGenerated Thumbnailimage/jpeg91562https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/18/Sanchez_HA_Ficha.pdf.jpg59bca90f3a2c36eae984adccdfec8210MD518falseTEXTSanchez_HA_Resumen.pdf.txtSanchez_HA_Resumen.pdf.txtExtracted texttext/plain4590https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/12/Sanchez_HA_Resumen.pdf.txte2d1f734979252fd7b78578e48c885fbMD512falseSanchez_HA.pdf.txtSanchez_HA.pdf.txtExtracted texttext/plain134085https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/14/Sanchez_HA.pdf.txt9405d2ecbf37c3aabdc1f494d3de3316MD514false2090-08-26Sanchez_HA_Ficha.pdf.txtSanchez_HA_Ficha.pdf.txtExtracted texttext/plain2https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/17/Sanchez_HA_Ficha.pdf.txte1c06d85ae7b8b032bef47e42e4c08f9MD517falseORIGINALSanchez_HA_Resumen.pdfSanchez_HA_Resumen.pdfapplication/pdf115643https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/11/Sanchez_HA_Resumen.pdfc66fe7d5f4197bf6cfe8b9edc0bd7569MD511trueSanchez_HA.pdfSanchez_HA.pdfapplication/pdf1708231https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/3/Sanchez_HA.pdffb3090786977f7333743de50e6fb74f6MD53false2090-08-26Sanchez_HA.docxSanchez_HA.docxapplication/vnd.openxmlformats-officedocument.wordprocessingml.document1937814https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/4/Sanchez_HA.docx33a4499c608a20d8dd397d97ae752a5bMD54false2090-08-26Sanchez_HA_Ficha.pdfSanchez_HA_Ficha.pdfapplication/pdf861623https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/5/Sanchez_HA_Ficha.pdf81f766914039b954fca8171a31fbe219MD55falseLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52falseCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://repositorioacademico.upc.edu.pe/bitstream/10757/652711/1/license_rdf934f4ca17e109e0a05eaeaba504d7ce4MD51false10757/652711oai:repositorioacademico.upc.edu.pe:10757/6527112025-07-20 19:03:30.61Repositorio académico upcupc@openrepository.comTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
12.907318 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).