Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas

Descripción del Articulo

Las proteínas repetidas son proteínas no globulares caracterizadas por la presencia de repeticiones a nivel de secuencia y estructura. Pueden ser de 5 clases, cada una con un número variable de subclases. Estas proteínas son relevantes porque están relacionadas con una diversidad de enfermedades. Su...

Descripción completa

Detalles Bibliográficos
Autor: Muroya Tokushima, Luis Fernando
Formato: tesis de maestría
Fecha de Publicación:2021
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/21423
Enlace del recurso:http://hdl.handle.net/20.500.12404/21423
Nivel de acceso:acceso abierto
Materia:Proteinas--Clasificación automática
Proteinas--Estructura
Proteinas--Identificación--Automatización
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_accac190e92b2c43f0a901b9b3ee8354
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/21423
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
title Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
spellingShingle Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
Muroya Tokushima, Luis Fernando
Proteinas--Clasificación automática
Proteinas--Estructura
Proteinas--Identificación--Automatización
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
title_full Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
title_fullStr Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
title_full_unstemmed Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
title_sort Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidas
author Muroya Tokushima, Luis Fernando
author_facet Muroya Tokushima, Luis Fernando
author_role author
dc.contributor.advisor.fl_str_mv Hirsh Martinez, Layla
dc.contributor.author.fl_str_mv Muroya Tokushima, Luis Fernando
dc.subject.es_ES.fl_str_mv Proteinas--Clasificación automática
Proteinas--Estructura
Proteinas--Identificación--Automatización
topic Proteinas--Clasificación automática
Proteinas--Estructura
Proteinas--Identificación--Automatización
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Las proteínas repetidas son proteínas no globulares caracterizadas por la presencia de repeticiones a nivel de secuencia y estructura. Pueden ser de 5 clases, cada una con un número variable de subclases. Estas proteínas son relevantes porque están relacionadas con una diversidad de enfermedades. Su correcta clasificación es parte fundamental para su estudio; sin embargo, la anotación manual de todas las estructuras de proteínas conocidas es una tarea que es logísticamente imposible completar. Por ello, la automatización de esta tarea es muy importante. En el presente trabajo, se desarrolló una herramienta para la identificación y clasificación de repeticiones de clase IV. Esta herramienta fue construida por el acoplamiento de dos módulos: uno de filtro y otro de clasificación. El primero fue construido reutilizando una red neuronal convolucional entrenada para la detección de simetrías rotacionales en la estructura de una proteína. Su uso estuvo fundamentado en el hecho que las repeticiones clase IV son de estructura cerrada, por lo que la presencia de simetrías rotacionales era altamente probable. Para el módulo de clasificación se transformó la información estructural en imágenes, por medio del cálculo y superposición de tres matrices. Estas imágenes fueron usadas para aplicar una técnica de transferencia de aprendizaje a una red Densenet, seleccionada luego de un análisis cualitativo y cuantitativo. Como resultado, el clasificador obtenido logró una exactitud de 89.8% sobre una muestra de 658 cadenas de proteínas. Los anteriores módulos fueron integrados en un servicio web construido sobre Flask. Se construyó una aplicación de una página (SPA) para hacer disponible dicho servicio en una forma amigable con el usuario. Dicha aplicación fue desplegada en la nube para su acceso.
publishDate 2021
dc.date.created.none.fl_str_mv 2021
dc.date.accessioned.none.fl_str_mv 2022-01-26T15:36:09Z
dc.date.available.none.fl_str_mv 2022-01-26T15:36:09Z
dc.date.issued.fl_str_mv 2022-01-26
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/21423
url http://hdl.handle.net/20.500.12404/21423
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/319ed9ba-fac3-435f-86d0-1705e3533d06/download
https://tesis.pucp.edu.pe/bitstreams/820d34c8-e35c-4fa6-83fc-31c8be6b527b/download
https://tesis.pucp.edu.pe/bitstreams/99f5010a-add7-457b-b70c-9b8eaf30288c/download
https://tesis.pucp.edu.pe/bitstreams/1fd8db51-2919-4743-981d-51cdd18b695d/download
bitstream.checksum.fl_str_mv 04a188c12aeb68bdff6835eceed9e706
5a4ffbc01f1b5eb70a835dac0d501661
8a4605be74aa9ea9d79846c1fba20a33
ac5d07873671af4acd10b08da1a1fc37
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737115162738688
spelling Hirsh Martinez, LaylaMuroya Tokushima, Luis Fernando2022-01-26T15:36:09Z2022-01-26T15:36:09Z20212022-01-26http://hdl.handle.net/20.500.12404/21423Las proteínas repetidas son proteínas no globulares caracterizadas por la presencia de repeticiones a nivel de secuencia y estructura. Pueden ser de 5 clases, cada una con un número variable de subclases. Estas proteínas son relevantes porque están relacionadas con una diversidad de enfermedades. Su correcta clasificación es parte fundamental para su estudio; sin embargo, la anotación manual de todas las estructuras de proteínas conocidas es una tarea que es logísticamente imposible completar. Por ello, la automatización de esta tarea es muy importante. En el presente trabajo, se desarrolló una herramienta para la identificación y clasificación de repeticiones de clase IV. Esta herramienta fue construida por el acoplamiento de dos módulos: uno de filtro y otro de clasificación. El primero fue construido reutilizando una red neuronal convolucional entrenada para la detección de simetrías rotacionales en la estructura de una proteína. Su uso estuvo fundamentado en el hecho que las repeticiones clase IV son de estructura cerrada, por lo que la presencia de simetrías rotacionales era altamente probable. Para el módulo de clasificación se transformó la información estructural en imágenes, por medio del cálculo y superposición de tres matrices. Estas imágenes fueron usadas para aplicar una técnica de transferencia de aprendizaje a una red Densenet, seleccionada luego de un análisis cualitativo y cuantitativo. Como resultado, el clasificador obtenido logró una exactitud de 89.8% sobre una muestra de 658 cadenas de proteínas. Los anteriores módulos fueron integrados en un servicio web construido sobre Flask. Se construyó una aplicación de una página (SPA) para hacer disponible dicho servicio en una forma amigable con el usuario. Dicha aplicación fue desplegada en la nube para su acceso.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/pe/Proteinas--Clasificación automáticaProteinas--EstructuraProteinas--Identificación--Automatizaciónhttps://purl.org/pe-repo/ocde/ford#1.02.00Identificación y clasificación automática de repeticiones en estructuras de proteínas repetidasinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación40329236https://orcid.org/0000-0002-8215-671645215207611087Beltran Castañon, Cesar ArmandoHirsh Martínez, LaylaVillanueva Talavera, Edwin Rafaelhttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALMUROYA_TOKUSHIMA_LUIS_IDENTIFICACION_CLASIFICACION_AUTOMATICA.pdfMUROYA_TOKUSHIMA_LUIS_IDENTIFICACION_CLASIFICACION_AUTOMATICA.pdfTexto completoapplication/pdf1982732https://tesis.pucp.edu.pe/bitstreams/319ed9ba-fac3-435f-86d0-1705e3533d06/download04a188c12aeb68bdff6835eceed9e706MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://tesis.pucp.edu.pe/bitstreams/820d34c8-e35c-4fa6-83fc-31c8be6b527b/download5a4ffbc01f1b5eb70a835dac0d501661MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/99f5010a-add7-457b-b70c-9b8eaf30288c/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILMUROYA_TOKUSHIMA_LUIS_IDENTIFICACION_CLASIFICACION_AUTOMATICA.pdf.jpgMUROYA_TOKUSHIMA_LUIS_IDENTIFICACION_CLASIFICACION_AUTOMATICA.pdf.jpgIM Thumbnailimage/jpeg12601https://tesis.pucp.edu.pe/bitstreams/1fd8db51-2919-4743-981d-51cdd18b695d/downloadac5d07873671af4acd10b08da1a1fc37MD54falseAnonymousREAD20.500.12404/21423oai:tesis.pucp.edu.pe:20.500.12404/214232024-05-29 10:16:59.883http://creativecommons.org/licenses/by/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.958958
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).