Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen

Descripción del Articulo

El alineamiento de secuencias figura como una de las prácticas predominantes en la Bioinformática. Se crearon métodos basados en alineación como BLAST, BLAST+, FAS- TA, HMMER, RapSearch, que se encargaron inicialmente de esta tarea. Sin embargo, todos estos métodos son lentos en el tiempo de procesa...

Descripción completa

Detalles Bibliográficos
Autor: Prado Cussi, Daniel Augusto
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/17943
Enlace del recurso:https://hdl.handle.net/20.500.12773/17943
Nivel de acceso:acceso abierto
Materia:Métodos descriptores de imágenes
alineamiento de secuencias
bioinformática
https://purl.org/pe-repo/ocde/ford#2.02.04
id UNSA_61ec3da38a05c93b6df737638dfed406
oai_identifier_str oai:repositorio.unsa.edu.pe:20.500.12773/17943
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
spelling Perez Vera, YasielPrado Cussi, Daniel Augusto2024-06-03T19:07:28Z2024-06-03T19:07:28Z2024El alineamiento de secuencias figura como una de las prácticas predominantes en la Bioinformática. Se crearon métodos basados en alineación como BLAST, BLAST+, FAS- TA, HMMER, RapSearch, que se encargaron inicialmente de esta tarea. Sin embargo, todos estos métodos son lentos en el tiempo de procesamiento además, de no ser útiles para los genomas, ya que analizar miles de estos resulta excesivamente costoso y caro para su capacidad. Esto lleva a la existencia y creación de múltiples métodos libres de alineación para la comparación de secuencias. En el presente trabajo, se examinan los métodos Kameris y Castor, siendo estos libres de alineación para la clasificación del genoma de ADN. Estos métodos son comparados con las reconocidas CNNs Resnet-50, Inception, VGG19, VGG16. Adicionalmente, se lleva a cabo una comparación con métodos descriptores de imágenes que son LBP, MLBP, GLCM, y FOS, que a su vez utilizan clasificadores como son KNN, RFC, y SVM. Podemos concluir que en la comparativa las CNNs tuvieron los resultados con menos relevancia, siendo superadas por Castor y Kameris, en el caso donde no emplearon reducción de dimensionalidad y características, siendo en ese escenario donde tuvieron resultados en f1-score aceptables. Además, los experimentos indican que los métodos descriptores de imágenes empleando SVM tuvieron el mejor desempeño en comparativa a los anteriores. Los métodos descriptores de imágenes superaron a los métodos de vanguardia (Castor y Kameris) en bds como plantas, h1vsubpool, vertebrados e insectos demostrando una perspectiva prometedora para la clasificación de especies de ADN. En última instancia, según los resultados experimentales, los resultados obtenidos con 6-mer y 7-mer fueron inferiores al uso de 5-mer (utilizado principalmente por Castor y Kameris), que se destacó. Concluimos que los métodos descriptores (especialmente FOS) usando SVM son los mejores para clasificar secuencias de ADN.application/pdfhttps://hdl.handle.net/20.500.12773/17943spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAMétodos descriptores de imágenesalineamiento de secuenciasbioinformáticahttps://purl.org/pe-repo/ocde/ford#2.02.04Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imageninfo:eu-repo/semantics/bachelorThesisSUNEDU49087697https://orcid.org/0000-0001-9421-952973808254612076Hinojosa Cardenas, EdwardLaura Ochoa, Leticia MarisolPerez Vera, Yasielhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisIngeniería de SistemasUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosIngeniero de SistemasTHUMBNAILPDF.jpgimage/jpeg42566https://repositorio.unsa.edu.pe/bitstreams/2ac7a4c8-a848-4e79-921e-3297109fb4f0/downloadeaa4ac57f1dcfae112ab6dd5b8fb68c9MD54ORIGINALTesis.pdfapplication/pdf1801766https://repositorio.unsa.edu.pe/bitstreams/cc718540-edf9-48a9-acb7-9946bfc663d7/downloadfe0c8e830e67432beaec6278001ba78aMD51Reporte de Similitud.pdfapplication/pdf601896https://repositorio.unsa.edu.pe/bitstreams/b74c660d-e8dd-4573-a16a-f113b3a15f70/downloadb205120a0d56ff6043d9fed38a041d44MD52Autorización de Publicación Digital.pdfapplication/pdf3717004https://repositorio.unsa.edu.pe/bitstreams/55130c3b-effb-413c-a0b1-7e6db1203510/download60527b732f044e317708cd6b9d07402eMD5320.500.12773/17943oai:repositorio.unsa.edu.pe:20.500.12773/179432024-09-06 14:32:26.409http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe
dc.title.es_PE.fl_str_mv Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
title Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
spellingShingle Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
Prado Cussi, Daniel Augusto
Métodos descriptores de imágenes
alineamiento de secuencias
bioinformática
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
title_full Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
title_fullStr Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
title_full_unstemmed Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
title_sort Clasificación de secuencias de ADN utilizando aprendizaje automático y descriptores de imagen
author Prado Cussi, Daniel Augusto
author_facet Prado Cussi, Daniel Augusto
author_role author
dc.contributor.advisor.fl_str_mv Perez Vera, Yasiel
dc.contributor.author.fl_str_mv Prado Cussi, Daniel Augusto
dc.subject.es_PE.fl_str_mv Métodos descriptores de imágenes
alineamiento de secuencias
bioinformática
topic Métodos descriptores de imágenes
alineamiento de secuencias
bioinformática
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description El alineamiento de secuencias figura como una de las prácticas predominantes en la Bioinformática. Se crearon métodos basados en alineación como BLAST, BLAST+, FAS- TA, HMMER, RapSearch, que se encargaron inicialmente de esta tarea. Sin embargo, todos estos métodos son lentos en el tiempo de procesamiento además, de no ser útiles para los genomas, ya que analizar miles de estos resulta excesivamente costoso y caro para su capacidad. Esto lleva a la existencia y creación de múltiples métodos libres de alineación para la comparación de secuencias. En el presente trabajo, se examinan los métodos Kameris y Castor, siendo estos libres de alineación para la clasificación del genoma de ADN. Estos métodos son comparados con las reconocidas CNNs Resnet-50, Inception, VGG19, VGG16. Adicionalmente, se lleva a cabo una comparación con métodos descriptores de imágenes que son LBP, MLBP, GLCM, y FOS, que a su vez utilizan clasificadores como son KNN, RFC, y SVM. Podemos concluir que en la comparativa las CNNs tuvieron los resultados con menos relevancia, siendo superadas por Castor y Kameris, en el caso donde no emplearon reducción de dimensionalidad y características, siendo en ese escenario donde tuvieron resultados en f1-score aceptables. Además, los experimentos indican que los métodos descriptores de imágenes empleando SVM tuvieron el mejor desempeño en comparativa a los anteriores. Los métodos descriptores de imágenes superaron a los métodos de vanguardia (Castor y Kameris) en bds como plantas, h1vsubpool, vertebrados e insectos demostrando una perspectiva prometedora para la clasificación de especies de ADN. En última instancia, según los resultados experimentales, los resultados obtenidos con 6-mer y 7-mer fueron inferiores al uso de 5-mer (utilizado principalmente por Castor y Kameris), que se destacó. Concluimos que los métodos descriptores (especialmente FOS) usando SVM son los mejores para clasificar secuencias de ADN.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-06-03T19:07:28Z
dc.date.available.none.fl_str_mv 2024-06-03T19:07:28Z
dc.date.issued.fl_str_mv 2024
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12773/17943
url https://hdl.handle.net/20.500.12773/17943
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/2ac7a4c8-a848-4e79-921e-3297109fb4f0/download
https://repositorio.unsa.edu.pe/bitstreams/cc718540-edf9-48a9-acb7-9946bfc663d7/download
https://repositorio.unsa.edu.pe/bitstreams/b74c660d-e8dd-4573-a16a-f113b3a15f70/download
https://repositorio.unsa.edu.pe/bitstreams/55130c3b-effb-413c-a0b1-7e6db1203510/download
bitstream.checksum.fl_str_mv eaa4ac57f1dcfae112ab6dd5b8fb68c9
fe0c8e830e67432beaec6278001ba78a
b205120a0d56ff6043d9fed38a041d44
60527b732f044e317708cd6b9d07402e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828762856127987712
score 13.959421
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).