Implementación paralela en GPU del modelo oculto de Markov para el alineamiento múltiple de secuencias

Descripción del Articulo

Actualmente las secuencias de Acido Desoxirribonucleico (ADN) se han convertido en un objeto de estudio amplio, los avances tecnológicos han permitido a los investigadores conocer que el ADN contiene una amplia información, que nos permite conocer las evoluciones biológicas, relaciones de parentesco...

Descripción completa

Detalles Bibliográficos
Autor: Cervantes Carrasco, Edward Jhosep
Formato: tesis de grado
Fecha de Publicación:2023
Institución:Universidad Católica San Pablo
Repositorio:UCSP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ucsp.edu.pe:20.500.12590/17814
Enlace del recurso:https://hdl.handle.net/20.500.12590/17814
Nivel de acceso:acceso abierto
Materia:Unidad de procesamiento gráfico
Modelo oculto de Markov
Arquitectura unificada de dispositivos de Cómputo
Ácido desoxirribonucleico
Alineamiento múltiple de secuencias
Hilos
Avance
Retroceso
https://purl.org/pe-repo/ocde/ford#1.02.03
Descripción
Sumario:Actualmente las secuencias de Acido Desoxirribonucleico (ADN) se han convertido en un objeto de estudio amplio, los avances tecnológicos han permitido a los investigadores conocer que el ADN contiene una amplia información, que nos permite conocer las evoluciones biológicas, relaciones de parentesco entre seres vivos, polimorfismos genéticos, predicción de estructuras proteicas, causas y soluciones a diversos problemas biológicos. Las bases de datos con información biológica como colecciones de nucleótidos, aminoácidos, proteinas, genomas, dominios y más estructuras de diferentes especies, se incrementan constantemente y con este crecimiento hacen falta mejorar o crear nuevos métodos tecnológicos que puedan analizar esta informacion. Uno de los procesos más importantes es el alineamiento simultaneo de un conjunto de secuencias biológicas. Esto es conocido como un Alineamiento Múltiple de Secuencias (AMS), el cual es una técnica que consiste en comparar y alinear tres o más secuencias biológicas. El objetivo es encontrar regiones comunes que indiquen una similitud estructural, lo cual es importante para determinar diversas funciones biológicas en la especie. En esta tesis se utiliza el método probabilístico del Hidden Model Markov (HMM) para encontrar un alineamiento de calidad en función del número de secuencias, mínimo crecimiento original de cada secuencia, identidad de secuencias y tiempo completo de la ejecución del método. Para conseguir el objetivo se realizará la implementación en Graphics Processing Unit (GPU), lo que permitirá optimizar el tiempo de construcción del modelo de Markov, entrenamiento de los datos, para lo cual se utilizará el algoritmo de Baum-Welch, con sus respectivos sub-algoritmos que lo conforman. El desarrollo en GPU, también permitirá realizar las pruebas con secuencias biológicas de mayor tamaño. Finalmente los resultados son comparados con Múltiple Alignment using Fast Fourier Transform (MAFFT), el cual ha sido seleccionado como método de comparación por ser actualmente uno de los mejores programas para el AMS.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).