Clasificación de leucocitos en imágenes microscópicas de frotis sanguíneo usando machine learning y CNN

Descripción del Articulo

El problema principal de las formas actuales de realizar la clasificación de leucocitos es que solo tenemos dos opciones más comunes en el mercado, se utiliza una maquinaria de alto coste para poder hacer el procedimiento de clasificación o un técnico de laboratorio lo tiene que hacer manualmente co...

Descripción completa

Detalles Bibliográficos
Autor: Rojas Alvarez, Gonzalo
Formato: tesis de grado
Fecha de Publicación:2022
Institución:Universidad Andina del Cusco
Repositorio:UAC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.uandina.edu.pe:20.500.12557/4799
Enlace del recurso:https://hdl.handle.net/20.500.12557/4799
Nivel de acceso:acceso abierto
Materia:Dataset
Preprocesamiento de datos
Pruebas de predicción
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:El problema principal de las formas actuales de realizar la clasificación de leucocitos es que solo tenemos dos opciones más comunes en el mercado, se utiliza una maquinaria de alto coste para poder hacer el procedimiento de clasificación o un técnico de laboratorio lo tiene que hacer manualmente con una muestra y un microscopio. El objetivó de esta investigación es poder validar un tercer camino el cual utiliza tecnologías que tuvieron un gran avance recientemente en el mercado como lo son machine learning (más específicamente las Redes Neuronales Convolucionales) para la creación de nuevas soluciones con Inteligencia Artificial. Con este objetivo en mente se siguieron varios pasos. El primero es la identificación del grado de error de los procesos manuales y automatizados. Para este objetivo, se realiza un análisis bibliográfico y se determinó que el promedio de grado de error de los procesos manuales y automatizados son de 18.33 % y 3.59 % respectivamente. Y para la investigación se decidió utilizar un grado de error mínimo de 5 %. La solución que cumplió con este valor seleccionado tiene garantizado ser una solución mejor que el procedimiento manual y ser comparable con procedimientos automatizados realizados por maquinaria especializada. Para la obtención del dataset, el cual fue utilizado en los procesos de entrenamiento validación y testeo de los modelos de redes neuronales, se decidió utilizar datos de investigaciones previas realizadas por entidades de diferentes partes del mundo y publicados para su uso en investigación. Se utilizaron 4 fuentes de datos los cuales nos dieron un dataset diverso de 37760 muestras. Como el dataset obtenido tenía una deficiencia de pocas muestras de un tipo especifico de leucocitos. Se decidió utilizar la técnica de preprocesamiento de datos llamada Data Augmentation; el cual, usando variaciones de rotación, flip, iluminación (valor gamma) y ruido gaussiano permitió aumentar el número de muestras a 59877. Se procedió a realizar iteraciones para la detección de la estructura del modelo de red neuronal convolucional. Durante estas iteraciones se decidió utilizar técnicas contra el overfitting (el cual es uno de los principales problemas que pueden presentar las redes neuronales). Las técnicas las cuales se utilizaron fueron reducción de complejidad de la estructura de modelo, valores de regularización y capas de DropOut (capas que eliminan aleatoriamente entradas de una capa oculta de la red neuronal). Todas estas técnicas se vieron efectivas ya que con su ayuda se logró determinar un modelo el cual cumplía con nuestro grado de error mínimo. El ultimo paso fue un proceso de testeo, en este paso se realizaron las pruebas de predicción de uno a uno, uso de la función de evaluación propio de la framework de keras, generación de 129 dataset de 500 imágenes cada uno para prode verificar resultado obtenido con la función de evaluación previamente utilizado y generación de matriz de confusión para poder ver diferentes resultados de predicción.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).