Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos

Descripción del Articulo

La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiquet...

Descripción completa

Detalles Bibliográficos
Autor: Melgarejo Siguas, Adrian Norvic
Formato: tesis de grado
Fecha de Publicación:2025
Institución:Universidad Tecnológica del Perú
Repositorio:UTP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.utp.edu.pe:20.500.12867/14167
Enlace del recurso:https://hdl.handle.net/20.500.12867/14167
Nivel de acceso:acceso abierto
Materia:Etiquetado múltiple
Marco metodológico
Entidades gubernamentales
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiqueta de importaciones binarias. El objetivo principal es evaluar la capacidad de los modelos TinyLlama, RoBERTa, GloVe y TF-IDF ONE-VS-REST, utilizando el marco MITRE ATT&CK, para identificar y categorizar eficazmente estas amenazas potenciales. Dentro del marco metodológico, se adoptó un alcance explicativo, complementado por un diseño preexperimental y un enfoque cuantitativo. Para el estudio, se seleccionó una muestra de 378 archivos de malware, extraídos de una población de 22,489 binarios de acceso público. Adicionalmente, se implementó la metodología KANBAN para la gestión de actividades y la ingeniería de software para modelos LLMs para su desarrollo, en la cual se abarcan la recolección de datos, fine-tuning, clasificación de los modelos entrenados y evaluación de resultados, lo cual está organizado en un total de nueve tarjetas KANBAN. Los resultados con un threshold de 0.5 evidenciaron que el modelo LLM mejora significativamente la clasificación multietiqueta en las métricas de Precisión, Recall, F-Score y Hamming Loss, siendo el LLM Representation Model RoBERTa el que dio mayores resultados en las métricas mencionadas con un 0.9721, 0.9737, 0.9678 y 0.0151 respectivamente, con lo cual influye significativamente y mejora la clasificación multietiqueta de las técnicas y tácticas ATT&CK.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).