Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
Descripción del Articulo
La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiquet...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2025 |
| Institución: | Universidad Tecnológica del Perú |
| Repositorio: | UTP-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.utp.edu.pe:20.500.12867/14167 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12867/14167 |
| Nivel de acceso: | acceso abierto |
| Materia: | Etiquetado múltiple Marco metodológico Entidades gubernamentales https://purl.org/pe-repo/ocde/ford#2.02.04 |
| Sumario: | La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiqueta de importaciones binarias. El objetivo principal es evaluar la capacidad de los modelos TinyLlama, RoBERTa, GloVe y TF-IDF ONE-VS-REST, utilizando el marco MITRE ATT&CK, para identificar y categorizar eficazmente estas amenazas potenciales. Dentro del marco metodológico, se adoptó un alcance explicativo, complementado por un diseño preexperimental y un enfoque cuantitativo. Para el estudio, se seleccionó una muestra de 378 archivos de malware, extraídos de una población de 22,489 binarios de acceso público. Adicionalmente, se implementó la metodología KANBAN para la gestión de actividades y la ingeniería de software para modelos LLMs para su desarrollo, en la cual se abarcan la recolección de datos, fine-tuning, clasificación de los modelos entrenados y evaluación de resultados, lo cual está organizado en un total de nueve tarjetas KANBAN. Los resultados con un threshold de 0.5 evidenciaron que el modelo LLM mejora significativamente la clasificación multietiqueta en las métricas de Precisión, Recall, F-Score y Hamming Loss, siendo el LLM Representation Model RoBERTa el que dio mayores resultados en las métricas mencionadas con un 0.9721, 0.9737, 0.9678 y 0.0151 respectivamente, con lo cual influye significativamente y mejora la clasificación multietiqueta de las técnicas y tácticas ATT&CK. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).