Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos

Descripción del Articulo

La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiquet...

Descripción completa

Detalles Bibliográficos
Autor: Melgarejo Siguas, Adrian Norvic
Formato: tesis de grado
Fecha de Publicación:2025
Institución:Universidad Tecnológica del Perú
Repositorio:UTP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.utp.edu.pe:20.500.12867/14167
Enlace del recurso:https://hdl.handle.net/20.500.12867/14167
Nivel de acceso:acceso abierto
Materia:Etiquetado múltiple
Marco metodológico
Entidades gubernamentales
https://purl.org/pe-repo/ocde/ford#2.02.04
id UTPD_aaea08939e9b90174a6d092e93e94934
oai_identifier_str oai:repositorio.utp.edu.pe:20.500.12867/14167
network_acronym_str UTPD
network_name_str UTP-Institucional
repository_id_str 4782
dc.title.es_PE.fl_str_mv Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
title Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
spellingShingle Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
Melgarejo Siguas, Adrian Norvic
Etiquetado múltiple
Marco metodológico
Entidades gubernamentales
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
title_full Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
title_fullStr Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
title_full_unstemmed Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
title_sort Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
author Melgarejo Siguas, Adrian Norvic
author_facet Melgarejo Siguas, Adrian Norvic
author_role author
dc.contributor.advisor.fl_str_mv Zamudio Ariza, Rene Alejandro
dc.contributor.author.fl_str_mv Melgarejo Siguas, Adrian Norvic
dc.subject.es_PE.fl_str_mv Etiquetado múltiple
Marco metodológico
Entidades gubernamentales
topic Etiquetado múltiple
Marco metodológico
Entidades gubernamentales
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiqueta de importaciones binarias. El objetivo principal es evaluar la capacidad de los modelos TinyLlama, RoBERTa, GloVe y TF-IDF ONE-VS-REST, utilizando el marco MITRE ATT&CK, para identificar y categorizar eficazmente estas amenazas potenciales. Dentro del marco metodológico, se adoptó un alcance explicativo, complementado por un diseño preexperimental y un enfoque cuantitativo. Para el estudio, se seleccionó una muestra de 378 archivos de malware, extraídos de una población de 22,489 binarios de acceso público. Adicionalmente, se implementó la metodología KANBAN para la gestión de actividades y la ingeniería de software para modelos LLMs para su desarrollo, en la cual se abarcan la recolección de datos, fine-tuning, clasificación de los modelos entrenados y evaluación de resultados, lo cual está organizado en un total de nueve tarjetas KANBAN. Los resultados con un threshold de 0.5 evidenciaron que el modelo LLM mejora significativamente la clasificación multietiqueta en las métricas de Precisión, Recall, F-Score y Hamming Loss, siendo el LLM Representation Model RoBERTa el que dio mayores resultados en las métricas mencionadas con un 0.9721, 0.9737, 0.9678 y 0.0151 respectivamente, con lo cual influye significativamente y mejora la clasificación multietiqueta de las técnicas y tácticas ATT&CK.
publishDate 2025
dc.date.accessioned.none.fl_str_mv 2025-10-30T14:51:38Z
dc.date.available.none.fl_str_mv 2025-10-30T14:51:38Z
dc.date.issued.fl_str_mv 2025
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.es_PE.fl_str_mv info:eu-repo/semantics/publishedVersion
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12867/14167
url https://hdl.handle.net/20.500.12867/14167
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Tecnológica del Perú
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Repositorio Institucional - UTP
Universidad Tecnológica del Perú
dc.source.none.fl_str_mv reponame:UTP-Institucional
instname:Universidad Tecnológica del Perú
instacron:UTP
instname_str Universidad Tecnológica del Perú
instacron_str UTP
institution UTP
reponame_str UTP-Institucional
collection UTP-Institucional
bitstream.url.fl_str_mv https://repositorio.utp.edu.pe/backend/api/core/bitstreams/cd904a67-7030-43fe-a561-83c2ba1630d6/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d6124dea-f44e-47c3-a0da-885f76b0215b/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/60843191-5096-49fb-9f83-2314d1280463/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d79cb9dc-6b66-4f4e-8b28-7e1fb8841e07/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/7b28a4e3-3327-4404-911a-d676d44de26d/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/dbfda56c-0297-4965-9577-7b7403af7afb/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/20bc5a61-77d6-4a0d-b624-d7b0e3619ef7/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/3d7477d5-6595-4a05-b8f9-3f8e1bd2f7f7/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/96b8238c-ecf3-40f6-9247-f67dba1668f7/download
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/39ba869e-89df-4e8e-8a60-f1403971e292/download
bitstream.checksum.fl_str_mv c376e5145bcf0de62422bd53ac893230
c7a1ffe9b59530c9a0a0bc45fdb43e74
17c78cffff64ee4b11aae805580dbfba
8a4605be74aa9ea9d79846c1fba20a33
1c3abe34d58d305811abe9e5753d79ad
945cf657c0187379a6e288392587664d
5aabe1a5b7d5c144a21b75cfe46e067d
6ef9f091c6e3acd139640a2bb8e435d7
33318e5a93bd108486b2215d98b25c58
65a0d0c73bafc49c21efc158d2ea45bf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de la Universidad Tecnológica del Perú
repository.mail.fl_str_mv repositorio@utp.edu.pe
_version_ 1853500348334866432
spelling Zamudio Ariza, Rene AlejandroMelgarejo Siguas, Adrian Norvic2025-10-30T14:51:38Z2025-10-30T14:51:38Z2025https://hdl.handle.net/20.500.12867/14167La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiqueta de importaciones binarias. El objetivo principal es evaluar la capacidad de los modelos TinyLlama, RoBERTa, GloVe y TF-IDF ONE-VS-REST, utilizando el marco MITRE ATT&CK, para identificar y categorizar eficazmente estas amenazas potenciales. Dentro del marco metodológico, se adoptó un alcance explicativo, complementado por un diseño preexperimental y un enfoque cuantitativo. Para el estudio, se seleccionó una muestra de 378 archivos de malware, extraídos de una población de 22,489 binarios de acceso público. Adicionalmente, se implementó la metodología KANBAN para la gestión de actividades y la ingeniería de software para modelos LLMs para su desarrollo, en la cual se abarcan la recolección de datos, fine-tuning, clasificación de los modelos entrenados y evaluación de resultados, lo cual está organizado en un total de nueve tarjetas KANBAN. Los resultados con un threshold de 0.5 evidenciaron que el modelo LLM mejora significativamente la clasificación multietiqueta en las métricas de Precisión, Recall, F-Score y Hamming Loss, siendo el LLM Representation Model RoBERTa el que dio mayores resultados en las métricas mencionadas con un 0.9721, 0.9737, 0.9678 y 0.0151 respectivamente, con lo cual influye significativamente y mejora la clasificación multietiqueta de las técnicas y tácticas ATT&CK.Campus Lima Norteapplication/pdfspaUniversidad Tecnológica del PerúPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Repositorio Institucional - UTPUniversidad Tecnológica del Perúreponame:UTP-Institucionalinstname:Universidad Tecnológica del Perúinstacron:UTPEtiquetado múltipleMarco metodológicoEntidades gubernamentaleshttps://purl.org/pe-repo/ocde/ford#2.02.04Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicosinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionSUNEDUIngeniero de SoftwareUniversidad Tecnológica del Perú. Facultad de IngenieríaIngeniería de SoftwarePregrado40618954https://orcid.org/0000-0001-7923-928177091557612236Cueva Villavicencio, Juanita IsabelCosme Félix, Miryam MilagrosAbregú Marcos, Carla Feliciahttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisORIGINALA.Melgarejo_Tesis_Titulo_Profesional_2025.pdfA.Melgarejo_Tesis_Titulo_Profesional_2025.pdfapplication/pdf5656035https://repositorio.utp.edu.pe/backend/api/core/bitstreams/cd904a67-7030-43fe-a561-83c2ba1630d6/downloadc376e5145bcf0de62422bd53ac893230MD51A.Melgarejo_Formulario_de_Publicacion.pdfA.Melgarejo_Formulario_de_Publicacion.pdfapplication/pdf248020https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d6124dea-f44e-47c3-a0da-885f76b0215b/downloadc7a1ffe9b59530c9a0a0bc45fdb43e74MD52A.Melgarejo_Informe_de_Similitud.pdfA.Melgarejo_Informe_de_Similitud.pdfapplication/pdf12670852https://repositorio.utp.edu.pe/backend/api/core/bitstreams/60843191-5096-49fb-9f83-2314d1280463/download17c78cffff64ee4b11aae805580dbfbaMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d79cb9dc-6b66-4f4e-8b28-7e1fb8841e07/download8a4605be74aa9ea9d79846c1fba20a33MD54TEXTA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.txtA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.txtExtracted texttext/plain101389https://repositorio.utp.edu.pe/backend/api/core/bitstreams/7b28a4e3-3327-4404-911a-d676d44de26d/download1c3abe34d58d305811abe9e5753d79adMD511A.Melgarejo_Formulario_de_Publicacion.pdf.txtA.Melgarejo_Formulario_de_Publicacion.pdf.txtExtracted texttext/plain4930https://repositorio.utp.edu.pe/backend/api/core/bitstreams/dbfda56c-0297-4965-9577-7b7403af7afb/download945cf657c0187379a6e288392587664dMD513A.Melgarejo_Informe_de_Similitud.pdf.txtA.Melgarejo_Informe_de_Similitud.pdf.txtExtracted texttext/plain101139https://repositorio.utp.edu.pe/backend/api/core/bitstreams/20bc5a61-77d6-4a0d-b624-d7b0e3619ef7/download5aabe1a5b7d5c144a21b75cfe46e067dMD515THUMBNAILA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.jpgA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.jpgGenerated Thumbnailimage/jpeg17581https://repositorio.utp.edu.pe/backend/api/core/bitstreams/3d7477d5-6595-4a05-b8f9-3f8e1bd2f7f7/download6ef9f091c6e3acd139640a2bb8e435d7MD512A.Melgarejo_Formulario_de_Publicacion.pdf.jpgA.Melgarejo_Formulario_de_Publicacion.pdf.jpgGenerated Thumbnailimage/jpeg28938https://repositorio.utp.edu.pe/backend/api/core/bitstreams/96b8238c-ecf3-40f6-9247-f67dba1668f7/download33318e5a93bd108486b2215d98b25c58MD514A.Melgarejo_Informe_de_Similitud.pdf.jpgA.Melgarejo_Informe_de_Similitud.pdf.jpgGenerated Thumbnailimage/jpeg18373https://repositorio.utp.edu.pe/backend/api/core/bitstreams/39ba869e-89df-4e8e-8a60-f1403971e292/download65a0d0c73bafc49c21efc158d2ea45bfMD51620.500.12867/14167oai:repositorio.utp.edu.pe:20.500.12867/141672025-11-30 18:33:53.641https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.utp.edu.peRepositorio de la Universidad Tecnológica del Perúrepositorio@utp.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.917434
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).