Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos
Descripción del Articulo
La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiquet...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2025 |
| Institución: | Universidad Tecnológica del Perú |
| Repositorio: | UTP-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.utp.edu.pe:20.500.12867/14167 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12867/14167 |
| Nivel de acceso: | acceso abierto |
| Materia: | Etiquetado múltiple Marco metodológico Entidades gubernamentales https://purl.org/pe-repo/ocde/ford#2.02.04 |
| id |
UTPD_aaea08939e9b90174a6d092e93e94934 |
|---|---|
| oai_identifier_str |
oai:repositorio.utp.edu.pe:20.500.12867/14167 |
| network_acronym_str |
UTPD |
| network_name_str |
UTP-Institucional |
| repository_id_str |
4782 |
| dc.title.es_PE.fl_str_mv |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| title |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| spellingShingle |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos Melgarejo Siguas, Adrian Norvic Etiquetado múltiple Marco metodológico Entidades gubernamentales https://purl.org/pe-repo/ocde/ford#2.02.04 |
| title_short |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| title_full |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| title_fullStr |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| title_full_unstemmed |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| title_sort |
Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicos |
| author |
Melgarejo Siguas, Adrian Norvic |
| author_facet |
Melgarejo Siguas, Adrian Norvic |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Zamudio Ariza, Rene Alejandro |
| dc.contributor.author.fl_str_mv |
Melgarejo Siguas, Adrian Norvic |
| dc.subject.es_PE.fl_str_mv |
Etiquetado múltiple Marco metodológico Entidades gubernamentales |
| topic |
Etiquetado múltiple Marco metodológico Entidades gubernamentales https://purl.org/pe-repo/ocde/ford#2.02.04 |
| dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
| description |
La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiqueta de importaciones binarias. El objetivo principal es evaluar la capacidad de los modelos TinyLlama, RoBERTa, GloVe y TF-IDF ONE-VS-REST, utilizando el marco MITRE ATT&CK, para identificar y categorizar eficazmente estas amenazas potenciales. Dentro del marco metodológico, se adoptó un alcance explicativo, complementado por un diseño preexperimental y un enfoque cuantitativo. Para el estudio, se seleccionó una muestra de 378 archivos de malware, extraídos de una población de 22,489 binarios de acceso público. Adicionalmente, se implementó la metodología KANBAN para la gestión de actividades y la ingeniería de software para modelos LLMs para su desarrollo, en la cual se abarcan la recolección de datos, fine-tuning, clasificación de los modelos entrenados y evaluación de resultados, lo cual está organizado en un total de nueve tarjetas KANBAN. Los resultados con un threshold de 0.5 evidenciaron que el modelo LLM mejora significativamente la clasificación multietiqueta en las métricas de Precisión, Recall, F-Score y Hamming Loss, siendo el LLM Representation Model RoBERTa el que dio mayores resultados en las métricas mencionadas con un 0.9721, 0.9737, 0.9678 y 0.0151 respectivamente, con lo cual influye significativamente y mejora la clasificación multietiqueta de las técnicas y tácticas ATT&CK. |
| publishDate |
2025 |
| dc.date.accessioned.none.fl_str_mv |
2025-10-30T14:51:38Z |
| dc.date.available.none.fl_str_mv |
2025-10-30T14:51:38Z |
| dc.date.issued.fl_str_mv |
2025 |
| dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| dc.type.version.es_PE.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12867/14167 |
| url |
https://hdl.handle.net/20.500.12867/14167 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.es_PE.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.format.es_PE.fl_str_mv |
application/pdf |
| dc.publisher.es_PE.fl_str_mv |
Universidad Tecnológica del Perú |
| dc.publisher.country.es_PE.fl_str_mv |
PE |
| dc.source.es_PE.fl_str_mv |
Repositorio Institucional - UTP Universidad Tecnológica del Perú |
| dc.source.none.fl_str_mv |
reponame:UTP-Institucional instname:Universidad Tecnológica del Perú instacron:UTP |
| instname_str |
Universidad Tecnológica del Perú |
| instacron_str |
UTP |
| institution |
UTP |
| reponame_str |
UTP-Institucional |
| collection |
UTP-Institucional |
| bitstream.url.fl_str_mv |
https://repositorio.utp.edu.pe/backend/api/core/bitstreams/cd904a67-7030-43fe-a561-83c2ba1630d6/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d6124dea-f44e-47c3-a0da-885f76b0215b/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/60843191-5096-49fb-9f83-2314d1280463/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d79cb9dc-6b66-4f4e-8b28-7e1fb8841e07/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/7b28a4e3-3327-4404-911a-d676d44de26d/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/dbfda56c-0297-4965-9577-7b7403af7afb/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/20bc5a61-77d6-4a0d-b624-d7b0e3619ef7/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/3d7477d5-6595-4a05-b8f9-3f8e1bd2f7f7/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/96b8238c-ecf3-40f6-9247-f67dba1668f7/download https://repositorio.utp.edu.pe/backend/api/core/bitstreams/39ba869e-89df-4e8e-8a60-f1403971e292/download |
| bitstream.checksum.fl_str_mv |
c376e5145bcf0de62422bd53ac893230 c7a1ffe9b59530c9a0a0bc45fdb43e74 17c78cffff64ee4b11aae805580dbfba 8a4605be74aa9ea9d79846c1fba20a33 1c3abe34d58d305811abe9e5753d79ad 945cf657c0187379a6e288392587664d 5aabe1a5b7d5c144a21b75cfe46e067d 6ef9f091c6e3acd139640a2bb8e435d7 33318e5a93bd108486b2215d98b25c58 65a0d0c73bafc49c21efc158d2ea45bf |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio de la Universidad Tecnológica del Perú |
| repository.mail.fl_str_mv |
repositorio@utp.edu.pe |
| _version_ |
1853500348334866432 |
| spelling |
Zamudio Ariza, Rene AlejandroMelgarejo Siguas, Adrian Norvic2025-10-30T14:51:38Z2025-10-30T14:51:38Z2025https://hdl.handle.net/20.500.12867/14167La ciberseguridad es crucial para organizaciones y entidades gubernamentales en el entorno digital actual, expuestas a ciberataques y campañas de Malware que buscan infiltrar, cifrar y expandirse en sus sistemas. Esta investigación se centra en desarrollar un modelo LLM de clasificación multietiqueta de importaciones binarias. El objetivo principal es evaluar la capacidad de los modelos TinyLlama, RoBERTa, GloVe y TF-IDF ONE-VS-REST, utilizando el marco MITRE ATT&CK, para identificar y categorizar eficazmente estas amenazas potenciales. Dentro del marco metodológico, se adoptó un alcance explicativo, complementado por un diseño preexperimental y un enfoque cuantitativo. Para el estudio, se seleccionó una muestra de 378 archivos de malware, extraídos de una población de 22,489 binarios de acceso público. Adicionalmente, se implementó la metodología KANBAN para la gestión de actividades y la ingeniería de software para modelos LLMs para su desarrollo, en la cual se abarcan la recolección de datos, fine-tuning, clasificación de los modelos entrenados y evaluación de resultados, lo cual está organizado en un total de nueve tarjetas KANBAN. Los resultados con un threshold de 0.5 evidenciaron que el modelo LLM mejora significativamente la clasificación multietiqueta en las métricas de Precisión, Recall, F-Score y Hamming Loss, siendo el LLM Representation Model RoBERTa el que dio mayores resultados en las métricas mencionadas con un 0.9721, 0.9737, 0.9678 y 0.0151 respectivamente, con lo cual influye significativamente y mejora la clasificación multietiqueta de las técnicas y tácticas ATT&CK.Campus Lima Norteapplication/pdfspaUniversidad Tecnológica del PerúPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Repositorio Institucional - UTPUniversidad Tecnológica del Perúreponame:UTP-Institucionalinstname:Universidad Tecnológica del Perúinstacron:UTPEtiquetado múltipleMarco metodológicoEntidades gubernamentaleshttps://purl.org/pe-repo/ocde/ford#2.02.04Modelo LLM para clasificar múltiples tácticas y técnicas del framework MITRE ATT&CK en informes de análisis estático de malware extraídos de binarios públicosinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionSUNEDUIngeniero de SoftwareUniversidad Tecnológica del Perú. Facultad de IngenieríaIngeniería de SoftwarePregrado40618954https://orcid.org/0000-0001-7923-928177091557612236Cueva Villavicencio, Juanita IsabelCosme Félix, Miryam MilagrosAbregú Marcos, Carla Feliciahttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisORIGINALA.Melgarejo_Tesis_Titulo_Profesional_2025.pdfA.Melgarejo_Tesis_Titulo_Profesional_2025.pdfapplication/pdf5656035https://repositorio.utp.edu.pe/backend/api/core/bitstreams/cd904a67-7030-43fe-a561-83c2ba1630d6/downloadc376e5145bcf0de62422bd53ac893230MD51A.Melgarejo_Formulario_de_Publicacion.pdfA.Melgarejo_Formulario_de_Publicacion.pdfapplication/pdf248020https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d6124dea-f44e-47c3-a0da-885f76b0215b/downloadc7a1ffe9b59530c9a0a0bc45fdb43e74MD52A.Melgarejo_Informe_de_Similitud.pdfA.Melgarejo_Informe_de_Similitud.pdfapplication/pdf12670852https://repositorio.utp.edu.pe/backend/api/core/bitstreams/60843191-5096-49fb-9f83-2314d1280463/download17c78cffff64ee4b11aae805580dbfbaMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.utp.edu.pe/backend/api/core/bitstreams/d79cb9dc-6b66-4f4e-8b28-7e1fb8841e07/download8a4605be74aa9ea9d79846c1fba20a33MD54TEXTA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.txtA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.txtExtracted texttext/plain101389https://repositorio.utp.edu.pe/backend/api/core/bitstreams/7b28a4e3-3327-4404-911a-d676d44de26d/download1c3abe34d58d305811abe9e5753d79adMD511A.Melgarejo_Formulario_de_Publicacion.pdf.txtA.Melgarejo_Formulario_de_Publicacion.pdf.txtExtracted texttext/plain4930https://repositorio.utp.edu.pe/backend/api/core/bitstreams/dbfda56c-0297-4965-9577-7b7403af7afb/download945cf657c0187379a6e288392587664dMD513A.Melgarejo_Informe_de_Similitud.pdf.txtA.Melgarejo_Informe_de_Similitud.pdf.txtExtracted texttext/plain101139https://repositorio.utp.edu.pe/backend/api/core/bitstreams/20bc5a61-77d6-4a0d-b624-d7b0e3619ef7/download5aabe1a5b7d5c144a21b75cfe46e067dMD515THUMBNAILA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.jpgA.Melgarejo_Tesis_Titulo_Profesional_2025.pdf.jpgGenerated Thumbnailimage/jpeg17581https://repositorio.utp.edu.pe/backend/api/core/bitstreams/3d7477d5-6595-4a05-b8f9-3f8e1bd2f7f7/download6ef9f091c6e3acd139640a2bb8e435d7MD512A.Melgarejo_Formulario_de_Publicacion.pdf.jpgA.Melgarejo_Formulario_de_Publicacion.pdf.jpgGenerated Thumbnailimage/jpeg28938https://repositorio.utp.edu.pe/backend/api/core/bitstreams/96b8238c-ecf3-40f6-9247-f67dba1668f7/download33318e5a93bd108486b2215d98b25c58MD514A.Melgarejo_Informe_de_Similitud.pdf.jpgA.Melgarejo_Informe_de_Similitud.pdf.jpgGenerated Thumbnailimage/jpeg18373https://repositorio.utp.edu.pe/backend/api/core/bitstreams/39ba869e-89df-4e8e-8a60-f1403971e292/download65a0d0c73bafc49c21efc158d2ea45bfMD51620.500.12867/14167oai:repositorio.utp.edu.pe:20.500.12867/141672025-11-30 18:33:53.641https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.utp.edu.peRepositorio de la Universidad Tecnológica del Perúrepositorio@utp.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.917434 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).