Propuesta de modelo predictivo para la detección de fraude en mensajes de texto mediante el uso de Redes Neuronales Recurrentes

Descripción del Articulo

El smishing, o fraude por mensajes de texto, se ha vuelto un problema creciente en el país, debido a la falta de mecanismos adecuados para detectar mensajes fraudulentos, lo que ha generado que muchos ciudadanos sean víctimas de estafa al recibir estos tipos de mensajes. El estudio tuvo como objetiv...

Descripción completa

Detalles Bibliográficos
Autor: Salinas Bolaños, Yair Andrey
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad ESAN
Repositorio:ESAN-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.esan.edu.pe:20.500.12640/4287
Enlace del recurso:https://hdl.handle.net/20.500.12640/4287
Nivel de acceso:acceso abierto
Materia:Seguridad informática
Fraude
Mensajería electrónica
Aprendizaje automático
Redes neuronales
https://purl.org/pe-repo/ocde/ford#2.02.04
Descripción
Sumario:El smishing, o fraude por mensajes de texto, se ha vuelto un problema creciente en el país, debido a la falta de mecanismos adecuados para detectar mensajes fraudulentos, lo que ha generado que muchos ciudadanos sean víctimas de estafa al recibir estos tipos de mensajes. El estudio tuvo como objetivo encontrar el mejor clasificador de fraude en mensajes de texto en el contexto peruano, para lo cual se recolectaron 527 imágenes de las que se obtuvieron 1740 mensajes, etiquetados manualmente como FRAUDE o LEGITIMO, basándose en recomendaciones de entidades públicas/privadas, y validadas por una experta en fraude del rubro de telecomunicaciones; posteriormente, se integraron con bases en otros idiomas, logrando un total de 4475 registros. Los mensajes fueron vectorizados con Word2Vec y FastText. Finalmente, se entrenaron algoritmos de Redes Neuronales Recurrentes (RNN, LSTM, GRU) y combinaciones con CNN para identificar el mejor modelo. Los resultados evaluados con Accuracy, Precision, Recall, F1-score y AUC evidenciaron que el mejor clasificador fue una RNN de 3 capas (200, 160, 1) usando el embedding FastText-NewL de 300 dimensiones, alcanzando 85.62% en Accuracy, 84.49% en Precision, 88.77% en Recall, 86.57% en F1-score y 93.14% en AUC.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).