Técnicas de ensamble y redes neuronales profundas para estimar la probabilidad de incumplimiento de créditos de consumo en el Perú

Descripción del Articulo

La presente tesis proporciona un análisis detallado sobre la aplicación de modelos avanzados de machine learning para predecir la probabilidad de incumplimiento en créditos de consumo. Se entrenaron modelos de Random Forest, XGBoost, LightGBM y dos redes neuronales artificiales profundas: Deep Multi...

Descripción completa

Detalles Bibliográficos
Autor: Zuñiga Zuñiga, Elver Luis
Formato: tesis de maestría
Fecha de Publicación:2025
Institución:Universidad Ricardo Palma
Repositorio:URP-Tesis
Lenguaje:español
OAI Identifier:oai:repositorio.urp.edu.pe:20.500.14138/9487
Enlace del recurso:https://hdl.handle.net/20.500.14138/9487
Nivel de acceso:acceso embargado
Materia:Redes neuronales (Computación)
Análisis del crédito
Imposibilidad de cumplimiento
Tarjetas de crédito bancarias
https://purl.org/pe-repo/ocde/ford#1.02.00
Descripción
Sumario:La presente tesis proporciona un análisis detallado sobre la aplicación de modelos avanzados de machine learning para predecir la probabilidad de incumplimiento en créditos de consumo. Se entrenaron modelos de Random Forest, XGBoost, LightGBM y dos redes neuronales artificiales profundas: Deep Multilayer Perceptron (DMLP) y Tabular Neural Network (TabNet). Estos modelos fueron comparados con un modelo de regresión logística, el estándar de la industria financiera, entrenado rigurosamente para asegurar una comparación imparcial entre los modelos. En el estudio se utilizó un conjunto de datos real compuesto por 1,277 variables y 767,401 registros de créditos de consumo otorgados por entidades financieras en el Perú, entre 2015 y 2021. Los modelos se evaluaron con indicadores de discriminación (AUC, Gini y KS), calibración (Brier score, log loss y curvas de calibración) y clasificación (accuracy, precision, recall y F1-score). Aunque estos últimos no fueron determinantes para la selección del mejor modelo, proporcionaron una visión integral sobre el rendimiento de los modelos. LightGBM fue el modelo con mejor capacidad predictiva, seguido por XGBoost, DMLP y TabNet, mientras que Random Forest y la regresión logística ocuparon las últimas posiciones. LightGBM superó a XGBoost principalmente por su mejor calibración. Para explicar el funcionamiento del modelo LightGBM, se utilizó la metodología SHapley Additive exPlanations (SHAP). A partir de la aplicación de esta metodología, se encontró que las cuatro variables más importantes para la predicción del incumplimiento fueron la utilización de líneas de tarjetas de crédito, la cantidad de periodos con calificación normal, la variación porcentual del endeudamiento y el atraso promedio
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).