Técnicas de ensamble y redes neuronales profundas para estimar la probabilidad de incumplimiento de créditos de consumo en el Perú
Descripción del Articulo
La presente tesis proporciona un análisis detallado sobre la aplicación de modelos avanzados de machine learning para predecir la probabilidad de incumplimiento en créditos de consumo. Se entrenaron modelos de Random Forest, XGBoost, LightGBM y dos redes neuronales artificiales profundas: Deep Multi...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2025 |
| Institución: | Universidad Ricardo Palma |
| Repositorio: | URP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.urp.edu.pe:20.500.14138/9487 |
| Enlace del recurso: | https://hdl.handle.net/20.500.14138/9487 |
| Nivel de acceso: | acceso embargado |
| Materia: | Redes neuronales (Computación) Análisis del crédito Imposibilidad de cumplimiento Tarjetas de crédito bancarias https://purl.org/pe-repo/ocde/ford#1.02.00 |
| Sumario: | La presente tesis proporciona un análisis detallado sobre la aplicación de modelos avanzados de machine learning para predecir la probabilidad de incumplimiento en créditos de consumo. Se entrenaron modelos de Random Forest, XGBoost, LightGBM y dos redes neuronales artificiales profundas: Deep Multilayer Perceptron (DMLP) y Tabular Neural Network (TabNet). Estos modelos fueron comparados con un modelo de regresión logística, el estándar de la industria financiera, entrenado rigurosamente para asegurar una comparación imparcial entre los modelos. En el estudio se utilizó un conjunto de datos real compuesto por 1,277 variables y 767,401 registros de créditos de consumo otorgados por entidades financieras en el Perú, entre 2015 y 2021. Los modelos se evaluaron con indicadores de discriminación (AUC, Gini y KS), calibración (Brier score, log loss y curvas de calibración) y clasificación (accuracy, precision, recall y F1-score). Aunque estos últimos no fueron determinantes para la selección del mejor modelo, proporcionaron una visión integral sobre el rendimiento de los modelos. LightGBM fue el modelo con mejor capacidad predictiva, seguido por XGBoost, DMLP y TabNet, mientras que Random Forest y la regresión logística ocuparon las últimas posiciones. LightGBM superó a XGBoost principalmente por su mejor calibración. Para explicar el funcionamiento del modelo LightGBM, se utilizó la metodología SHapley Additive exPlanations (SHAP). A partir de la aplicación de esta metodología, se encontró que las cuatro variables más importantes para la predicción del incumplimiento fueron la utilización de líneas de tarjetas de crédito, la cantidad de periodos con calificación normal, la variación porcentual del endeudamiento y el atraso promedio |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).