Clasificación de aceptación de campañas para una entidad financiera, usando random forest con datos balanceados y datos no balanceados

Descripción del Articulo

En este trabajo de tesis se planteó abordar un enfoque de modelamiento de aprendizaje supervisado de clasificación mediante el modelo de random forest, se utilizó la librería h2o, que permitió tener una comparación de los modelos planteados dando un balanceo de la variable respuesta (target) y sin b...

Descripción completa

Detalles Bibliográficos
Autor: Cárdenas Garro, José Antonio
Formato: tesis de maestría
Fecha de Publicación:2019
Institución:Universidad Ricardo Palma
Repositorio:URP-Tesis
Lenguaje:español
OAI Identifier:oai:repositorio.urp.edu.pe:20.500.14138/2307
Enlace del recurso:https://hdl.handle.net/20.500.14138/2307
Nivel de acceso:acceso abierto
Materia:Aprendizaje supervisado de clasificación
target
random forest
balanceo
AUC
especificidad
sensibilidad
Descripción
Sumario:En este trabajo de tesis se planteó abordar un enfoque de modelamiento de aprendizaje supervisado de clasificación mediante el modelo de random forest, se utilizó la librería h2o, que permitió tener una comparación de los modelos planteados dando un balanceo de la variable respuesta (target) y sin balancear y asimismo ejecutar en un menor tiempo estos modelos, puesto que la librería trabaja en procesamiento en paralelo, también realizar el tuning de parámetros del modelo de random forest y compararlos mediante los indicadores de Área Bajo la Curva (AUC), especificidad y sensibilidad. Los datos a utilizar pertenecen a una entidad financiera en el mes de abril del 2018, donde la variable target es la aceptación de una campaña de tarjeta de crédito. Los principales resultados obtenidos fueron para el caso del indicador AUC, los 4 modelos planteados obtuvieron similar indicador alrededor de 0.75, en el indicador de especificidad, los mejores modelos fueron los que trabajaron con datos desbalanceados, en el indicador de sensibilidad, los mejores modelos fueron los que trabajaron con datos balanceados. Dado el interés del negocio se escogió un modelo con datos balanceados y con mejor desempeño en la sensibilidad.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).