Clasificación de aceptación de campañas para una entidad financiera, usando random forest con datos balanceados y datos no balanceados
Descripción del Articulo
En este trabajo de tesis se planteó abordar un enfoque de modelamiento de aprendizaje supervisado de clasificación mediante el modelo de random forest, se utilizó la librería h2o, que permitió tener una comparación de los modelos planteados dando un balanceo de la variable respuesta (target) y sin b...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2019 |
| Institución: | Universidad Ricardo Palma |
| Repositorio: | URP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.urp.edu.pe:20.500.14138/2307 |
| Enlace del recurso: | https://hdl.handle.net/20.500.14138/2307 |
| Nivel de acceso: | acceso abierto |
| Materia: | Aprendizaje supervisado de clasificación target random forest balanceo AUC especificidad sensibilidad |
| Sumario: | En este trabajo de tesis se planteó abordar un enfoque de modelamiento de aprendizaje supervisado de clasificación mediante el modelo de random forest, se utilizó la librería h2o, que permitió tener una comparación de los modelos planteados dando un balanceo de la variable respuesta (target) y sin balancear y asimismo ejecutar en un menor tiempo estos modelos, puesto que la librería trabaja en procesamiento en paralelo, también realizar el tuning de parámetros del modelo de random forest y compararlos mediante los indicadores de Área Bajo la Curva (AUC), especificidad y sensibilidad. Los datos a utilizar pertenecen a una entidad financiera en el mes de abril del 2018, donde la variable target es la aceptación de una campaña de tarjeta de crédito. Los principales resultados obtenidos fueron para el caso del indicador AUC, los 4 modelos planteados obtuvieron similar indicador alrededor de 0.75, en el indicador de especificidad, los mejores modelos fueron los que trabajaron con datos desbalanceados, en el indicador de sensibilidad, los mejores modelos fueron los que trabajaron con datos balanceados. Dado el interés del negocio se escogió un modelo con datos balanceados y con mejor desempeño en la sensibilidad. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).