Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
Descripción del Articulo
Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística Aplicada
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2018 |
Institución: | Universidad Nacional Agraria La Molina |
Repositorio: | UNALM-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.lamolina.edu.pe:20.500.12996/3245 |
Enlace del recurso: | https://hdl.handle.net/20.500.12996/3245 |
Nivel de acceso: | acceso abierto |
Materia: | Telecomunicaciones Empresas privadas Consumidores Métodos estadísticos Aplicaciones del ordenador Evaluación Perú Rotación de clientes Riesgo de fuga https://purl.org/pe-repo/ocde/ford#4.05.00 |
id |
UNAL_5a1c753264498ba689224f7c2a0bd894 |
---|---|
oai_identifier_str |
oai:repositorio.lamolina.edu.pe:20.500.12996/3245 |
network_acronym_str |
UNAL |
network_name_str |
UNALM-Institucional |
repository_id_str |
3039 |
dc.title.es_PE.fl_str_mv |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
title |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
spellingShingle |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica Meza Rodríguez, Aldo Richard Telecomunicaciones Empresas privadas Consumidores Métodos estadísticos Aplicaciones del ordenador Evaluación Perú Rotación de clientes Riesgo de fuga https://purl.org/pe-repo/ocde/ford#4.05.00 |
title_short |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
title_full |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
title_fullStr |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
title_full_unstemmed |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
title_sort |
Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica |
author |
Meza Rodríguez, Aldo Richard |
author_facet |
Meza Rodríguez, Aldo Richard |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Chue Gallardo, Jorge |
dc.contributor.author.fl_str_mv |
Meza Rodríguez, Aldo Richard |
dc.subject.es_PE.fl_str_mv |
Telecomunicaciones Empresas privadas Consumidores Métodos estadísticos Aplicaciones del ordenador Evaluación Perú Rotación de clientes Riesgo de fuga |
topic |
Telecomunicaciones Empresas privadas Consumidores Métodos estadísticos Aplicaciones del ordenador Evaluación Perú Rotación de clientes Riesgo de fuga https://purl.org/pe-repo/ocde/ford#4.05.00 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#4.05.00 |
description |
Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística Aplicada |
publishDate |
2018 |
dc.date.accessioned.none.fl_str_mv |
2018-04-25T18:28:05Z |
dc.date.available.none.fl_str_mv |
2018-04-25T18:28:05Z |
dc.date.issued.fl_str_mv |
2018 |
dc.type.en_US.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.other.none.fl_str_mv |
E70.M49-T BAN UNALM |
dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12996/3245 |
identifier_str_mv |
E70.M49-T BAN UNALM |
url |
https://hdl.handle.net/20.500.12996/3245 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.en_US.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.format.en_US.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad Nacional Agraria La Molina |
dc.source.es_PE.fl_str_mv |
Universidad Nacional Agraria La Molina Repositorio institucional - UNALM |
dc.source.none.fl_str_mv |
reponame:UNALM-Institucional instname:Universidad Nacional Agraria La Molina instacron:UNALM |
instname_str |
Universidad Nacional Agraria La Molina |
instacron_str |
UNALM |
institution |
UNALM |
reponame_str |
UNALM-Institucional |
collection |
UNALM-Institucional |
bitstream.url.fl_str_mv |
https://repositorio.lamolina.edu.pe/bitstreams/be26b14d-1e91-4df0-8dc9-b9fafd5c9438/download https://repositorio.lamolina.edu.pe/bitstreams/9c2b8558-9274-4a7f-a3d2-9ef121649ca3/download https://repositorio.lamolina.edu.pe/bitstreams/95bfd2d5-feea-4326-8f49-9b83528f49e5/download https://repositorio.lamolina.edu.pe/bitstreams/566219b8-4a91-4a8c-945d-0613afd72c00/download https://repositorio.lamolina.edu.pe/bitstreams/276976f4-11db-47de-ad42-7dce7880e359/download https://repositorio.lamolina.edu.pe/bitstreams/3a58020a-d0cc-45ab-b576-bbd75041194e/download https://repositorio.lamolina.edu.pe/bitstreams/4a184e72-edab-4e10-8b77-36fd5f0f2501/download |
bitstream.checksum.fl_str_mv |
e029bc9245d3a3f22ca8d9d029d110a2 f3415050b57c02d38e9a82873189e2c7 38ccc0111ba960aa32f454dc47f86f16 4e6710cc9ebeeb93912d48d36abf1b9c 85e652b8dfa19b82485c505314e0a902 5bd4f1f71d13f39174d026920dcc32b0 91f56030550cd0c060f844ee2fdbbb0b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Universidad Nacional Agraria La Molina |
repository.mail.fl_str_mv |
dspace@lamolina.edu.pe |
_version_ |
1843170345573416960 |
spelling |
Chue Gallardo, Jorge0f9d25e3-cd59-460c-bc11-188d67e51cb2Meza Rodríguez, Aldo Richard2018-04-25T18:28:05Z2018-04-25T18:28:05Z2018E70.M49-T BAN UNALMhttps://hdl.handle.net/20.500.12996/3245Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística AplicadaLa presente investigación tiene como propósito aplicar y comparar el modelo de regresión logística y el algoritmo Adaboost en datos desbalanceados, esto a efecto de predecir la fuga de clientes en una empresa del sector de telefonía móvil. El algoritmo Adaboost se sustenta en el aprendizaje adaptativo al entrenar clasificadores débiles combinándolos en conjunto para obtener un clasificador cuyo rendimiento sea fuerte. En cuanto a la regresión logística su modelamiento se realizó estrictamente desde una perspectiva de minería de datos, donde la clasificación es el objetivo y el rendimiento se evaluó en un conjunto de validación. Ambas técnicas se compararon mediante dos procedimientos, el primero mediante métodos de muestreo (sub-muestreo, sobre-muestreo y SMOTE) y el segundo modificando y/o ajustando el algoritmo o función. Al trabajar con datos desbalanceados la tasa de error de clasificación es ineficiente, por lo que las medidas de desempeño para elegir al mejor modelo fueron la precisión, el recall (sensibilidad), el F-measure, y como medida principal el AUC a través de curvas ROC. Al formar modelos logísticos con los métodos de muestreo, las medidas de desempeño arrojaron resultados similares, lo mismo pasó al formar modelos con el algoritmo Adaboost, sin embargo al comparar la regresión logística (AUC=0.86) con el algoritmo Adaboost (AUC =0.93), este último tuvo el mejor desempeño. En cuanto al ajuste a nivel de algoritmo o función, en la regresión logística se trabajó de dos maneras, el primero (Logit Asym) incluyendo en la FDA un valor Kappa (k) y el segundo (Power Logit) un valor Lambda (λ), en ambos modelos se identificaron los valores óptimos de k (0.02) y λ (2.5), en cuanto al algoritmo Adaboost (Adaboost Asym) se ajustó el peso de la clase minoritaria cuyo costo de clasificación fue errónea. La comparación de estos tres modelos ajustados dio como mayor rendimiento al algoritmo Adaboost. Finalmente se realizó la validación cruzada con 10 iteraciones para todos los modelos dando resultados similares al método de retención. Realizada todas las comparaciones y las medidas de desempeño se concluye que el modelo óptimo para la predicción de fuga de clientes en la empresa de telefonía es el algoritmo AdaboostThe purpose of this research is to apply and to compare the logistic regression model and the Adaboost algorithm in unbalanced data, the purposes of predict the customer churn in a company in the mobile telephony sector. The Adaboost algorithm is based on adaptive learning when training weak classifiers, combining them together to obtain a classifier whose performance is strong. In terms of logistic regression, its modeling was done strictly from a data mining perspective, where the classification is the objective and the performance was evaluated in a validation set. Both techniques were compared using two methods, the first using sampling methods (sub-sampling, oversampling and SMOTE) and the second modifying and / or adjusting the algorithm or function. When working with unbalanced data the classification error rate is inefficient, so the performance measures to choose the best model were accuracy, recall (sensitivity), F-measure, and as a main measure the AUC through ROC curves. When forming logistic models with the sampling methods, the performance measures yielded similar results, the same happened when forming models with the Adaboost algorithm, however when comparing the logistic regression (AUC = 0.86) with the Adaboost algorithm (AUC = 0.93), the latter had the best performance. Regarding the adjustment at the level of algorithm or function, the logistic regression was worked in two ways, the first (Logit Asym) including in the FDA a Kappa value (k) and the second (Power Logit) a Lambda value (λ), in both models the optimal values of k (0.02) and λ (2.5) were identified, in terms of the Adaboost algorithm (Adaboost Asym) the weight of the minority class whose cost of classification was erroneous was adjusted. The comparison of these three adjusted models gave the Adaboost algorithm a higher performance. Finally, cross validation was carried out with 10 iterations for all the models, giving similar results to the retention method. Once all the comparisons and measures of performance are concluded, it is concluded that the optimal model for the prediction of customer leakage in the telephone company is the Adaboost algorithmTesisapplication/pdfspaUniversidad Nacional Agraria La Molinainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional Agraria La MolinaRepositorio institucional - UNALMreponame:UNALM-Institucionalinstname:Universidad Nacional Agraria La Molinainstacron:UNALMTelecomunicacionesEmpresas privadasConsumidoresMétodos estadísticosAplicaciones del ordenadorEvaluaciónPerúRotación de clientesRiesgo de fugahttps://purl.org/pe-repo/ocde/ford#4.05.00Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétricainfo:eu-repo/semantics/masterThesisSUNEDUEstadística AplicadaUniversidad Nacional Agraria La Molina. Escuela de PosgradoMagister Scientiae - Estadística AplicadaMaestríaTHUMBNAILmeza-rodriguez-aldo-richard.pdf.jpgmeza-rodriguez-aldo-richard.pdf.jpgGenerated Thumbnailimage/jpeg3244https://repositorio.lamolina.edu.pe/bitstreams/be26b14d-1e91-4df0-8dc9-b9fafd5c9438/downloade029bc9245d3a3f22ca8d9d029d110a2MD55E70-M49-T-resumen.pdf.jpgE70-M49-T-resumen.pdf.jpgGenerated Thumbnailimage/jpeg3593https://repositorio.lamolina.edu.pe/bitstreams/9c2b8558-9274-4a7f-a3d2-9ef121649ca3/downloadf3415050b57c02d38e9a82873189e2c7MD57ORIGINALmeza-rodriguez-aldo-richard.pdfmeza-rodriguez-aldo-richard.pdfTexto completoapplication/pdf1544335https://repositorio.lamolina.edu.pe/bitstreams/95bfd2d5-feea-4326-8f49-9b83528f49e5/download38ccc0111ba960aa32f454dc47f86f16MD51E70-M49-T-resumen.pdfE70-M49-T-resumen.pdfResumenapplication/pdf306485https://repositorio.lamolina.edu.pe/bitstreams/566219b8-4a91-4a8c-945d-0613afd72c00/download4e6710cc9ebeeb93912d48d36abf1b9cMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81683https://repositorio.lamolina.edu.pe/bitstreams/276976f4-11db-47de-ad42-7dce7880e359/download85e652b8dfa19b82485c505314e0a902MD52TEXTmeza-rodriguez-aldo-richard.pdf.txtmeza-rodriguez-aldo-richard.pdf.txtExtracted texttext/plain170341https://repositorio.lamolina.edu.pe/bitstreams/3a58020a-d0cc-45ab-b576-bbd75041194e/download5bd4f1f71d13f39174d026920dcc32b0MD53E70-M49-T-resumen.pdf.txtE70-M49-T-resumen.pdf.txtExtracted texttext/plain5492https://repositorio.lamolina.edu.pe/bitstreams/4a184e72-edab-4e10-8b77-36fd5f0f2501/download91f56030550cd0c060f844ee2fdbbb0bMD5620.500.12996/3245oai:repositorio.lamolina.edu.pe:20.500.12996/32452023-01-05 04:45:17.401https://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.lamolina.edu.peRepositorio Universidad Nacional Agraria La Molinadspace@lamolina.edu.peTGljZW5jaWEgZGUgVXNvCiAKTGEgVW5pdmVyc2lkYWQgTmFjaW9uYWwgQWdyYXJpYSBMYSBNb2xpbmEgKFVOQUxNKSwgZGlmdW5kZSBtZWRpYW50ZSBzdSAKcmVwb3NpdG9yaW8gbG9zIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuIHByb2R1Y2lkb3MgcG9yIGxvcyBtaWVtYnJvcyBkZSBsYSAKdW5pdmVyc2lkYWQuIEVsIGNvbnRlbmlkbyBkZSBsb3MgZG9jdW1lbnRvcyBkaWdpdGFsZXMgZXMgZGUgYWNjZXNvIGFiaWVydG8gCnBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIAplcyBuZWNlc2FyaW8gcXVlIHNlIGN1bXBsYSBjb24gbGFzIHNpZ3VpZW50ZXMgY29uZGljaW9uZXM6CgpFbCBuZWNlc2FyaW8gcmVjb25vY2ltaWVudG8gZGUgbGEgYXV0b3LDrWEgZGUgbGEgb2JyYSwgaWRlbnRpZmljYW5kbyBvcG9ydHVuYSB5CmNvcnJlY3RhbWVudGUgYSBsYSBwZXJzb25hIHF1ZSBwb3NlYSBsb3MgZGVyZWNob3MgZGUgYXV0b3IuCgpObyBlc3TDoSBwZXJtaXRpZG8gZWwgdXNvIGluZGViaWRvIGRlbCB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGNvbiBmaW5lcyBkZSAKbHVjcm8gbyBjdWFscXVpZXIgdGlwbyBkZSBhY3RpdmlkYWQgcXVlIHByb2R1emNhIGdhbmFuY2lhcyBhIGxhcyBwZXJzb25hcyBxdWUgCmxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyB0cmFiYWpvcyBxdWUgc2UgcHJvZHV6Y2FuLCBhIHBhcnRpciBkZSBsYSBvYnJhLCBkZWJlbiBwb3NlZXIgbGEgY2l0YWNpw7NuIApwZXJ0aW5lbnRlIHRhbCBjb21vIGxvIGluZGljYW4gbGFzIE5vcm1hcyBUw6ljbmljYXMgZGVsIElJQ0EgeSBDQVRJRSBkZSAKUmVkYWNjacOzbiBkZSBSZWZlcmVuY2lhcyBCaWJsaW9ncsOhZmljYXMuIENhc28gY29udHJhcmlvLCBzZSBpbmN1cnJpcsOhIGVuIGxhIApmaWd1cmEganVyw61kaWNhIGRlbCBwbGFnaW8uCgpMb3MgZGVyZWNob3MgbW9yYWxlcyBkZWwgYXV0b3Igbm8gc29uIGFmZWN0YWRvcyBwb3IgbGEgcHJlc2VudGUgbGljZW5jaWEgZGUgdXNvLgoKRGVyZWNob3MgZGUgYXV0b3IKCkxhIFVOQUxNIG5vIHBvc2VlIGxvcyBkZXJlY2hvcyBkZSBwcm9waWVkYWQgaW50ZWxlY3R1YWwuIExvcyBkZXJlY2hvcyBkZSBhdXRvciAKc2UgZW5jdWVudHJhbiBwcm90ZWdpZG9zIHBvciBsYSBsZWdpc2xhY2nDs24gcGVydWFuYTogTGV5IHNvYnJlIGVsIERlcmVjaG8gZGUgCkF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgCjE4OcKwIGRlbCBkZWNyZXRvIGxlZ2lzbGF0aXZvIE7CsDgyMiwgTGV5IHNvYnJlIGRlcmVjaG9zIGRlIGF1dG9yIHByb211bGdhZG8gZW4gCjIwMDUgKExleSBOwrAyODUxNyksIERlY3JldG8gTGVnaXNsYXRpdm8gcXVlIGFwcnVlYmEgbGEgbW9kaWZpY2FjacOzbiBkZWwgCkRlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggCihELkwuIE7CsDEwNzYpLgoKT2JzZXJ2YWNpb25lczoKCkluc2NyaWJpcnNlIGVuIENyZWF0aXZlIENvbW1vbnMgQkFOCiAK |
score |
12.659675 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).