Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica

Descripción del Articulo

Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística Aplicada
Detalles Bibliográficos
Autor: Meza Rodríguez, Aldo Richard
Formato: tesis de maestría
Fecha de Publicación:2018
Institución:Universidad Nacional Agraria La Molina
Repositorio:UNALM-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.lamolina.edu.pe:20.500.12996/3245
Enlace del recurso:https://hdl.handle.net/20.500.12996/3245
Nivel de acceso:acceso abierto
Materia:Telecomunicaciones
Empresas privadas
Consumidores
Métodos estadísticos
Aplicaciones del ordenador
Evaluación
Perú
Rotación de clientes
Riesgo de fuga
https://purl.org/pe-repo/ocde/ford#4.05.00
id UNAL_5a1c753264498ba689224f7c2a0bd894
oai_identifier_str oai:repositorio.lamolina.edu.pe:20.500.12996/3245
network_acronym_str UNAL
network_name_str UNALM-Institucional
repository_id_str 3039
dc.title.es_PE.fl_str_mv Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
title Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
spellingShingle Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
Meza Rodríguez, Aldo Richard
Telecomunicaciones
Empresas privadas
Consumidores
Métodos estadísticos
Aplicaciones del ordenador
Evaluación
Perú
Rotación de clientes
Riesgo de fuga
https://purl.org/pe-repo/ocde/ford#4.05.00
title_short Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
title_full Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
title_fullStr Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
title_full_unstemmed Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
title_sort Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
author Meza Rodríguez, Aldo Richard
author_facet Meza Rodríguez, Aldo Richard
author_role author
dc.contributor.advisor.fl_str_mv Chue Gallardo, Jorge
dc.contributor.author.fl_str_mv Meza Rodríguez, Aldo Richard
dc.subject.es_PE.fl_str_mv Telecomunicaciones
Empresas privadas
Consumidores
Métodos estadísticos
Aplicaciones del ordenador
Evaluación
Perú
Rotación de clientes
Riesgo de fuga
topic Telecomunicaciones
Empresas privadas
Consumidores
Métodos estadísticos
Aplicaciones del ordenador
Evaluación
Perú
Rotación de clientes
Riesgo de fuga
https://purl.org/pe-repo/ocde/ford#4.05.00
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#4.05.00
description Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística Aplicada
publishDate 2018
dc.date.accessioned.none.fl_str_mv 2018-04-25T18:28:05Z
dc.date.available.none.fl_str_mv 2018-04-25T18:28:05Z
dc.date.issued.fl_str_mv 2018
dc.type.en_US.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.other.none.fl_str_mv E70.M49-T BAN UNALM
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12996/3245
identifier_str_mv E70.M49-T BAN UNALM
url https://hdl.handle.net/20.500.12996/3245
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.en_US.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional Agraria La Molina
dc.source.es_PE.fl_str_mv Universidad Nacional Agraria La Molina
Repositorio institucional - UNALM
dc.source.none.fl_str_mv reponame:UNALM-Institucional
instname:Universidad Nacional Agraria La Molina
instacron:UNALM
instname_str Universidad Nacional Agraria La Molina
instacron_str UNALM
institution UNALM
reponame_str UNALM-Institucional
collection UNALM-Institucional
bitstream.url.fl_str_mv https://repositorio.lamolina.edu.pe/bitstreams/be26b14d-1e91-4df0-8dc9-b9fafd5c9438/download
https://repositorio.lamolina.edu.pe/bitstreams/9c2b8558-9274-4a7f-a3d2-9ef121649ca3/download
https://repositorio.lamolina.edu.pe/bitstreams/95bfd2d5-feea-4326-8f49-9b83528f49e5/download
https://repositorio.lamolina.edu.pe/bitstreams/566219b8-4a91-4a8c-945d-0613afd72c00/download
https://repositorio.lamolina.edu.pe/bitstreams/276976f4-11db-47de-ad42-7dce7880e359/download
https://repositorio.lamolina.edu.pe/bitstreams/3a58020a-d0cc-45ab-b576-bbd75041194e/download
https://repositorio.lamolina.edu.pe/bitstreams/4a184e72-edab-4e10-8b77-36fd5f0f2501/download
bitstream.checksum.fl_str_mv e029bc9245d3a3f22ca8d9d029d110a2
f3415050b57c02d38e9a82873189e2c7
38ccc0111ba960aa32f454dc47f86f16
4e6710cc9ebeeb93912d48d36abf1b9c
85e652b8dfa19b82485c505314e0a902
5bd4f1f71d13f39174d026920dcc32b0
91f56030550cd0c060f844ee2fdbbb0b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Universidad Nacional Agraria La Molina
repository.mail.fl_str_mv dspace@lamolina.edu.pe
_version_ 1843170345573416960
spelling Chue Gallardo, Jorge0f9d25e3-cd59-460c-bc11-188d67e51cb2Meza Rodríguez, Aldo Richard2018-04-25T18:28:05Z2018-04-25T18:28:05Z2018E70.M49-T BAN UNALMhttps://hdl.handle.net/20.500.12996/3245Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística AplicadaLa presente investigación tiene como propósito aplicar y comparar el modelo de regresión logística y el algoritmo Adaboost en datos desbalanceados, esto a efecto de predecir la fuga de clientes en una empresa del sector de telefonía móvil. El algoritmo Adaboost se sustenta en el aprendizaje adaptativo al entrenar clasificadores débiles combinándolos en conjunto para obtener un clasificador cuyo rendimiento sea fuerte. En cuanto a la regresión logística su modelamiento se realizó estrictamente desde una perspectiva de minería de datos, donde la clasificación es el objetivo y el rendimiento se evaluó en un conjunto de validación. Ambas técnicas se compararon mediante dos procedimientos, el primero mediante métodos de muestreo (sub-muestreo, sobre-muestreo y SMOTE) y el segundo modificando y/o ajustando el algoritmo o función. Al trabajar con datos desbalanceados la tasa de error de clasificación es ineficiente, por lo que las medidas de desempeño para elegir al mejor modelo fueron la precisión, el recall (sensibilidad), el F-measure, y como medida principal el AUC a través de curvas ROC. Al formar modelos logísticos con los métodos de muestreo, las medidas de desempeño arrojaron resultados similares, lo mismo pasó al formar modelos con el algoritmo Adaboost, sin embargo al comparar la regresión logística (AUC=0.86) con el algoritmo Adaboost (AUC =0.93), este último tuvo el mejor desempeño. En cuanto al ajuste a nivel de algoritmo o función, en la regresión logística se trabajó de dos maneras, el primero (Logit Asym) incluyendo en la FDA un valor Kappa (k) y el segundo (Power Logit) un valor Lambda (λ), en ambos modelos se identificaron los valores óptimos de k (0.02) y λ (2.5), en cuanto al algoritmo Adaboost (Adaboost Asym) se ajustó el peso de la clase minoritaria cuyo costo de clasificación fue errónea. La comparación de estos tres modelos ajustados dio como mayor rendimiento al algoritmo Adaboost. Finalmente se realizó la validación cruzada con 10 iteraciones para todos los modelos dando resultados similares al método de retención. Realizada todas las comparaciones y las medidas de desempeño se concluye que el modelo óptimo para la predicción de fuga de clientes en la empresa de telefonía es el algoritmo AdaboostThe purpose of this research is to apply and to compare the logistic regression model and the Adaboost algorithm in unbalanced data, the purposes of predict the customer churn in a company in the mobile telephony sector. The Adaboost algorithm is based on adaptive learning when training weak classifiers, combining them together to obtain a classifier whose performance is strong. In terms of logistic regression, its modeling was done strictly from a data mining perspective, where the classification is the objective and the performance was evaluated in a validation set. Both techniques were compared using two methods, the first using sampling methods (sub-sampling, oversampling and SMOTE) and the second modifying and / or adjusting the algorithm or function. When working with unbalanced data the classification error rate is inefficient, so the performance measures to choose the best model were accuracy, recall (sensitivity), F-measure, and as a main measure the AUC through ROC curves. When forming logistic models with the sampling methods, the performance measures yielded similar results, the same happened when forming models with the Adaboost algorithm, however when comparing the logistic regression (AUC = 0.86) with the Adaboost algorithm (AUC = 0.93), the latter had the best performance. Regarding the adjustment at the level of algorithm or function, the logistic regression was worked in two ways, the first (Logit Asym) including in the FDA a Kappa value (k) and the second (Power Logit) a Lambda value (λ), in both models the optimal values of k (0.02) and λ (2.5) were identified, in terms of the Adaboost algorithm (Adaboost Asym) the weight of the minority class whose cost of classification was erroneous was adjusted. The comparison of these three adjusted models gave the Adaboost algorithm a higher performance. Finally, cross validation was carried out with 10 iterations for all the models, giving similar results to the retention method. Once all the comparisons and measures of performance are concluded, it is concluded that the optimal model for the prediction of customer leakage in the telephone company is the Adaboost algorithmTesisapplication/pdfspaUniversidad Nacional Agraria La Molinainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional Agraria La MolinaRepositorio institucional - UNALMreponame:UNALM-Institucionalinstname:Universidad Nacional Agraria La Molinainstacron:UNALMTelecomunicacionesEmpresas privadasConsumidoresMétodos estadísticosAplicaciones del ordenadorEvaluaciónPerúRotación de clientesRiesgo de fugahttps://purl.org/pe-repo/ocde/ford#4.05.00Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétricainfo:eu-repo/semantics/masterThesisSUNEDUEstadística AplicadaUniversidad Nacional Agraria La Molina. Escuela de PosgradoMagister Scientiae - Estadística AplicadaMaestríaTHUMBNAILmeza-rodriguez-aldo-richard.pdf.jpgmeza-rodriguez-aldo-richard.pdf.jpgGenerated Thumbnailimage/jpeg3244https://repositorio.lamolina.edu.pe/bitstreams/be26b14d-1e91-4df0-8dc9-b9fafd5c9438/downloade029bc9245d3a3f22ca8d9d029d110a2MD55E70-M49-T-resumen.pdf.jpgE70-M49-T-resumen.pdf.jpgGenerated Thumbnailimage/jpeg3593https://repositorio.lamolina.edu.pe/bitstreams/9c2b8558-9274-4a7f-a3d2-9ef121649ca3/downloadf3415050b57c02d38e9a82873189e2c7MD57ORIGINALmeza-rodriguez-aldo-richard.pdfmeza-rodriguez-aldo-richard.pdfTexto completoapplication/pdf1544335https://repositorio.lamolina.edu.pe/bitstreams/95bfd2d5-feea-4326-8f49-9b83528f49e5/download38ccc0111ba960aa32f454dc47f86f16MD51E70-M49-T-resumen.pdfE70-M49-T-resumen.pdfResumenapplication/pdf306485https://repositorio.lamolina.edu.pe/bitstreams/566219b8-4a91-4a8c-945d-0613afd72c00/download4e6710cc9ebeeb93912d48d36abf1b9cMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81683https://repositorio.lamolina.edu.pe/bitstreams/276976f4-11db-47de-ad42-7dce7880e359/download85e652b8dfa19b82485c505314e0a902MD52TEXTmeza-rodriguez-aldo-richard.pdf.txtmeza-rodriguez-aldo-richard.pdf.txtExtracted texttext/plain170341https://repositorio.lamolina.edu.pe/bitstreams/3a58020a-d0cc-45ab-b576-bbd75041194e/download5bd4f1f71d13f39174d026920dcc32b0MD53E70-M49-T-resumen.pdf.txtE70-M49-T-resumen.pdf.txtExtracted texttext/plain5492https://repositorio.lamolina.edu.pe/bitstreams/4a184e72-edab-4e10-8b77-36fd5f0f2501/download91f56030550cd0c060f844ee2fdbbb0bMD5620.500.12996/3245oai:repositorio.lamolina.edu.pe:20.500.12996/32452023-01-05 04:45:17.401https://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.lamolina.edu.peRepositorio Universidad Nacional Agraria La Molinadspace@lamolina.edu.peTGljZW5jaWEgZGUgVXNvCiAKTGEgVW5pdmVyc2lkYWQgTmFjaW9uYWwgQWdyYXJpYSBMYSBNb2xpbmEgKFVOQUxNKSwgZGlmdW5kZSBtZWRpYW50ZSBzdSAKcmVwb3NpdG9yaW8gbG9zIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuIHByb2R1Y2lkb3MgcG9yIGxvcyBtaWVtYnJvcyBkZSBsYSAKdW5pdmVyc2lkYWQuIEVsIGNvbnRlbmlkbyBkZSBsb3MgZG9jdW1lbnRvcyBkaWdpdGFsZXMgZXMgZGUgYWNjZXNvIGFiaWVydG8gCnBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIAplcyBuZWNlc2FyaW8gcXVlIHNlIGN1bXBsYSBjb24gbGFzIHNpZ3VpZW50ZXMgY29uZGljaW9uZXM6CgpFbCBuZWNlc2FyaW8gcmVjb25vY2ltaWVudG8gZGUgbGEgYXV0b3LDrWEgZGUgbGEgb2JyYSwgaWRlbnRpZmljYW5kbyBvcG9ydHVuYSB5CmNvcnJlY3RhbWVudGUgYSBsYSBwZXJzb25hIHF1ZSBwb3NlYSBsb3MgZGVyZWNob3MgZGUgYXV0b3IuCgpObyBlc3TDoSBwZXJtaXRpZG8gZWwgdXNvIGluZGViaWRvIGRlbCB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuIGNvbiBmaW5lcyBkZSAKbHVjcm8gbyBjdWFscXVpZXIgdGlwbyBkZSBhY3RpdmlkYWQgcXVlIHByb2R1emNhIGdhbmFuY2lhcyBhIGxhcyBwZXJzb25hcyBxdWUgCmxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyB0cmFiYWpvcyBxdWUgc2UgcHJvZHV6Y2FuLCBhIHBhcnRpciBkZSBsYSBvYnJhLCBkZWJlbiBwb3NlZXIgbGEgY2l0YWNpw7NuIApwZXJ0aW5lbnRlIHRhbCBjb21vIGxvIGluZGljYW4gbGFzIE5vcm1hcyBUw6ljbmljYXMgZGVsIElJQ0EgeSBDQVRJRSBkZSAKUmVkYWNjacOzbiBkZSBSZWZlcmVuY2lhcyBCaWJsaW9ncsOhZmljYXMuIENhc28gY29udHJhcmlvLCBzZSBpbmN1cnJpcsOhIGVuIGxhIApmaWd1cmEganVyw61kaWNhIGRlbCBwbGFnaW8uCgpMb3MgZGVyZWNob3MgbW9yYWxlcyBkZWwgYXV0b3Igbm8gc29uIGFmZWN0YWRvcyBwb3IgbGEgcHJlc2VudGUgbGljZW5jaWEgZGUgdXNvLgoKRGVyZWNob3MgZGUgYXV0b3IKCkxhIFVOQUxNIG5vIHBvc2VlIGxvcyBkZXJlY2hvcyBkZSBwcm9waWVkYWQgaW50ZWxlY3R1YWwuIExvcyBkZXJlY2hvcyBkZSBhdXRvciAKc2UgZW5jdWVudHJhbiBwcm90ZWdpZG9zIHBvciBsYSBsZWdpc2xhY2nDs24gcGVydWFuYTogTGV5IHNvYnJlIGVsIERlcmVjaG8gZGUgCkF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgCjE4OcKwIGRlbCBkZWNyZXRvIGxlZ2lzbGF0aXZvIE7CsDgyMiwgTGV5IHNvYnJlIGRlcmVjaG9zIGRlIGF1dG9yIHByb211bGdhZG8gZW4gCjIwMDUgKExleSBOwrAyODUxNyksIERlY3JldG8gTGVnaXNsYXRpdm8gcXVlIGFwcnVlYmEgbGEgbW9kaWZpY2FjacOzbiBkZWwgCkRlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggCihELkwuIE7CsDEwNzYpLgoKT2JzZXJ2YWNpb25lczoKCkluc2NyaWJpcnNlIGVuIENyZWF0aXZlIENvbW1vbnMgQkFOCiAK
score 12.659675
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).