Portal de Eventos CoPICT - UFSCar, XXVII CIC e XII CIDTI

Tamanho da fonte: 
Aplicação de classificadores múltiplos associados a árvores de decisões na predição de churn
Letícia Aparecida da Silva, José Carlos Fogo

Última alteração: 2021-02-25

Resumo


O estudo da predição de churn está sendo muito utilizado atualmente, a fim de aumentar os lucros de uma empresa e diminuir o prejuízo gerado com possível rompimento de um contrato. Com isso as empresas passaram a priorizar suas estratégias de marketing em manter os clientes já existentes. Para realizar a predição do churn diferentes classificadores podem ser utilizados, como por exemplo, classificação por árvores associada a métodos de aprendizado de máquina.

Um dos propósitos dessa pesquisa é utilizar recursos tecnológicos para realizar a classificação de indivíduos de um banco de dados através de modelos de classificação múltipla para a predição de churn. Em segundo plano vamos comparar com os resultados de Nakano (2001), obtidos com regressão logística.

A predição de churn pode ser feita por técnicas de classificação múltipla associadas à classificação por árvores. O modelo de regressão e classificação por árvore é uma ferramenta preditiva para estudar associações entre um vetor de variáveis preditoras X e uma variável resposta Y, a partir de partições do espaço gerado por X. A ideia é construir um classificador global a partir de combinações de classificações múltiplas obtidas por meio das técnicas de bagging e boosting. O método bagging utiliza-se da técnica de bootstrap em que uma classificação é obtida para cada reamostra. No final do processo uma classificação é obtida pela média ou moda das classificações individuais. No boosting os classificadores são obtidos sequencialmente por meio de um algoritmo iterativo no qual pesos são gerados em cada passo do processo, penalizando as observações classificadas erradas no passo anterior. O processo é repetido para diversas amostras e a classificação final é dada pela última combinação linear das classificações individuais de tais amostras.

Com um conjunto de dados Telecom, contendo 1000 observações de clientes de uma empresa de telecomunicações, cuja resposta Y = ocorrência, ou não, de churn, ou seja, do cancelamento do contrato. Foram analisados quatro modelos, sendo que aquele que apresentou o melhor resultado em termos de erro de classificação foi: churn receitas + empregoduracao + educacao + idade + estadocivil + clienteduracao.

Comparando os resultados, o erro global de classificação com uma única regressão por árvores foi de 24,7%.

Dividindo os dados em duas partes na proporção de 3 para 1, denominadas treinamento e validação, os erros de classificação dos métodos boosting e bagging para o conjunto treinamento foram de 13,1% e 18,9%, respectivamente.

Considerando o conjunto treinamento e avaliando as classificações pelo erro global de predição, pode-se concluir que o boosting foi o método que apresentou o melhor desempenho. Porém, é importante destacar que a baixa proporção de churn nos dados influenciou os resultados, em especial no boosting, indicando que outros estudos devem ser realizados. É importante, ainda, destacar que os resultados obtidos com regressão logística retirados por Nakano (2017), foram melhores, porém com um modelo diferente e que, esse mesmo modelo também foi aqui avaliado, não repetindo a performance anterior.


Palavras-chave


Boosting; bagging; classificadores múltiplos; churn; regressão por árvore.

Referências


[1] Abreu, H.J. Aplicação da Análise de Sobrevivência em um problema de credit scoring e comparação com a regressão logística. Departamento de Estatística, Universidade Federal de São Carlos, Brasil, 2004.

[2] Assato, M.M. Modelos de sobrevivência em marketing: o valor do tempo de vida de clientes. Departamento de Estatìstica, Universidade Federal de São Carlos, Brasil, 2014.

[3] Breiman, L; Friedman, J.H.; Olshen, R.A.; Stone, C.J. Classification and regression trees. Boca Raton, Florida: Chapman & Hall/CRC, 1984.

[4] Brilhadori, M.; Lauretto, M.S. Estudo comparativo entre algoritmos de árvores de classificação e máquinas de vetores suporte, baseados em ensembles de classificadores. IX Simpósio Brasileiro de Sistemas de Informação, Universidade Federal da Paraíba, João Pessoa, PB, 2013.

[5] Botelho, D.; Tostes, F.D. Modelagem de probabilidade de churn. Revista de Administração de Empresas, v. 50(4), p. 396, 2010.

[6] Dias, A.A.D. Previsão do incumprimento no crédito a empresas com classificadores múltiplos. Tese (Doutorado), Instituto Superior de Economia e Gestão. 2012.

[7] Johnson, R.A.; Wichern, D.W. Applied multivariate statistical analysis. 5.ed. New Jersey: Prentice-Hall, 2012.

[8] KAGGLE. Titanic: Machine Learning from Disaster. Disponível em:

https://www.kaggle.com/c/titanic/data. Acesso em 16 set. 2019.

[9] Kass, G.V. An exploratory technique for investigating large quantities of categorical data. Journal of the Royal Statistical Society: Series C (Applied Statistics), v. 29, n. 2, p. 119-127, 1980.

[10] Lu, J. Predicting customer churn in the telecommunications industry: an application of survival analysis modeling using SAS. SAS User Group International (SUGI27) Online Proceedings, p. 114-27, 2002.

[11] Morgan J.N., Sunquist J.A. Problems in the analysis of survey data and a proposal. Journal of the American Statistical Association. 58: 415-434, 1963.

[12] Morgan, J.N.; Messenger, R.C. THAID: a sequential search program for the analysis of nominal scale dependent variables. Ann Arbor: Institute for Social Research, University of Michigan, 1973.

[13] Nakano, C.A. Database Marketing: predição logística de churn com classificadores múltiplos. Departamento de Estatística, Universidade Federal de São Carlos, Brasil, 2017.

[14] Neslin, S.A.; Gupta, S.; Kamakura, W.; Lu, J.; Mason, C.H. Defection detection: Measuring and understanding the predictive accuracy of customer churn models. Journal of marketing research, v. 43(2), p. 204-211, 2006.

[15] Pinho, A.G. Estratégias de retenção de clientes no marketing de relacionamento. Congresso Knowledge Management Brasil, São Paulo, Brasil, 2007.

[16] R Core Team R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2019.

[17] Santos, R. Um Método para Segmentação de Preditores. Tese (Doutorado), Centro de Informática, Universidade Federal de Pernambuco, 2010.

[18] Silva, A.M.M. Técnicas de data mining na aquisição de clientes para financiamento e crédito direto ao consumidor - CDC, Dissertação (Mestrado), Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo, Brasil, 2012.