top of page

Machine Learning for Prediction of Credit Card Churn 

PARTE 2

Análise Exploratória de Dados

Nessa seção do projeto, realizamos uma análise exploratória de dados, focando em variáveis categóricas relacionadas ao comportamento dos clientes. Utilizamos visualizações gráficas para explorar padrões e correlações, permitindo uma melhor compreensão das dinâmicas de crédito e churn. Essas análises fornecem insights valiosos sobre o perfil dos clientes e suas interações com os produtos financeiros.

1 -  Distribuição de Variáveis Categóricas

Esse código funciona criando 3 subplots que servirão como template para dois tipos

de gráficos sobrepostos, um kdeplot e um histplot, ambos com matiz definida para

o gênero do usuário, com uma paleta customizada, todos mostrando a densidade.

codetoimg-snippet (67).png
  • ​​Idade dos Clientes: A média de idade dos clientes varia entre 30 e 60 anos.

  • Limite de Crédito: Os clientes, em média, possuem um limite de crédito entre 2.000 e 10.000 dólares. No entanto, destaca-se um número significativo de mulheres com limites de crédito na faixa de 2.000 a 5.000 dólares.

  • Tempo como Usuários: A distribuição do tempo de permanência dos clientes, em meses, apresenta uma tendência parabólica, com um notável aumento no número de clientes que possuem 37 meses de relacionamento.

Customer_Age_distribution.png
Credit_Limit_distribution.png
Months_on_book_distribution.png

2 -  Relação entre Variáveis e Limite de Crédito

O código executa a agrupamento de cada uma das variáveis categóricas selecionadas em relação à média do limite de crédito, incorporando também a variável de churn para facilitar a análise na matiz futura. Para melhorar a visibilidade dos gráficos, estabeleci um limite arbitrário para o eixo y, baseado no menor valor de cada grupo, subtraindo 2000 do mínimo para uma melhor amostragem.

codetoimg-snippet (68).png
  • Dependentes: À medida que o número de dependentes aumenta, o limite de crédito tende a crescer.

  • Relacionamento: Clientes sem vínculos de relacionamento geralmente apresentam limites de crédito mais elevados.

  • Salário Médio: O limite de crédito aumenta quase linearmente com o salário do cliente.

  • Educação: Não há uma relação aparente entre o nível de educação do cliente e seu limite de crédito.

  • Produtos: Quanto menor a quantidade de produtos vinculados, maior tende a ser o limite de crédito.

  • Gênero: Homens possuem limites de crédito significativamente maiores em comparação às mulheres.

Dependents_credit_limit.png
Marital Status_credit_limit.png
Income Level_credit_limit.png
Education_credit_limit.png
Total Products_credit_limit.png
Gender_credit_limit.png

3 - Matriz de Correlação das Variáveis Numéricas

Este código seleciona apenas as variáveis numéricas e gera uma matriz de correlação utilizando o comando pandas.corr(). Com base nessa matriz, um heatmap é plotado utilizando a biblioteca Seaborn, onde cores mais escuras representam correlações positivas e cores claras indicam correlações negativas.

codetoimg-snippet (69).png
  • Months As Customer vs Age: Correlação forte (0.79); clientes mais velhos permanecem mais tempo.

  • Credit Limit vs Average Open To Buy: Correlação positiva (0.62); maior limite implica maior crédito disponível.

  • Total Transactions Amount vs Total Transactions Count: Correlação alta (0.81); mais transações geram maior valor total.

  • Average Utilization Ratio vs Credit Limit: Correlação negativa (-0.48); limites altos reduzem a utilização média.

  • Average Open To Buy vs Average Utilization Ratio: Correlação negativa (-0.54); maior crédito disponível reduz a utilização.

output.png

4 - Proporção das Categorias com Probabilidade de Churn

O código executa a agrupamento de cada uma das variáveis categóricas selecionadas em relação à média do limite de crédito, incorporando também a variável de churn para facilitar a análise na matiz futura. Para melhorar a visibilidade dos gráficos, estabeleci um limite arbitrário para o eixo y, baseado no menor valor de cada grupo, subtraindo 2000 do mínimo para uma melhor amostragem.

codetoimg-snippet (70).png
  • Relacionamento: A maioria dos clientes se divide entre solteiros e casados, com uma pequena porcentagem de divorciados. De modo geral, ser casado reduz a probabilidade de churn no cartão.

  • Salário Médio: Clientes com salários mais altos apresentam maior propensão ao churn.

  • Educação: Pessoas com níveis mais altos de educação tendem a ter maior probabilidade de churn.

  • Distribuição Geral: Para salário e educação, a proporção dos clientes segue o padrão esperado, alinhando-se com a distribuição natural desses fatores na população.

Marital_Status_pie_plot.png
Income_Category_pie_plot.png
Education_Level_pie_plot.png

5 - Relação de Perfil do Cliente com Variáveis Financeiras

O código seleciona colunas financeiras relevantes, como limite de crédito, valor total de transações, e frequência de uso, com o objetivo de explorar a relação entre esses fatores e o perfil dos clientes, considerando idade e gênero. Para aprimorar a visualização, utilizamos uma paleta de cores personalizada que distingue gêneros de forma sutil.

codetoimg-snippet (72).png
  • Depois dos 30 anos, observa-se que as mulheres possuem um limite de crédito menor que o dos homens.

  •  Em contrapartida, as mulheres fazem maior uso do cartão de crédito em comparação aos homens.

  • O valor médio das transações cresce progressivamente até os 50 anos, momento em que começa a declinar.

  • A utilização do cartão é estável entre as faixas etárias, com homens alcançando o nível das mulheres por volta dos 60 anos.

  • O número de transações se mantém constante até os 65 anos, a partir de quando começa a apresentar uma queda gradual.

Credit_Limit_plot.png
Total_Trans_Amt_plot.png
Total_Trans_Ct_plot.png
Avg_Utilization_Ratio_plot.png

6 - Relação do Tipo de Cartão com o Grau de Educação

Este código realiza uma análise visual da distribuição dos níveis de escolaridade em diferentes categorias de cartões, utilizando histogramas empilhados para cada tipo de cartão. Cada gráfico é refinado com uma paleta de tons de cinza e legendas organizadas, proporcionando uma visualização clara e comparativa.

codetoimg-snippet (73).png
  • A esmagadora maioria dos clientes possui cartão do tipo Blue, evidenciando sua popularidade entre os usuários.

  • Os níveis educacionais não apresentam uma influência significativa sobre a distribuição dos cartões Blue, Silver e Gold.

  • Proporção no Nível Platinum: No nível Platinum, observa-se um aumento considerável na proporção de membros com Doutorado e Pós-Doutorado, sugerindo que este cartão é mais comum entre clientes com formação avançada.

  • Educação Superior: A maioria dos clientes possui, pelo menos, um nível de educação superior, o que pode refletir um perfil de cliente mais qualificado e potencialmente mais propenso a utilizar cartões de crédito premium.

histogram_Blue.png
histogram_Gold.png
histogram_Silver.png
histogram_Platinum_edited.jpg

7 - Distribuição Estatística de Variáveis com Churn

Este código cria uma visualização abrangente da distribuição de variáveis-chave relacionadas ao churn de clientes, permitindo comparações visuais entre clientes que cancelaram e os que permaneceram com o serviço. Cada boxplot fornece informações sobre a mediana, a variabilidade e a presença de outliers em relação às variáveis analisadas.

codetoimg-snippet (74).png
  • A fidelidade dos clientes ao banco varia entre 20 e 55 meses, tanto entre cancelados quanto ativos.

  • Clientes que cancelaram fazem consideravelmente menos transações.

  • O outlier do grupo de cancelamento está dentro do IQR dos clientes ativos, destacando a diferença de comportamento.

  • Clientes ativos realizam transações de maior valor médio.

  • Apesar das diferenças, os limites de crédito são semelhantes, com os ativos tendo uma média ligeiramente superior.

boxplot_Months_on_book.png
boxplot_Total_Trans_Amt.png
boxplot_Total_Trans_Ct.png
boxplot_Credit_Limit.png
bottom of page