Angel Mansilla

Machine Learning for Prediction of Credit Card Churn
PARTE 2
Análise Exploratória de Dados
Nessa seção do projeto, realizamos uma análise exploratória de dados, focando em variáveis categóricas relacionadas ao comportamento dos clientes. Utilizamos visualizações gráficas para explorar padrões e correlações, permitindo uma melhor compreensão das dinâmicas de crédito e churn. Essas análises fornecem insights valiosos sobre o perfil dos clientes e suas interações com os produtos financeiros.
1 - Distribuição de Variáveis Categóricas
Esse código funciona criando 3 subplots que servirão como template para dois tipos
de gráficos sobrepostos, um kdeplot e um histplot, ambos com matiz definida para
o gênero do usuário, com uma paleta customizada, todos mostrando a densidade.

-
​​Idade dos Clientes: A média de idade dos clientes varia entre 30 e 60 anos.
-
Limite de Crédito: Os clientes, em média, possuem um limite de crédito entre 2.000 e 10.000 dólares. No entanto, destaca-se um número significativo de mulheres com limites de crédito na faixa de 2.000 a 5.000 dólares.
-
Tempo como Usuários: A distribuição do tempo de permanência dos clientes, em meses, apresenta uma tendência parabólica, com um notável aumento no número de clientes que possuem 37 meses de relacionamento.



2 - Relação entre Variáveis e Limite de Crédito
O código executa a agrupamento de cada uma das variáveis categóricas selecionadas em relação à média do limite de crédito, incorporando também a variável de churn para facilitar a análise na matiz futura. Para melhorar a visibilidade dos gráficos, estabeleci um limite arbitrário para o eixo y, baseado no menor valor de cada grupo, subtraindo 2000 do mínimo para uma melhor amostragem.

-
Dependentes: À medida que o número de dependentes aumenta, o limite de crédito tende a crescer.
-
Relacionamento: Clientes sem vínculos de relacionamento geralmente apresentam limites de crédito mais elevados.
-
Salário Médio: O limite de crédito aumenta quase linearmente com o salário do cliente.
-
Educação: Não há uma relação aparente entre o nível de educação do cliente e seu limite de crédito.
-
Produtos: Quanto menor a quantidade de produtos vinculados, maior tende a ser o limite de crédito.
-
Gênero: Homens possuem limites de crédito significativamente maiores em comparação às mulheres.






3 - Matriz de Correlação das Variáveis Numéricas
Este código seleciona apenas as variáveis numéricas e gera uma matriz de correlação utilizando o comando pandas.corr(). Com base nessa matriz, um heatmap é plotado utilizando a biblioteca Seaborn, onde cores mais escuras representam correlações positivas e cores claras indicam correlações negativas.

-
Months As Customer vs Age: Correlação forte (0.79); clientes mais velhos permanecem mais tempo.
-
Credit Limit vs Average Open To Buy: Correlação positiva (0.62); maior limite implica maior crédito disponível.
-
Total Transactions Amount vs Total Transactions Count: Correlação alta (0.81); mais transações geram maior valor total.
-
Average Utilization Ratio vs Credit Limit: Correlação negativa (-0.48); limites altos reduzem a utilização média.
-
Average Open To Buy vs Average Utilization Ratio: Correlação negativa (-0.54); maior crédito disponível reduz a utilização.

4 - Proporção das Categorias com Probabilidade de Churn
O código executa a agrupamento de cada uma das variáveis categóricas selecionadas em relação à média do limite de crédito, incorporando também a variável de churn para facilitar a análise na matiz futura. Para melhorar a visibilidade dos gráficos, estabeleci um limite arbitrário para o eixo y, baseado no menor valor de cada grupo, subtraindo 2000 do mínimo para uma melhor amostragem.

-
Relacionamento: A maioria dos clientes se divide entre solteiros e casados, com uma pequena porcentagem de divorciados. De modo geral, ser casado reduz a probabilidade de churn no cartão.
-
Salário Médio: Clientes com salários mais altos apresentam maior propensão ao churn.
-
Educação: Pessoas com níveis mais altos de educação tendem a ter maior probabilidade de churn.
-
Distribuição Geral: Para salário e educação, a proporção dos clientes segue o padrão esperado, alinhando-se com a distribuição natural desses fatores na população.



5 - Relação de Perfil do Cliente com Variáveis Financeiras
O código seleciona colunas financeiras relevantes, como limite de crédito, valor total de transações, e frequência de uso, com o objetivo de explorar a relação entre esses fatores e o perfil dos clientes, considerando idade e gênero. Para aprimorar a visualização, utilizamos uma paleta de cores personalizada que distingue gêneros de forma sutil.

-
Depois dos 30 anos, observa-se que as mulheres possuem um limite de crédito menor que o dos homens.
-
Em contrapartida, as mulheres fazem maior uso do cartão de crédito em comparação aos homens.
-
O valor médio das transações cresce progressivamente até os 50 anos, momento em que começa a declinar.
-
A utilização do cartão é estável entre as faixas etárias, com homens alcançando o nível das mulheres por volta dos 60 anos.
-
O número de transações se mantém constante até os 65 anos, a partir de quando começa a apresentar uma queda gradual.




6 - Relação do Tipo de Cartão com o Grau de Educação
Este código realiza uma análise visual da distribuição dos níveis de escolaridade em diferentes categorias de cartões, utilizando histogramas empilhados para cada tipo de cartão. Cada gráfico é refinado com uma paleta de tons de cinza e legendas organizadas, proporcionando uma visualização clara e comparativa.

-
A esmagadora maioria dos clientes possui cartão do tipo Blue, evidenciando sua popularidade entre os usuários.
-
Os níveis educacionais não apresentam uma influência significativa sobre a distribuição dos cartões Blue, Silver e Gold.
-
Proporção no Nível Platinum: No nível Platinum, observa-se um aumento considerável na proporção de membros com Doutorado e Pós-Doutorado, sugerindo que este cartão é mais comum entre clientes com formação avançada.
-
Educação Superior: A maioria dos clientes possui, pelo menos, um nível de educação superior, o que pode refletir um perfil de cliente mais qualificado e potencialmente mais propenso a utilizar cartões de crédito premium.




7 - Distribuição Estatística de Variáveis com Churn
Este código cria uma visualização abrangente da distribuição de variáveis-chave relacionadas ao churn de clientes, permitindo comparações visuais entre clientes que cancelaram e os que permaneceram com o serviço. Cada boxplot fornece informações sobre a mediana, a variabilidade e a presença de outliers em relação às variáveis analisadas.

-
A fidelidade dos clientes ao banco varia entre 20 e 55 meses, tanto entre cancelados quanto ativos.
-
Clientes que cancelaram fazem consideravelmente menos transações.
-
O outlier do grupo de cancelamento está dentro do IQR dos clientes ativos, destacando a diferença de comportamento.
-
Clientes ativos realizam transações de maior valor médio.
-
Apesar das diferenças, os limites de crédito são semelhantes, com os ativos tendo uma média ligeiramente superior.



