Angel Mansilla

Machine Learning for Prediction of Credit Card Churn
PARTE 1
Introdução ao Conjunto de Dados
1 - Contexto de Negócio
Um gerente do banco está preocupado com o número crescente de clientes que estão deixando os serviços de cartão de crédito. Eles apreciariam muito se fosse possível prever quais clientes irão cancelar o serviço, para que possam agir de forma proativa, oferecendo um atendimento melhor e revertendo a decisão dos clientes.
Então, o gerente encontrou uma possível solução para o seu problema ao contratar Angel, um cientista de dados, para extrair insights a partir de um dataset por meio de análise exploratória de dados. Além disso, solicitou que Angel construísse um modelo de Machine Learning, capaz de prever, com base nos dados, se um cliente cancelaria ou não o cartão de crédito. e que entregasse também a precisão desse modelo.
2 - Dicionário de Dados
-
CLIENTNUM: Número único de identificação do cliente que possui a conta.
-
Attrition_Flag: Variável de evento interno (atividade do cliente
-
Customer_Age: Variável demográfica - Idade do cliente em anos.
-
Gender: Variável demográfica - Gênero do cliente
-
Dependent_count: Variável demográfica - Número de dependentes.
-
Education_Level: Variável demográfica - Grau de escolaridade do titular da conta
-
Marital_Status: Variável demográfica - Estado civil
-
Income_Category: Variável demográfica - Categoria de renda anual do titular da conta
-
Card_Category: Variável de produto - Tipo de cartão (Blue, Silver, Gold, Platinum).
-
Months_on_book: Período de relacionamento com o banco (em meses).
-
Months_on_book: Período de relacionamento com o banco (em meses).
-
Months_Inactive_12_mon: Número de meses inativos nos últimos 12 meses.
-
Contacts_Count_12_mon: Número de contatos nos últimos 12 meses.
-
Credit_Limit: Limite de crédito no cartão de crédito.
-
Total_Revolving_Bal: Saldo rotativo total no cartão de crédito.
-
Avg_Open_To_Buy: Linha de crédito disponível (média dos últimos 12 meses).
-
Total_Amt_Chng_Q4_Q1: Mudança no valor das transações
-
Total_Trans_Amt: Valor total das transações (nos últimos 12 meses).
-
Total_Trans_Ct: Número total de transações (nos últimos 12 meses).
-
Total_Ct_Chng_Q4_Q1: Mudança no número de transações
-
Avg_Utilization_Ratio: Taxa média de utilização do cartão.
-
Total_Relationship_Count: Total de produtos mantidos pelo cliente.
3 - Metodologia do Projeto
Neste projeto, optei por adotar uma metodologia de resolução de problemas de dados apresentada em um dos livros mais renomados sobre Machine Learning, o "Hands-On Machine Learning with Scikit-Learn & TensorFlow", de Aurélien Géron. Abaixo, estão os passos recomendados que seguirei durante a execução deste projeto:
-
Olhe para a visão geral.
-
Obtenha os dados.
-
Descubra e visualize os dados para obter insights.
-
Prepare os dados para algoritmos de Machine Learning.
-
Selecione um modelo e treine-o.
-
Ajuste seu modelo.
-
Apresente sua solução.
-
Lance, monitore e mantenha seu sistema.
4 - Requisitos de Solução do Projeto
Durante a conversa com o gerente, Angel perguntou quais eram as principais informações que ele gostaria de obter. Em resposta, o gerente definiu um conjunto de perguntas estratégicas relacionadas ao negócio, destacando aquelas que seriam essenciais para orientar as análises e decisões. Seguem as perguntas à serem respondidas:
-
Qual é o perfil dos clientes com maior risco de cancelar o cartão?
-
Como o gênero dos clientes afeta sua condição financeira e taxas de cancelamento?
-
O nível de educação influencia a probabilidade de cancelamento do cartão?
-
Clientes que usam mais o cartão recebem limites de crédito maiores ou menores?
-
Clientes com salários altos estão mais propensos ao cancelamento de cartões?
-
Quais comportamentos são comuns entre os clientes que cancelam seus cartões?
Além dessas perguntas, o gerente solicitou que Angel treinasse um modelo de Machine Learning com uma acurácia superior a 85%. Ele enfatizou a importância de escolher um modelo que seja facilmente interpretável, pois isso permitiria ao banco entender melhor o funcionamento do algoritmo e ter um maior controle sobre suas decisões.
-
Desenvolver um modelo de Machine Learning com precisão superior a 85%.
-
Identificar as principais características que influenciam o churn dos clientes.
-
Garantir que o modelo seja facilmente interpretável (opcional)
5 - Informações Adicionais
Nessa página o projeto será tratada com uma visão de storytelling, caso seja melhor para o observador algo
mais direto e detalhado, saiba que o notebook com qual este projeto foi completamente desenvolvido está contido no meu GitHub, que pode ser encontrado na parte inferior desse mesmo site, como todo outro projeto,
com tudo isso dito, a próxima seção inicia a EDA (Exploratory Data Analysis), vamos mergulhar!