top of page

Home Credit Group Prediction on Credit Payment Delay

PARTE 1

Introdução ao Conjunto de Dados

1 - Contexto de Negócio

Uma  instituição financeira bancária chamada Home Credit Group está tendo problemas em identificar quando os

clientes terão problemas em realizar o pagamento dos créditos solicitados, e como estão passando por problemas financeiros, querem garantir que só irão fornecer crédito àqueles clientes que puderem pagar, evitando prejuízos.

image.png

Diante disso, buscaram o auxílio de um cientista de dados, na intenção que o profissional tanto desenvolve-se um modelo de Machine Learning, que pudesse prever a probabilidade de um cliente ter problemas, baseado em dados

dos próprios clientes, como seu gênero, número de parentes, salário e pertences Além, que ele performasse uma análise nos dados, e extrai deles insights interessantes sobre o perfil deles, padrões de comportamento e outros.

2 - Requisitos de Solução do Projeto

Durante a conversa entre o cientista e a empresa, foi perguntado quais eram as principais informações que eles

gostariam de obter. Em resposta, a empresa lhe definiu um conjunto de perguntas estratégicas relacionadas ao negócio, destacando aquelas que seriam essenciais para orientar as análises e decisões. Seguem as perguntas:

  • Qual é o perfil dos clientes que solicitam crédito? E dos que se atrasam para pagar?

    • Fatores naturais como idade podem sinalizar riscos de atrasos?

    • O tipo de emprego do cliente é um indicativo para atrasos? E sua escolaridade?

    • Estado civil, e número de dependentes pode impactar na necessidade de crédito?

    • Os pertences comunicados ao banco servem como garantia? É algo placebo?

  • Qual o financeiro dos clientes do banco? Como ele muda para clientes que atrasam?

    • Faz sentido pensar que clientes com salários altos têm menos dificuldade? 

    • Clientes que solicitam mais doque precisam têm mais dificuldade em pagar?​

    • Existem tipos de contratos que possuem maior taxa de atrasos?

Além das perguntas, a empresa solicitou o treinamento de um modelo de Machine Learning para prever atrasos, bem como a elaboração de um relatório detalhando o potencial impacto financeiro desse modelo. Além disso, é necessário identificar os fatores que, de forma objetiva, mais indicam que clientes irão atrasar os pagamentos.

  • Desenvolver um modelo de Machine Learning capaz de prever clientes atrasando.

  • Identificar as principais características que evidenciam se ocorrerá um atraso.

  • Gerar uma explicação ou relatório financeiro sobre os benefícios do novo modelo.

É importante denotar que a Home Credit Group já possui um modelo de machine learning que utiliza o Random Forest Classifier para realizar as previsões, e ainda que esse modelo não possua um AUC ruim, no valor de 0.71

ele é praticamente incapaz de acertar quando os clientes atrasam,  e esse é um problema que vamos superar.

3 - Metodologia do Projeto

Neste projeto, adotei uma das metodologias mais conhecidas para a resolução de problemas de dados: a CRISP-DM, que em tradução livre significa "Processo Padrão Transversal para Mineração de Dados". Trata-se de um método iterativo que permite ao cientista de dados "ir e voltar" entre as etapas do processo, como entre a Modelagem e a Preparação dos Dados. Essa flexibilidade é útil, pois alguns insights podem surgir em diferentes etapas, e a CRISP-DM oferece a liberdade de corrigir elementos em diferentes fases de criação.

image.png

4 - Dicionário de Dados

No dataset fornecido pela empresa, estão inclusas diversas informações sobre os clientes, como sua localização,

idade, estado civil, estado de empregabilidade. Também contém informações sobre suas relações financeiras, de

pertences, sociais e temporais, é importante ressaltar que nesse dicionário não estão contidas todas as colunas,

dito que por serem mais de 120 colunas seria excessivo, constam aqui as principais que serão utilizadas na EDA.

  • SK_ID_CURR: ID único do cliente.

  • TARGET: Indicador de inadimplência (1 = inadimplente).

  • NAME_CONTRACT_TYPE: Tipo de contrato de crédito.

  • CODE_GENDER: Gênero do cliente.

  • FLAG_OWN_CAR: Cliente possui carro.

  • FLAG_OWN_REALTY: Cliente possui imóvel.

  • CNT_CHILDREN: Número de filhos.

  • AMT_INCOME_TOTAL: Renda anual total do cliente.

  • AMT_CREDIT: Valor total do crédito concedido.

  • AMT_ANNUITY: Valor anual de pagamento de crédito.

  • AMT_GOODS_PRICE: Preço dos bens financiados.

  • NAME_TYPE_SUITE: Companhia durante a aplicação de crédito.

  • NAME_INCOME_TYPE: Tipo de fonte de renda.

  • NAME_EDUCATION_TYPE: Nível educacional do cliente.

  • NAME_FAMILY_STATUS: Estado civil.

  • NAME_HOUSING_TYPE: Tipo de moradia.

  • REGION_POPULATION_RELATIVE: Densidade populacional da região.

  • DAYS_BIRTH: Idade em dias (negativo).

  • DAYS_EMPLOYED: Tempo de emprego em dias (negativo).

  • DAYS_REGISTRATION: Dias desde o registro do cliente.

  • DAYS_ID_PUBLISH: Dias desde a última atualização de documento.

  • OWN_CAR_AGE: Idade do carro do cliente (em anos).

  • FLAG_EMP_PHONE: Tem telefone de trabalho.

  • FLAG_WORK_PHONE: Tem telefone fixo.

  • FLAG_PHONE: Tem qualquer telefone fixo.

  • FLAG_EMAIL: Tem endereço de e-mail.

  • OCCUPATION_TYPE: Tipo de ocupação.

  • CNT_FAM_MEMBERS: Número de membros na família.

  • REGION_RATING_CLIENT: Avaliação da região de residência.

  • EXT_SOURCE_1: Pontuação de fonte externa (risco de crédito).

bottom of page