top of page
imagem_2024-04-05_225210528.png

Data Analysis on IMDB
 

PARTE 2

Analisando com MySQL e PowerBI

Nessa seção do projeto, encontram-se as principais, e mais interessantes queries que foram

desenvolvidas ao longo desse projeto, junto à elas estão alguns comentários que ajudam a

trazer contexto, curiosidades, e melhoram o storytelling num geral, além de visualizações feitas

em Power BI, na intenção de explicitar o conteúdo fornecido pelos códigos.

1 - Os Top 25 Melhores Filmes na IMDb

Essa query traz os 25 filmes com melhor avaliação no IMDB, um detalhe é que ela é duplamente filtrada por averageRating na intenção de trazer mais relevância pra isso, mas mantendo ordenado principalmente por numVotes na subquery.

codetoimg-snippet (21).png
image.png

2 - Gêneros mais Promissores para 2024+

Essa query traz a contagem dos gêneros esperados para filmes, séries, curtas que serão lançados de 2024 em diante, uma query simples que ajuda a entender as tendências futuras para esse mercado.

codetoimg-snippet (26).png
image.png

3 - Proporção de Faixa Etária entre Atores

Essa query traz informação sobre as faixas etárias creditadas na IMDB, é importante destacar que, como não possuía a informação da idade dos artistas nesse dataset, utilizei da função COALESCE, para calcular a idade, visto que vários deathYear contavam como null.

​

Essa também foi a primeira query desse projeto.

codetoimg-snippet (23).png
image.png

4 - Curtas x Longa Metragens ao Longo dos Anos

Essa query traz uma comparativa entre as produções de curta metragens em relação à de longa metragens, e graças a extensão desse dataset, tem-se dados de 1874 até atualmente, uma extensão simplesmente incrível!

codetoimg-snippet (7).png
image.png

5 - Tendências Temporais: Duração x Crítica

Uma query muito interessante, que traz uma visão sobre como o tempo afetou a duração dos filmes, e com isso a sua duração, descobrimos que em 2008, a duração média de um "filme nota 10" era de 78 minutos, já atualmente em 2024 é de 102 minutos e 24 segundos.

codetoimg-snippet (8).png
image.png

Queries como a anterior são melhor apresentadas com a interatividade fornecida pelo próprio Power BI, por isso, na Parte 3 desse projeto disponibilizo links para teste de tais features.

6 - Regiões por Contagem de Adaptações

Uma das querys mais simples, realizando a contagem de títulos adaptados para diversas regiões do globo, o Brasil se encontra no TOP 13, com 126.385 conteúdos que foram adaptados.

codetoimg-snippet (12).png
imagem_2024-04-16_190942606.png

7 - Homens x Mulheres no Entreterimento

Essa query traz à tona uma discussão muito importante nos tempos atuais, o conflito de gênero no mercado de trabalho, uma pena esse dataset não incluir salários para uma análise ainda mais interessante.

codetoimg-snippet (11).png
imagem_2024-04-16_193154433.png

8 - Profissionais mais Prolíficos da Indústria

Essa query traz os nomes mais "creditados" do IMDB, ou seja, as pessoas que mais costumam aparecer nos créditos das produções, também é uma das querys mais pesadas em termos de desempenho.

codetoimg-snippet (13).png
image.png

9 - Seriados mais Antigos em Andamento

Uma query tanto interessante quanto útil, traz consigo informação dos seriados mais antigos e que ainda continuam recebendo atualizações, e impressionantemente, os Simpsons estão apenas em nono lugar!

codetoimg-snippet (10).png
image.png

Para as queries finais, utilizarei uma table adicional da TMDB

que traz alguns dados interessantes sobre custos e lucros de produção, entretanto, apenas serão analisados os filmes que possuem ID na IMDB, para manter no escopo do projeto.

10 - Lucros na Indústria de Filmes por Anos

Essa query traz consigo o lucro geral que a indústria de filmes teve ao longo dos anos, desde 1913 até 2024, um detalhe incrível dessa query, é que ele evidencia o impacto

da pandemia de COVID entre 2019-2021 nesse setor, visto no período uma queda

grotesca nos lucros gerais.

codetoimg-snippet (14).png
image.png

11 - Ganhos Brutos por Empresa pelos Anos

Nessa query são apresentados, por ano, a soma cumulativa tanto dos ganhos quanto dos custos de empresas baseados em um filtro

nessas mesmas somas. O uso da função Substring_Index ocorre para selecionar apenas a primeira empresa (principal), entre o conjunto de empresas na produção dos diversos conteúdos.

codetoimg-snippet (27).png
imagem_2024-04-17_234326447-transformed (2).png
imagem_2024-04-19_173603275 (1).png

12 - Lucros na Indústria por Região do Mundo

Esta query é projetada para a partir de uma tabela chamada. A função SUM é utilizada com a cláusula OVER para calcular a soma acumulada dos lucros para cada país.

codetoimg-snippet (17).png
imagem_2024-04-17_152143748-transformed.png

13 - Lucros por Gênero de Filmes

Essa query mostra a relação entre os lucros de produção e as avaliações recebidas, o interessante é perceber que eles não andam sempre de mãos dadas, já que "Documentários", por exemplo, tem as melhores Ratings, e também um dos piores Profits.

codetoimg-snippet (19).png
image.png
Parallel Lines

Parte 3

Relatório Final

e Interatividade

bottom of page