quarta-feira, 23 de abril de 2014



Quando falamos sobre Ciência dos Dados, qual é a coisa mais importante?

Certamente, o primeiro ponto que vem em nossa cabeça são ... os dados! Claro, sem dados não existe ciência dos dados.

Mas, na verdade, a coisa mais importante na ciência dos dados é a pergunta que você quer responder. Os dados são a segunda coisa mais importante. Por quê? Do que adianta ter uma linda e enorme base de dados se você não sabe o que procurar lá? De que adianta ter dados tratados e impecáveis se você não sabe qual é o alvo de seu modelo, qual é a segmentação que você deve fazer?

Os dados limitarão ou habilitarão suas perguntas, mas se você não tem uma pergunta inicial, não são eles que te salvarão.

Na ciência dos dados existem alguns tipos de questões primárias, relacionadas a seguir (com uma breve explicação de quando usar) em uma ordem aproximada de dificuldade. São elas: 
  • Análise descritiva - descrever um conjunto de dados;
  • Análise exploratória - encontrar relacionamento entre os dados que você ainda não conhece;
  • Inferência - utilizar uma amostra de seus dados para tentar dizer algo sobre uma população;
  • Predição - tentar predizer Y com base em alguns X;
  • Causa e Efeito - descobrir o que acontece a uma variável quando há alteração em uma outra variável.
Agora, independentemente de seu conjunto de dados ser pequeno ou grande (Big Data?), você precisa ter acesso aos dados corretos. O conjunto de dados que você tem em mão agora pode não ser o que melhor responderá à sua pergunta. Ou seja, pesquise, pense, se informe e entenda o negócio. Estes são os primeiros passos para uma análise correta!


Um abraço e até o próximo post!

Este post foi inspirado no conteúdo da 3ª semana da especialização em Data Science da Johns Hopikins University, em andamento na plataforma Cousera, com autoria de Jeffrey Leek.

0 comentários:

Postar um comentário