quarta-feira, 2 de julho de 2014

Na próxima série de artigos, vamos compartilhar informações sobre como utilizar Python para análise de dados, da forma mais didática possível para que você possa praticar por conta.

No artigo de hoje, compartilhamos uma adaptação de um post de muita qualidade, escrito por Kunal Jain, Engenheiro Aeroespacial e proprietário do site http://www.analyticsvidhya.com. Ele gentilmente cedeu autorização para compartilhar parte do conteúdo em nosso post de hoje.

Por que aprender Python para fazer análise de dados?
O Python vem ganhando notoriedade nos últimos tempos na execução desta tarefa. Havíamos abordado este tema nos posts Python - Top Languages for analytics, data mining, data science  e Python e MongoDB: porque usar e primeiros passos. Destacamos aqui quatro boas razões para usá-lo.

  • Open Source - instalação free
  • Forte comunidade online
  • Fácil de aprender
  • Pode se tornar a linguagem comum para Data Science e produção de produtos de analytics na web.


Existe o porém de ser uma linguagem interpretada ao invés de ser compilada, ou seja, pode levar mais tempo de processamento. Entretanto, dado o tempo que o programador economiza ao usá-lo, continua sendo uma boa escolha.

Como instalar o Python?
Existem dois modos de fazê-lo:

  • Você pode fazer o download direto do site https://www.python.org/download/releases/2.7/ e instalar as bibliotecas conforme houver a necessidade;
  • Ou você pode instalar um pacote que possui diversas biblioteca pré-instaladas. São recomendados a Enthought Canopy Express ou a Anaconda. Possuem instalação intuitiva sendo que o Anaconda é o mais recomendada para iniciantes.


A escolha do ambiente de desenvolvimento
Após a instalação do Python, existem inúmeras opções de ambiente de desenvolvimento.

  • O próprio shell
  • IDLE
  • iPython notebook
  • Geany
  • Spyder


Utilizaremos neste post o Geany, que é a base de desenvolvimento para todos os demais códigos já publicados aqui no Arte dos Dados.



Modelo de regressão logística no Python

No post Aplicação de uma regressão logística em Python, descrevemos o passo a passo de uma regressão logística utilizando as bibliotecas Pandas e patsy. Neste post, utilizaremos uma nova base de dados e a biblioteca base será a scikit-learn.

Os passos básicos para construir uma regressão logística são:
  • Importar as bibliotecas necessárias
  • Ler a base de dados
  • Explorar e higienizar a base
  • Construir o modelo
  • Interpretar os resultados


De modo um mais sofisticado, explicamos a metodologia CRISP - DM no post Mineração de Dados e o CRISP-DM (Data Mining).

Em nosso git, você pode encontrar o código completo desta aplicação. Faça o download aqui!

Um abraço e até o próximo post!

0 comentários:

Postar um comentário