Primeiros passos para análise de dados com Python

Na próxima série de artigos, vamos compartilhar informações sobre como utilizar Python para análise de dados, da forma mais didática possível para que você possa praticar por conta.

No artigo de hoje, compartilhamos uma adaptação de um post de muita qualidade, escrito por Kunal Jain, Engenheiro Aeroespacial e proprietário do site http://www.analyticsvidhya.com. Ele gentilmente cedeu autorização para compartilhar parte do conteúdo em nosso post de hoje.

Por que aprender Python para fazer análise de dados?

O Python vem ganhando notoriedade nos últimos tempos na execução desta tarefa. Havíamos abordado este tema nos posts Python - Top Languages for analytics, data mining, data science e Python e MongoDB: porque usar e primeiros passos. Destacamos aqui quatro boas razões para usá-lo.

Open Source - instalação free
Forte comunidade online
Fácil de aprender
Pode se tornar a linguagem comum para Data Science e produção de produtos de analytics na web.

Existe o porém de ser uma linguagem interpretada ao invés de ser compilada, ou seja, pode levar mais tempo de processamento. Entretanto, dado o tempo que o programador economiza ao usá-lo, continua sendo uma boa escolha.

Como instalar o Python?

Existem dois modos de fazê-lo:

Você pode fazer o download direto do site https://www.python.org/download/releases/2.7/ e instalar as bibliotecas conforme houver a necessidade;
Ou você pode instalar um pacote que possui diversas biblioteca pré-instaladas. São recomendados a Enthought Canopy Express ou a Anaconda. Possuem instalação intuitiva sendo que o Anaconda é o mais recomendada para iniciantes.

A escolha do ambiente de desenvolvimento

Após a instalação do Python, existem inúmeras opções de ambiente de desenvolvimento.

O próprio shell
IDLE
iPython notebook
Geany
Spyder

Utilizaremos neste post o Geany, que é a base de desenvolvimento para todos os demais códigos já publicados aqui no Arte dos Dados.

Modelo de regressão logística no Python

No post Aplicação de uma regressão logística em Python, descrevemos o passo a passo de uma regressão logística utilizando as bibliotecas Pandas e patsy. Neste post, utilizaremos uma nova base de dados e a biblioteca base será a scikit-learn.

Os passos básicos para construir uma regressão logística são:

Importar as bibliotecas necessárias
Ler a base de dados
Explorar e higienizar a base
Construir o modelo
Interpretar os resultados

De modo um mais sofisticado, explicamos a metodologia CRISP - DM no post Mineração de Dados e o CRISP-DM (Data Mining).

Em nosso git, você pode encontrar o código completo desta aplicação. Faça o download aqui!

Um abraço e até o próximo post!

Primeiros passos para análise de dados com Python

0 comentários:

Postar um comentário

Primeiros passos para análise de dados com Python

Next

Postagem mais recente

Previous

Postagem mais antiga

0 comentários:

Postar um comentário