Modelagem preditiva pode ser
entendida como o conceito de construção de um modelo que seja capaz de se
aproximar de um evento real. Tipicamente, este modelo inclui um algoritmo de
aprendizado de máquina que “aprende” o comportamento de uma base de treinamento
para que as predições sejam feitas. A modelagem preditiva pode ser dividida em
duas áreas: regressão e classificação. Modelos de regressão são baseados na
análise de relações entre variáveis e tendências com objetivo de termos uma
predição de variáveis contínuas, como exemplo a predição da temperatura máxima
para os próximos dias ou qual será o valor de um ativo financeiro no próximo
mês. Em contrapartida, a tarefa de classificação nos ajudará a entender, dado
um grupo de ativos e seus respectivos atributos, quais são os ativos que podem
ser classificados em um mesmo grupo, como um grupo de ativos de baixo ou de
alto risco, ou até mesmo entender se o dia de amanhã será de alta ou baixa na
bolsa de valores. Este artigo manterá o foco na tarefa de classificação de
padrões.
Veja também nosso post Mineração de Dados e o CRISP-DM (Data Mining)
Aprendizado supervisionado, não supervisionado e por reforço
A tarefa de classificação pode
ser dividida em duas subcategorias: aprendizado supervisionado e não
supervisionado. No aprendizado supervisionado, as classes da base que desejamos
classificar com o modelo já são previamente conhecidas. Por exemplo, se
quisermos classificar uma base de e-mails para saber quais são SPAM ou não, já
teríamos essas informações disponíveis e a utilizaríamos para treinar o modelo
para classificar novas mensagens.
Na figura acima temos um exemplo
de classificação. Na figura da esquerda temos um classificador linear enquanto
na figura da direita temos um classificador quadrático. Repare que existem
algumas amostras que não estão classificadas corretamente. Isto acontece pois
os classificadores não são perfeitos, e nosso desafio é justamente construir
modelos que possuam seus erros minimizados sem perder a capacidade de
generalização, ou seja, ser overfit.
Em contraste, no aprendizado não
supervisionado não possuímos informação prévia das classes que queremos
classificar. Para resolver este problema, geralmente é feita uma etapa anterior
utilizando alguma técnica de clusterização (tipo k-means) para agrupar as
amostras baseado em algum tipo de medida de similaridade ou distância.(leia também K-means, Python e um treino de basquete).
Um terceiro grupo de algoritmos
de aprendizado são os de reforço. Neste caso, treinamos o modelo via uma série
de etapas que visam maximizar uma função de recompensa ou minimizar uma função
de custo. Um exemplo bastante popular é o algoritmo de aprendizado de um carro
que dirige sozinho, aprendendo a direção com um feedback de suas ações.
Fluxo básico de aprendizado supervisionado
Se algum dia você já parou para
estudar ou ao menos ler sobre machine learning, provavelmente já ouviu falar
sobre a base de dados Iris, que contém informações para classificação de
flores. Ele foi criado em 1936 e está disponível no UCI Machine Learning
Repository - https://archive.ics.uci.edu/ml/datasets/Iris. Esta base é muito utilizada para
exemplos de classificação supervisionada, pois temos muito bem definidas as
três classes de flores : Setosa, Virginica e Versicolor, cada uma com
seus atributos – largura e comprimento da sépala e pétala.
Visualização
Assim que nos deparamos com uma
nova base de dados é recomendado fazer uma visualização e análise exploratória
destes dados. Entretanto, algumas bases de dados podem possuir mais de três
dimensões e não podem ser visualizadas em um gráfico comum. Uma solução é
agrupar os atributos em pares e criar uma “matriz” de visualização. E qual
seria o melhor tipo de gráfico? Isto dependerá do tipo de dado que você tem.
Abaixo, temos alguns exemplos de tipos de gráficos.
Apenas olhando os gráficos podemos notar que as
informações sobre as dimensões das pétalas são mais discriminantes do que as
sépalas. Esta informação poderia ser usado para seleção de características que
poderiam ajudar a remover ruídos ou o tamanho de nossa base de dados.
Fluxo de
Aprendizado Supervisionado
O diagrama abaixo apresenta os
principais passos do processo de aprendizado supervisionado e de como cada
etapa está relacionada.
Um abraço e até o próximo post!
Esse post foi traduzido e adaptado do conteúdo gentilmente autorizado por Sebastian Raschka em 24 de agosto de 2014.
0 comentários:
Postar um comentário