quarta-feira, 3 de setembro de 2014

Modelagem preditiva pode ser entendida como o conceito de construção de um modelo que seja capaz de se aproximar de um evento real. Tipicamente, este modelo inclui um algoritmo de aprendizado de máquina que “aprende” o comportamento de uma base de treinamento para que as predições sejam feitas. A modelagem preditiva pode ser dividida em duas áreas: regressão e classificação. Modelos de regressão são baseados na análise de relações entre variáveis e tendências com objetivo de termos uma predição de variáveis contínuas, como exemplo a predição da temperatura máxima para os próximos dias ou qual será o valor de um ativo financeiro no próximo mês. Em contrapartida, a tarefa de classificação nos ajudará a entender, dado um grupo de ativos e seus respectivos atributos, quais são os ativos que podem ser classificados em um mesmo grupo, como um grupo de ativos de baixo ou de alto risco, ou até mesmo entender se o dia de amanhã será de alta ou baixa na bolsa de valores. Este artigo manterá o foco na tarefa de classificação de padrões.

Aprendizado supervisionado, não supervisionado e por reforço


A tarefa de classificação pode ser dividida em duas subcategorias: aprendizado supervisionado e não supervisionado. No aprendizado supervisionado, as classes da base que desejamos classificar com o modelo já são previamente conhecidas. Por exemplo, se quisermos classificar uma base de e-mails para saber quais são SPAM ou não, já teríamos essas informações disponíveis e a utilizaríamos para treinar o modelo para classificar novas mensagens.



Na figura acima temos um exemplo de classificação. Na figura da esquerda temos um classificador linear enquanto na figura da direita temos um classificador quadrático. Repare que existem algumas amostras que não estão classificadas corretamente. Isto acontece pois os classificadores não são perfeitos, e nosso desafio é justamente construir modelos que possuam seus erros minimizados sem perder a capacidade de generalização, ou seja, ser overfit.

Em contraste, no aprendizado não supervisionado não possuímos informação prévia das classes que queremos classificar. Para resolver este problema, geralmente é feita uma etapa anterior utilizando alguma técnica de clusterização (tipo k-means) para agrupar as amostras baseado em algum tipo de medida de similaridade ou distância.(leia também K-means, Python e um treino de basquete).

Um terceiro grupo de algoritmos de aprendizado são os de reforço. Neste caso, treinamos o modelo via uma série de etapas que visam maximizar uma função de recompensa ou minimizar uma função de custo. Um exemplo bastante popular é o algoritmo de aprendizado de um carro que dirige sozinho, aprendendo a direção com um feedback de suas ações.

Fluxo básico de aprendizado supervisionado


Se algum dia você já parou para estudar ou ao menos ler sobre machine learning, provavelmente já ouviu falar sobre a base de dados Iris, que contém informações para classificação de flores. Ele foi criado em 1936 e está disponível no UCI Machine Learning Repository - https://archive.ics.uci.edu/ml/datasets/Iris. Esta base é muito utilizada para exemplos de classificação supervisionada, pois temos muito bem definidas as três classes de flores : Setosa, Virginica e Versicolor, cada uma com seus atributos – largura e comprimento da sépala e pétala.

 

Visualização


Assim que nos deparamos com uma nova base de dados é recomendado fazer uma visualização e análise exploratória destes dados. Entretanto, algumas bases de dados podem possuir mais de três dimensões e não podem ser visualizadas em um gráfico comum. Uma solução é agrupar os atributos em pares e criar uma “matriz” de visualização. E qual seria o melhor tipo de gráfico? Isto dependerá do tipo de dado que você tem. Abaixo, temos alguns exemplos de tipos de gráficos.



Apenas olhando os gráficos podemos notar que as informações sobre as dimensões das pétalas são mais discriminantes do que as sépalas. Esta informação poderia ser usado para seleção de características que poderiam ajudar a remover ruídos ou o tamanho de nossa base de dados.

Fluxo de Aprendizado Supervisionado


O diagrama abaixo apresenta os principais passos do processo de aprendizado supervisionado e de como cada etapa está relacionada.


No próximo post vamos detalhar cada uma destas etapas do aprendizado supervisionado.

Um abraço e até o próximo post!




Esse post foi traduzido e adaptado do conteúdo gentilmente autorizado por Sebastian Raschka em 24 de agosto de 2014
                                                                   

0 comentários:

Postar um comentário