Quando falamos sobre mineração de dados, há uma tendência em discutir quais são as metodologias e técnicas aplicadas, linguagens utilizadas e muitas outras coisas. Muitos já saem com a "mão na massa", minerando, criando algoritmos, construindo códigos e gerando KPIs...e muitos irão descobrir também que, após todo este trabalho, aquilo que foi minerado ou criado não era exatamente o desejado pelo cliente (seja ele interno ou externo). E lá vai o especialista de volta para o laboratório...
Quando uma demanda de data mining é recebida, será que temos entendimento suficiente do negócio? Será que paramos para entender os dados antes de começar qualquer análise? Existe alguma forma estruturada de começar?
A resposta é um feliz sim. O CRISP-DM (Cross Industry Standard Process for Data Mining) é um modelo de processo para realizarmos mineração de dados, com o objetivo de termos um processo consistente, repetitividade e objetividade. O modelo do processo de mineração de dados proporciona uma visão do ciclo de vida do projeto, contendo as fases de um projeto, suas respectivas tarefas e as relações entre essas tarefas. E como é composto este ciclo de vida de um projeto de data mining?
Ele é constituído de seis etapas, descritas e ilustradas abaixo:
- Entendimento do Negócio;
- Entendimento dos Dados;
- Preparação dos Dados;
- Modelagem;
- Avaliação;
- Entrega.
Entendimento do Negócio
Inicialmente, é vital entender qual problema deve ser resolvido. Apesar de parecer óbvio, muitos projetos podem chegar de forma ambígua, pré-empacotados e até mesmo ser de uma área de negócios desconhecida pelo especialista. Assim, é preciso análise o contexto em que a demanda está inserida, quais são os cenários previstos (ou não) para que o projeto comece da melhor forma possível.
Entendimento dos Dados
Resolver o problema é o principal objetivo. A compreensão dos dados é a matéria prima para que esta solução seja construída. Aqui, vamos entender as características e limitações das bases de dados, o histórico, sua composição, seu tipo e se os dados realmente são suficientes para entender o problema proposto.
Preparação dos Dados
Existem inúmeras técnicas e tecnologias para se trabalhar com dados. E, com isto, surgem diferentes formatações para as bases de dados. Pensamos aqui em transformar dados não estruturados em estruturados, fazer tratamento de missing, converter diferentes tipos de dados de acordo com a necessidade, entender se os dados são categóricos, contínuos, se devem ser normalizados ou não, dentre muitas outras tarefas. Nesta etapa temos também a construção de variáveis, fundamental para o sucesso de qualquer modelo.
Até este ponto, é dispendido entre 70% e 80% do tempo do projeto. Isso mesmo, você não leu errado. As quatros primeiras etapas do CRISP-DM devem ser tratadas com muita atenção, pois sua boa execução é determinante para o sucesso do projeto (e economizará muito tempo e dinheiro).
Modelagem
Neste ponto serão utilizadas técnicas que sejam mais aderentes ao objetivo do projeto, seja ele uma predição, classificação, agrupamento ou regressão. Nesta etapa temos o output do nosso projeto, o que será entregue ao nosso cliente. A etapa de modelagem pode "conversar" livremente com a etapa de preparação de dados, seja para readequação dos dados ou mesmo para criação de novas variáveis que ajudem a explicar o fenômeno.
Avaliação
Nesta etapa realizamos um rigoroso assessment dos resultados, para que haja confiança no projeto que está a uma etapa de ser entregue. Se necessário, podemos voltar para a primeira etapa (Entendimento do Negócio), caso seja entendido que o objetivo do projeto ainda não tenha sido alcançado.
Entrega
Nesta etapa, o projeto é encerrado com a entrega feita ao cliente. É a etapa menos técnica do processo de data mining, mas não a menos importante. Aqui o resultado é entregue ao cliente em forma de um relatório ou na forma de uma implantação de um sistema para acesso aos dados em tempo real.
Esperamos que este post ajude a trazer maior entendimento sobre como entregar um projeto de mineração de dados de forma mais eficiente. Em muitos casos, quanto falamos em grandes empresas, diferentes equipes podem estar envolvidas nas diferentes etapas do processo, exigindo esforço adicional para sua conclusão.
Um abraço e até o próximo post!
0 comentários:
Postar um comentário