quarta-feira, 13 de agosto de 2014

Acredito que a afirmação de que a quantidade informação disponível no mundo não para de crescer e está mais disponível do que nunca está pronta para ser superada. Diante disto devemos focar nossos esforços para entender o que de fato sempre foi um problema: independentemente da quantidade de informação que temos, sempre precisaremos recuperar aquela que for a mais relevante para nossa aplicação. Isto faz com que a mineração de dados seja cada vez mais relevante.

Restringindo um pouco o espectro da mineração de dados, vamos continuar a séria de artigos que temos trabalhado sobre como tratar informações textuais, ou seja, realizar mineração de textos. Nossos últimos dois posts foram Sequências de DNA e Similaridade entre Strings – Python e Similaridade entre conjuntos - Distância de Jaccard, onde estudamos como trabalhar com algumas métricas similaridade em textos. No post de hoje vamos estudar o como funciona a estatística de termo frequência (TF), utilizada para representar a importância de um tempo em um documento específico. Por documento entendemos um arquivo de texto, um post em rede social, um comentário ou qualquer outra fonte de informação.

O algoritmo da análise de termo frequência é relativamente simples. Após carregamos os documentos desejados para consulta, realizamos um pré-processamento transformando todas as palavras para letras minúsculas. Na sequência, realizamos a “tokenização” dos documentos, separando-os em seus respectivos conjuntos de palavras. A métrica de termo frequência é o retorno da relação entre a quantidade de vezes que a palavra aparece no texto e a quantidade de palavras total do texto.

Na prática, podemos mostrar um exemplo como a TF seria relevante para entender o conteúdo de três documentos contendo diferentes sinopses para cada um dos três primeiros filmes da saga Star Wars:



· Star Wars IV – Uma Nova Esperança

· Star Wars V – O império Contra Ataca

· Star Wars VI – O Retorno de Jedi

Vamos procurar pelo nome “Luke”, um dos principais personagens da série. O retorno da TF para cada sinopse é dado abaixo:



Ou seja, este termo é mais relevante da sinopse do Episódio 6, o Retorno de Jedi, dado que esta possui a maior TF para os três documentos. Dando outro exemplo, se procurarmos por “Império”, vemos que o documento onde este termo é mais relevante é o Episódio 5, “O Império Contra-ataca”


Estes resultados fazem sentido, tanto de acordo com o ponto de vista do filme, quanto das sinopses. No próximo artigo vamos estudar mais aplicações para estas novas habilidades.


Um abraço e até o próximo post!

0 comentários:

Postar um comentário