terça-feira, 8 de julho de 2014

No momento que escrevo este post, não sabemos ainda quem será o campeão da Copa do Mundo de 2014. Porém, as quartas-de-final já se passaram e, ao menos, sabemos quais são os oito melhores times desta Copa do Mundo. O que estes times possuem em comum além do melhor desempenho em relação às 24 seleções que já foram eliminadas?

Há algo que os conecta além do bom futebol. Sendo mais específico, antes de cada jogo, há o momento solene onde cada país é homenageado com a execução de seu hino nacional. Será que podemos encontrar alguma relação entre esses 8 melhores times e seus respectivos hinos? O que há em comum entre Alemanha, Argentina, Bélgica, Brasil, Colômbia, Costa Rica, França e Holanda?

Uma aplicação de mineração de textos (text mining) nos ajuda a responder esta pergunta. Realizamos o download da letra dos hinos de cada um destes países. Nesta base, executamos as três tarefas fundamentais da mineração de textos: remoção da pontuação, tokenização e remoção das stopwords.

Em seguida, contamos os 15 unigramas mais relevantes presentes em cada hino e os relacionamos entre si. Pela história, a maioria dos hinos nacionais celebra o momento de liberdade suprema, geralmente conquistada com muita luta, suor e sangue. Logo, era de se esperar que a palavra mais comum nos hinos, que conecta 6 destes 8 países, é a LIBERDADE. Como podemos ver na rede abaixo, Alemanha, Argentina, Bélgica, Brasil, Colômbia e França contém esta palavra em seus hinos.




Na sequência, a palavra mais comum é a própria PÁTRIA. Exaltar o próprio país aparece mais comumente em Alemanha, Brasil, Costa Rica e França.

E como houve glória ao conquistar a liberdade da pátria, GLÓRIA é o terceiro unigrama em conexões entre os hinos.


Esta é uma das inúmeras aplicações que podem ser feitas com mineração de textos. A criatividade é o limite!

Um abraço e até o próximo post!

0 comentários:

Postar um comentário