quarta-feira, 29 de outubro de 2014

Olá!

Hoje falaremos sobre o que é Text Analytics e quais são seus benefícios para seu negócio, modelos preditivos e até mesmo sua carreira.

Text Analytics (também conhecido como Text Mining, apesar de eu acreditar que existem diferenças) é o processo de, dado um conjunto de dados textuais, utilizar o processamento de linguagem natural (NLP, em inglês) para identificar padrões no texto como palavras mais frequentes, variáveis preditoras, que possam ser utilizados para fins preditivos ou informativos.

O processamento de linguagem natural é uma técnica de machine learning para a manipulação de textos, identificando contextos, padrões e elementos que sejam significativos para um entendimento automatizado deste tipo de dado. Existem inúmero softwares e linguagens com bibliotecas para realizarmos o processamento destas informações.

Este assunto está geralmente ligado com a análise de informações da internet, principalmente a análise de mídias sociais. Entretanto, seu uso vai muito além disso, pois podemos analisar documentos como petições, relatórios, logs de call centers e pipeline de vendas, conteúdo de chats com o cliente, dentre infinitas outras aplicações.

Abaixo, temos um fluxo básico para a tarefa de text mining.



É quase natural pensar que o Python possui uma biblioteca excelente para este tipo de análise. A NLTK é extremamente poderosa para desempenhar cada uma dessas tarefas.

Na próxima imagem, temos um exemplo de como utilizar text mining para identificação de entidades em um texto. Ou seja, de modo automático podemos identificar nomes de lugares, organizações e pessoas.

http://www.ontotext.com/wp-content/themes/ontotext/timthumb.php?src=http://www.ontotext.com/wp-
content/uploads/2014/07/flying-clouds.gif&w=640&h=355&zc=0

Este campo de Text Analytics já foi trabalhado em posts anteriores aqui no blog. Fique conosco e vamos aprender juntos mais sobre este tema. A demanda por profissionais nesta área e crescente, com bons salários e boas perspectivas. Além disso, também pode ser utilizado em qualquer segmento da economia, dado que existe a máxima de que 80% dos dados são não estruturados!

Um abraço e até o próximo post!


Parte deste post foi adaptado de What is Text Analytics?


0 comentários:

Postar um comentário