Diversidade léxica é um termo utilizado para determinar o quão vasto é o vocabulário de um orador. Como um exemplo, um palestrante que, durante uma apresentação, usa apenas o termo "performance" ao invés de sinônimos como "comportamento", "desempenho" ou "execução", pode ser considerado menos diverso lexicalmente do que outro palestrante que o faça.
Ele é calculado pela razão entre as palavras distintas de um texto e o total de palavras. Quanto mais próximo ao valor 1, mais vasto é o repertório de palavras do texto.
Pesquisas demonstram que um público entende que o palestrante com vocabulário mais amplo é mais competente, tem mais status e pode ser mais convincente do que outro com menor conhecimento de palavras. E isto não vale apenas para mensagems faladas - textos escritos com maior pluralidade também possuem efeito mais positivo e são mais efetivos em transmitir suas mensagens.
Vamos para a prática?
Hoje, ao acessar três diferentes sites de notícias (Valor, UOL e Folha), havia uma manchente em comum aos três portais sobre a ampliação por quatro horas da trégua em Gaza.
Selecionamos as correspondentes URL's e rodamos nosso algoritmo em Python lexical.py, disponível no Git Arte dos Dados. Nosso código faz a leitura e tratamento do código HTML de cada página utilizando a biblioteca BeautifulSoup. Em seguida, fazemos o processamento dos textos com o módulo NTLK, de processamento de linguagem natural. Por fim, contamos a quantidade de palavras distintas utilizando a função set() e o total de palavras, que são os dois parâmetros utilizados para o cálculo da diversidade léxica.
Ao final do algoritmo, usuamos a biblioteca counter que, com a apenas 1 linha de código, permite calcular quais são os termos mais frequentes em cada notícias.
O resultado é mostrado na figura abaixo.
Vemos que a reportagem da Folha possui o maior índice: 0.87. De fato, quando observamos suas palavras mais frequentes, a que mais se repete aparece 4 vezes, diferentemente do UOL e do Valor, ambas com 6 vezes. Ponto positivo para a redação da Folha nesta notícia.
Como ilustrar a relação econômico-financeira do G20 utilizando Data Mining?
Web Crawler - Python + Beautiful Soup - Parte 1
Construindo um RSS Reader com o Python e MongoDB
Mais sobre o Counter:
Python - Como contar valores distintos de uma lista
Um abraço e até o próximo post!
0 comentários:
Postar um comentário