O segundo dos cinco maiores mitos sobre dados desmascarados por Gartner, refere-se fato de que muitos líderes de TI acreditam que o enorme volume de dados que as organizações podem agora gerir trazem falhas de qualidade de dados insignificantes devido à lei dos grandes números.
A visão é de que eventuais falhas na qualidade dos dados não influenciam o resultado geral, quando os dados são analisados, pois cada falha é apenas uma pequena parte da massa de Big Data. "Na realidade", como explica Ted Friedman, "embora cada pequeno erro tenha um impacto muito menor sobre todo o conjunto de dados do que quando havia menor quantidade destes, existem mais falhas do que antes, porque há mais dados. Portanto, o impacto global de dados de baixa qualidade sobre a base de dados inteira permanece o mesmo. Além disso, grande parte dos dados que as organizações usam em um contexto de Big Data possui origem externa, ou são não estruturados ou de origem desconhecida. Isto significa que a probabilidade de problemas na qualidade de dados é ainda maior do que antes. Assim, a qualidade dos dados é realmente mais importante no mundo do Big Data".
Segundo Svetlana Sicular (Gartner), "A convergência de dados de social media, mobile, nuvem e Big Data, apresenta novos requisitos: levar a informação certa para o consumidor rapidamente, garantindo a confiabilidade dos dados externos que você não tem controle, validando as relações entre elementos de dados, procurando sinergias e lacunas, correndo o risco de termos dados enviesados e tendenciosos. Na realidade, um trabalho de cientista de dados é de 80% de um engenheiro de qualidade de dados, e apenas 20% de um pesquisador, sonhador, e cientista."
Esta opinião fica alinhada com a de Steve Lohr, do The New York Times, relatando que cientistas de dados são mais frequentemente administradores de dados, uma vez que gastam de 50% a 80% do seu tempo alocados no trabalho mais mundano de coleta e preparação de dados oriundos do Big Data, antes que possam ser extraídos para descobrir informações úteis que forneçam insights de negócios.
"Como a quantidade e os tipos de fontes de dados aumenta exponencialmente, não considerar a ideia de um data quality pode causar estragos significativos em uma organização. A qualidade dos dados tornou-se uma importante, e por vezes esquecida, parte da equação de Big Data. Até que as empresas repensem sua análise de Big Data, o fluxo principal de trabalho é garantir que o processo de data quality seja considerado em todas as etapas do processo, por todo o caminho até a entrega final. Caso contrário, os benefícios do Big Data só serão parcialmente realizados", segundo Stefan Groschupf.
Portanto, não importa o que você ouviu ou esperava, a verdade é o Big Data também precisa de um processo de data quality.
Leitura complementar Arte dos Dados: Mineração de Dados e o CRISP-DM (Data Mining)
0 comentários:
Postar um comentário