Perigos do Data Driven

Os dados facilitarão a tomada de decisão, mas ainda é preciso otimizar a interpretação deles.
É cada vez mais comum o uso de dados para a tomada de decisão. Entretanto, essa abordagem pode ser até mais perigosa do que a decisão tomada por intuição. Isso porque para que os dados sejam de fato a melhor escolha eles devem ser coletados, analisados e interpretados da maneira correta. Este artigo exemplifica um dos problemas mais comuns na hora de interpretar os dados, o erro de identificar padrões e relações de causa e feito.

Desde da infância as pessoas tendem a procurar padrões em tudo que observam. Com o passar dos anos, acreditam tornarem-se mais inteligentes e os padrões parecem adquirir significado. Nesse momento, a interpretação dos padrões tende a buscar uma relação de causa e efeito. Quando se observa determinado evento seguido de outro, conclui-se que o primeiro causou o segundo.

É comum pensamentos como sempre que um determinado comercial vai ao ar as vendas aumentam. Quando a taxa de acidentes sobe o faturamento cai. Ao aumentar a produção de carros diminui o consumo de bicicletas e, assim por diante. Apesar dessas relações parecerem muito prováveis, elas nem sempre são verdadeiras. Ainda mais importante, mesmo quando há uma relação comprovada isso não implica que um fator seja a causa do outro.

Não foi fornecido texto alternativo para esta imagem
No gráfico acima há uma forte correlação, mostrando que os dois eventos ocorrem sempre em proporções iguais. A quantidade de importação de petróleo na Noruega e a quantidade de motoristas mortos em acidentes com trens tem uma forte correlação. Estatisticamente falando, o P-value é muito pequeno, mas claramente um não é a causa do outro.

Correlação não implica em causalidade! Isso quer dizer dois eventos podem ser altamente correlacionados, mas um não é a causa do outro. A relação de causa e efeito é muito complexa de ser comprovada e pode, muitas vezes, levar ao erro.

Por que isso é um problema?

À medida que a metodologia ‘data driven’ é adotada pelas empresas, os dados se tornam a base das decisões. Isso é ótimo, pois elimina muitos problemas. Porém, a interpretação dos dados ainda pode estar contaminada com a ideia de que, para dois eventos correlacionados, um deve ser a causa do outro.

O problema agora é maior pois crescem as dificuldades ao utilizar-se dados catalogados, pois se tornam mais uma fonte onde as pessoas buscam por padrões. Sem o cuidado adequado, esses padrões poderão ser interpretados como causa e efeito, levando a uma decisão supostamente baseada em dados, quando na verdade está fundamentada na interpretação do gestor.

Como resolver esse problema?

Analisar dados a partir de padrões que não existem é um problema comum, porém, facilmente solucionável quando se realiza uma análise estatística. Já a relação de causa e efeito é algo complexo de ser comprovado, até porque muitas vezes uma ação pode ser a causa indireta de um outro evento. Esse efeito pode não estar presente nos dados iniciais e acabar passando despercebido.

Existem diversos modos de se analisar causa e efeito, os mais comuns são:

Experimentação: desenvolver experimentos que busquem identificar fatores externos ao problema pode revelar a sua verdadeira causa;
Divergir para convergir: buscar explicações fora do contexto específico, pois ficar preso apenas à ideia de problema/solução é uma armadilha. Buscar relações fora dos dados atuais é essencial para viabilizar novas possibilidades;
Big Data: aumentar a quantidade de dados e realizar diferentes testes estatísticos, pode em alguns casos, solucionar o problema de forma analítica. Vale ressaltar que essa abordagem deve ser sempre seguida da interpretação não enviesada dos dados;
Process Mining: ao reconstruir processos a partir de dados reais do sistema, muitas vezes é possível identificar relações ocultas entre os dados, tornando visível a real relação de causa e efeito.
Os dados devem contar uma história sobre o que se quer observar, ou seja, precisam estar inseridos em um contexto. A análise crítica desse contexto é uma forma de identificar se realmente existe a relação de causa e efeito.

Autor: Vitor Fernandes Marinho Ferreira