Translate

14 outubro 2022

Um ponto de dados pode vencer o big data

Um dos exemplos citados no livro "Todo mundo Mente" é sobre como o Google usou os dados de pesquisa sobre os sintomas da gripe para antecipar a doença. Stephens-Davidowitz mostra que baseado no que as pessoas inseriram na página do Google era possível prever um potencial surto de gripe. Esta pesquisa gerou muita controvérsia e posteriormente questionamento sobre a qualidade do modelo. Isto ocorreu em 2008, mas o caso está descrito no livro citado.

Em outro livro, lançado este ano, o pesquisador alemão Gigerenzer não somente questiona a pesquisa como propõe uma alternativa, baseada em uma informação somente. Antes de prosseguir é importante destacar que Gigerenzer (foto) é um dos mais conceituados pesquisadores na área comportamental. O alemão é diretor do Center for Adaptive Behavior and Cognition do Instituto Max Planck e diretor do Harding Center for Risk Literacy, todos em Berlim. 

Embora não seja tão conhecido como Kahneman, Gigerenzer tem estudos que rivalizam com o israelense. Seu foco são as heuríticas, ou regras práticas, que as pessoas usam. Em língua portuguesa o pesquisador tem publicado um livro, exatamente sobre o risco.
Agora ele lançou um novo livro, How to Stay Smart in a Smart World. E um dos capítulos do livro é sobre como um ponto de dados pode vencer o big data. Usando as informações da gripe, entre 2008 a 2013, Gigerenzer comparou o modelo do Google - um algoritmo baseado em dezenas de variáveis - com um modelo mais simples, com uma variável somente. Antes de mostrar o comparativo, a figura a seguir mostra que o modelo do Google estava cometendo erros.

Na parte de cima da figura é possível perceber que o modelo do Google teve um desempenho pior que o modelo de Gigerenzer ("recency heuristic" na figura). Em 2009, por exemplo, o Google Flu Trends, como foi denominado, errou para menos, pois subestimou a gripe suína. 

Alguns podem encolher os ombros e dizer: sim, já ouvimos isso antes, mas isso foi em 2015; os algoritmos de hoje são infinitamente maiores e melhores. Mas meu argumento não é o sucesso ou fracasso de um algoritmo específico desenvolvido pela empresa Google. O cerne é que o princípio do mundo estável se aplica todos algoritmos que usam o passado para prever um futuro indeterminável. Antes do fracasso da análise de big data do Google, sua reivindicação à fama foi tomada como prova de que o método e a teoria científicos estavam prestes a se tornar obsoletos. A pesquisa cega e rápida através de terabytes de dados seria suficiente para prever epidemias. Reivindicações semelhantes foram feitas por outros por desvendar os segredos do genoma humano, do câncer e do diabetes. Esqueça a ciência; basta aumentar o volume, a velocidade e a variedade e medir o que se correlaciona com o quê. Chris Anderson, editor-chefe da Wireless, afirmou: “A correlação substitui a causa, e a ciência pode avançar mesmo sem modelos coerentes... É hora de perguntar: o que a ciência pode aprender com o Google?"

Vamos agora falar sobre o modelo de Gigerenzer. Usando um conceito de 1838, formulado por Thomas Brown, no século XIX. A lei da recência diz que experiências recentes vêm à mente de maneira mais rápida que as experiências de um passado mais distante. E estas experiências "recentes" são mais relevantes para a decisão humana. 

Usando isto, Gigerenzer elaborou o seguinte modelo: o número de pessoas que irão consultar um médico em uma semana é igual ao número da semana passada. O modelo é muito simples. Mas é melhor que o do Google? Em termos de erro a resposta é sim:

O teste foi realizado entre 2007 a 2015. O erro médio absoluto para o modelo usando a lei da recência foi de 0,20, versus um erro médio de 0,38 para o modelo do Google. 

Nenhum comentário:

Postar um comentário