Há cinco anos, escrevi um pequeno artigo sobre o filtro de significância, a maldição do vencedor e a necessidade de “shrinkage” (em coautoria com Eric Cator). O principal objetivo era publicar alguns resultados matemáticos para referência futura. Para tornar o artigo um pouco mais interessante, quisemos acrescentar um exemplo motivador. Encontrei então um trabalho de Barnett e Wren (2019), que coletaram (scraped) mais de um milhão de intervalos de confiança de estimativas de razões a partir do PubMed e os disponibilizaram publicamente. Convertemos esses intervalos de confiança em estatísticas z, construí um histograma e fiquei impressionado com a ausência de estatísticas z entre −2 e 2 (ou seja, resultados não significativos).
(...) muitos memes foram criados.
Para marcar o quinto aniversário do histograma, quis reagir a alguns comentários típicos. Por exemplo, Adriano Aguzzi comentou:
“Não vamos hiperventilar com isso. É da natureza das coisas que resultados negativos raramente sejam informativos e, portanto, raramente sejam publicados. E isso é perfeitamente legítimo.”
É decepcionante — para dizer o mínimo — que muitas pessoas ainda não percebam o problema de distorcer o registro científico ao relatar e publicar seletivamente apenas resultados que atendem ao critério p < 0,05.
Outro comentário típico (Simo110901) foi:
“Não acho que isso seja inerentemente ruim. Parte desse viés certamente vem do viés de publicação, mas uma parcela significativa (esperamos que a maioria) pode decorrer do fato de que pesquisadores costumam ser muito bons em formular hipóteses bem fundamentadas e, portanto, conseguem rejeitar resultados nulos na maioria dos casos.”
Muitos outros comentaristas também acreditam que a ausência de resultados não significativos se deve à capacidade dos pesquisadores de dimensionar seus estudos com precisão, de modo a obter significância estatística com um desvio mínimo para cima. Isso é muito improvável. Na figura abaixo, comparo as estatísticas z de Barnett e Wren (2019) com um conjunto de mais de 20.000 estatísticas z referentes aos desfechos primários de eficácia de ensaios clínicos extraídos da Cochrane Database of Systematic Reviews (CDSR).
O histograma da CDSR (à direita) não apresenta uma lacuna perceptível. Não posso afirmar com certeza a razão disso, mas arriscaria dizer que se deve ao fato de que ensaios clínicos constituem pesquisa séria. Em geral, eles são pré-registrados, no sentido de que possuem um protocolo aprovado por um Comitê de Ética em Pesquisa (Institutional Review Board). Além disso, são caros e demorados, de modo que, mesmo quando os resultados não são significativos, seria um desperdício não publicá-los. Por fim, não publicar seria eticamente problemático em relação aos participantes do estudo.
Outro comentário típico (Daniel Lakens) afirma:
“Isso não é um retrato preciso do quanto a literatura é enviesada. Os autores analisam apenas valores-p presentes nos resumos.”
Barnett e Wren (2019), no entanto, coletaram estatísticas z tanto de resumos quanto de textos completos. Os dados de texto completo estão disponíveis para artigos hospedados no PubMed Central. No total, há 961.862 resumos e 348.809 textos completos. A seguir, apresento as estatísticas z separadamente. As distribuições são notavelmente semelhantes, embora haja uma proporção ligeiramente maior de resultados não significativos nos textos completos.
Qualquer algoritmo automatizado de coleta de dados (scraping) inevitavelmente deixará passar algumas informações. É bastante possível que resultados não significativos que não apareçam no resumo ou no texto principal ainda sejam reportados em tabelas separadas, apêndices ou materiais suplementares. No entanto, duvido que isso explique a enorme lacuna observada. Estou bastante convencido de que as estatísticas z extraídas do PubMed realmente fornecem fortes evidências de viés de publicação contra resultados não significativos na literatura médica. Ainda assim, é importante notar que a sub-representação de estatísticas z entre −2 e 2 provavelmente não se deve apenas ao viés de publicação, mas também ao fato de os autores não reportarem intervalos de confiança para resultados não significativos. Evidentemente, isso tampouco é algo desejável.
Fonte: aqui
Tinha pensado inicialmente em postar somente um trecho do artigo. Mas achei bem interessante e importante e acima tem o texto quase completo. A mensagem é clara: o não resultado também é importante para a ciência.







