Translate

Mostrando postagens com marcador viés da publicação. Mostrar todas as postagens
Mostrando postagens com marcador viés da publicação. Mostrar todas as postagens

04 janeiro 2026

Um histograma que mostra um problema na ciência moderna

Há cinco anos, escrevi um pequeno artigo sobre o filtro de significância, a maldição do vencedor e a necessidade de “shrinkage” (em coautoria com Eric Cator). O principal objetivo era publicar alguns resultados matemáticos para referência futura. Para tornar o artigo um pouco mais interessante, quisemos acrescentar um exemplo motivador. Encontrei então um trabalho de Barnett e Wren (2019), que coletaram (scraped) mais de um milhão de intervalos de confiança de estimativas de razões a partir do PubMed e os disponibilizaram publicamente. Convertemos esses intervalos de confiança em estatísticas z, construí um histograma e fiquei impressionado com a ausência de estatísticas z entre −2 e 2 (ou seja, resultados não significativos).

(...) muitos memes foram criados. 


Para marcar o quinto aniversário do histograma, quis reagir a alguns comentários típicos. Por exemplo, Adriano Aguzzi comentou:

“Não vamos hiperventilar com isso. É da natureza das coisas que resultados negativos raramente sejam informativos e, portanto, raramente sejam publicados. E isso é perfeitamente legítimo.”

É decepcionante — para dizer o mínimo — que muitas pessoas ainda não percebam o problema de distorcer o registro científico ao relatar e publicar seletivamente apenas resultados que atendem ao critério p < 0,05.

Outro comentário típico (Simo110901) foi:

“Não acho que isso seja inerentemente ruim. Parte desse viés certamente vem do viés de publicação, mas uma parcela significativa (esperamos que a maioria) pode decorrer do fato de que pesquisadores costumam ser muito bons em formular hipóteses bem fundamentadas e, portanto, conseguem rejeitar resultados nulos na maioria dos casos.”

Muitos outros comentaristas também acreditam que a ausência de resultados não significativos se deve à capacidade dos pesquisadores de dimensionar seus estudos com precisão, de modo a obter significância estatística com um desvio mínimo para cima. Isso é muito improvável. Na figura abaixo, comparo as estatísticas z de Barnett e Wren (2019) com um conjunto de mais de 20.000 estatísticas z referentes aos desfechos primários de eficácia de ensaios clínicos extraídos da Cochrane Database of Systematic Reviews (CDSR).


O histograma da CDSR (à direita) não apresenta uma lacuna perceptível. Não posso afirmar com certeza a razão disso, mas arriscaria dizer que se deve ao fato de que ensaios clínicos constituem pesquisa séria. Em geral, eles são pré-registrados, no sentido de que possuem um protocolo aprovado por um Comitê de Ética em Pesquisa (Institutional Review Board). Além disso, são caros e demorados, de modo que, mesmo quando os resultados não são significativos, seria um desperdício não publicá-los. Por fim, não publicar seria eticamente problemático em relação aos participantes do estudo.

Outro comentário típico (Daniel Lakens) afirma:

“Isso não é um retrato preciso do quanto a literatura é enviesada. Os autores analisam apenas valores-p presentes nos resumos.”

Barnett e Wren (2019), no entanto, coletaram estatísticas z tanto de resumos quanto de textos completos. Os dados de texto completo estão disponíveis para artigos hospedados no PubMed Central. No total, há 961.862 resumos e 348.809 textos completos. A seguir, apresento as estatísticas z separadamente. As distribuições são notavelmente semelhantes, embora haja uma proporção ligeiramente maior de resultados não significativos nos textos completos.

Qualquer algoritmo automatizado de coleta de dados (scraping) inevitavelmente deixará passar algumas informações. É bastante possível que resultados não significativos que não apareçam no resumo ou no texto principal ainda sejam reportados em tabelas separadas, apêndices ou materiais suplementares. No entanto, duvido que isso explique a enorme lacuna observada. Estou bastante convencido de que as estatísticas z extraídas do PubMed realmente fornecem fortes evidências de viés de publicação contra resultados não significativos na literatura médica. Ainda assim, é importante notar que a sub-representação de estatísticas z entre −2 e 2 provavelmente não se deve apenas ao viés de publicação, mas também ao fato de os autores não reportarem intervalos de confiança para resultados não significativos. Evidentemente, isso tampouco é algo desejável.

Fonte: aqui 

Tinha pensado inicialmente em postar somente um trecho do artigo. Mas achei bem interessante e importante e acima tem o texto quase completo. A mensagem é clara: o não resultado também é importante para a ciência.  


12 setembro 2022

Mechanical Turk e o problema do p-hacking

Na postagem sobre p-hacking e o viés da publicação, onde mostramos uma pesquisa que verificou se procedimentos de registro de análise prévia poderia resolver este problema, a boa notícia é que um dos procedimentos, o PAP, pode ser uma possível resposta para a questão. Lembrando que p-hacking é a tendência a forçar um resultado que torna a pesquisa com mais chance de ser publicada ou de ser citada. E o viés da publicação é o fato de que editores e pareceristas de periódicos terem uma preferência prévia por certos resultados, afetando a decisão de aceite de um artigo. 

Em um exemplo, é mais "publicável" um estudo que afirma que um alimento pode ajudar a reduzir uma doença do que outra pesquisa que diz não existir nenhuma relação. A nossa postagem mostrou que fazendo fazendo um registro prévio das hipóteses e da forma como a questão será abordada na pesquisa pode ajudar a resolver o p-hacking e o viés da publicação. 

Três dos quatro autores do estudo que descrevemos na postagem analisaram também o Mechanical Turk. Para quem não conhece, é uma ferramenta de propriedade da Amazon que tem sido muita usada em pesquisas em diversas áreas. Sua grande vantagem é permitir que uma pesquisa seja realizada com um universo de respondentes demograficamente mais diverso, sendo possível obter grandes amostras com baixo custo. 

Analisando os estudos publicados entre 2010 e 2020, os autores constataram que a amostra dos estudos é relativamente baixa (média de 249 respondentes). Em uma das notas de rodapé da pesquisa há um caso interessante de um estudo realizado em 2013 em que cinco anos depois o líder não se lembrava de nada do experimento com 956 participantes. Isto seria um sinal de que o MTurk apresenta um baixo custo de oportunidade: se a pesquisa tivesse sido presencial, você iria lembrar de algo, já que seu custo de aplicação é elevado. 

O resultado final é que pesquisas que usam o MTurk possuem p-hacking, viés de publicação e confiança excessiva nos resultados. O próprio comportamento da comunidade de responde pode afetar o resultado. 

Eis o abstract:

Amazon Mechanical Turk is a very widely-used tool in business and economics research, but how trustworthy are results from well-published studies that use it? Analyzing the universe of hypotheses tested on the platform and published in leading journals between 2010 and 2020 we find evidence of widespread p-hacking, publication bias and over-reliance on results from plausibly under-powered studies. Even ignoring questions arising from the characteristics and behaviors of study recruits, the conduct of the research community itself erode substantially the credibility of these studies’ conclusions. The extent of the problems vary across the business, economics, management and marketing research fields (with marketing especially afflicted). The problems are not getting better over time and are much more prevalent than in a comparison set of non-online experiments. We explore correlates of increased credibility

Eis um gráfico que diz tudo sobre o MTurk:

Esta é a curva dos resultados da estatística Z. A curva deveria está em formato decrescente - caso as pesquisas não tivessem problemas. 

(Uma curiosidade: o MTurk tem este nome em homenagem da Edgar Allan Poe. Na sua época, apareceu uma máquina que jogava xadrez, um robô, representado por um turco. Poe é do século XIX, então esta máquina era um truque. O escritor relata como a "maquina" funcionava)

08 setembro 2022

Uma possível solução para o p-hacking e o viés da publicação

Um dos problemas da pesquisa científica publicada é a existência do p-hacking, ou seja, a manipulação e/ou a seleção de resultados com determinados valores estatísticos. Como o pesquisador sabe que certos resultados podem aumentar a chance de publicação da sua pesquisa, há uma escolha ou uma tentativa de forçar certos resultados.

Suponha uma pesquisa sobre a relação entre o anúncio de resultados contábeis afetando o preço das ações. E considere também que os resultados serão mais aceitos caso tenha a comprovação da relação. Haverá uma tendência do pesquisador em forçar a apresentação dos resultados. Para o periódico, a publicação de uma pesquisa com esta relação será mais interessante, pois pode aumentar o número de pessoas que irá ler o trabalho e o número de outros pesquisadores que irão citá-lo. Isto é o p-hacking e sua consequência é um viés de publicação dos resultados. 

Um forma de resolver este problema é exigir um registro prévio do método a ser empregado, antes de iniciar a pesquisa. Isto irá garantir que não exista mudança na técnica estatística usada, que é algo comum quando o pesquisador deseja encontrar certo resultado. Uma forma mais rigorosa ainda é garantir que hipótese será testada e como isto irá ocorrer; Isso deve ser feito antes da pesquisa começar e é chamada de análise prévia ou PAP em inglês. 

Como o p-hacking passou a ser discutido nas ciências, ambas as soluções (registro prévio e análise prévia do planejamento) tornaram-se desejáveis. 
O gráfico mostra que o registro prévio nos periódicos de economia estão crescendo substancialmente. E entre os periódicos mais relevantes isto parece ser uma regra básica. Os outros periódicos estão acompanhando a onda. 

Mas será que isto funciona? Já foram desenvolvidos testes para verificar a existência de p-hacking e do viés da publicação que ocorre. Agora, quatro pesquisadores analisaram quase 16 mil estudos, com ensaios aleatórios controlados (RCT em inglês) e se isto reduziu os dois problemas. 
 
Como o pré-registro e o PAP são procedimentos distintos, a pesquisa analisou ambos. O gráfico acima mostra a distribuição dos testes estatísticos para a primeira situação, ou seja, do pré-registro. Na verdade, o gráfico da esquerda é a pesquisa sem pré-registro e o gráfico da direito é com o pré-registro. Se você achou que os gráficos parecem iguais, sua impressão é correta. Será que isto muda com um maior rigor, ou seja, com o PAP? O resultado está abaixo:
Os dois gráficos podem parecer idênticos, mas quando os autores analisaram os testes para verificar a presença de p-hacking o resultado mostrou que são estatisticamente diferentes. 

Eis o resumo do artigo:

Randomized controlled trials (RCTs) are increasingly prominent in economics, with preregistration and pre-analysis plans (PAPs) promoted as important in ensuring the credibility of findings. We investigate whether these tools reduce the extent of p-hacking and publication bias by collecting and studying the universe of test statistics, 15,992 in total, from RCTs published in 15 leading economics journals from 2018 through 2021. In our primary analysis, we find no meaningful difference in the distribution of test statistics from pre-registered studies, compared to their non-pre-registered counterparts. However, preregisterd studies that have a complete PAP are significantly less p-hacked. This results point to the importance of PAPs, rather than pre-registration in itself, in ensuring credibility

04 setembro 2019

Viés da publicação

Um dos grandes problemas da pesquisa científica é o chamado viés da publicação. Geralmente as pesquisas com resultados estatisticamente significativos possuem maiores chances de serem publicados. Uma pesquisa, da edição de agosto do American Economic Review (via aqui) mostrou que estas chances são de 30 vezes para os resultados da economia experimental. Como consequência, os resultados publicados podem estar inflados.

A figura abaixo mostra uma correção para experimentos que foram publicados no The American Economic Review e no Quarterly Journal of Economics, entre 2011 e 2014. A estimativa original está em roxo e a estimativa revisada em cor preta. O gráfico apresenta os intervalos de confiança de 95%. Os valores ajustados são, em geral, menores que os valores originais. Observe que o último estudo, de Kuziemko et al, tornou-se insignificante depois da correção.

No entanto, muitos resultados passam de significativos para insignificantes. Apenas dois dos dezoito resultados originais foram estatisticamente insignificantes. Após considerar o viés de publicação, doze resultados são estatisticamente insignificantes no nível de 5%.

03 abril 2019

Viés da publicação

Um problema sério que atinge a pesquisa científica é o viés da publicação. Da mesma forma que ocorre com os tabloídes, os periódicos e os membros das comissões de avaliação gostam de pesquisas que sejam mais “excitantes”. Em geral, isto significa pesquisas em apresentaram um p-valor elevado (vide sobre isto, postagem recente do blog). Caso o resultado não seja “excitante”, os periódicos tendem a não publicar e os avaliadores a questionar a validade do trabalho. Conforme destaca Guerra Pujol, isto gera uma falha de mercado acadêmica, gerando uma superprodução de estudos sensuais.

Para cada estudo que mostra que há uma relação entre gerenciamento de resultado e relatório de auditoria com ressalva temos diversos estudos “entediantes” que mostram que esta relação não existe. Se não sabemos deste estudo, não temos uma ideia real se efetivamente existe uma relação entre gerenciamento e auditoria.

Neste ponto, nós pesquisadores temos uma parcela enorme de culpa. Quando o resultado mostra com pouca significância, tentamos diversas técnicas, buscando um resultado que seja condizente com o que esperamos. E aceitamos que avaliadores descartem nossa pesquisa por não apresentarem resultado “sensuais”.

Uma forma de reduzir este problema é deixar registrado, antes do início da pesquisa, quais os testes serão realizados. Isto evitaria a “dragagem de dados" (ou aqui)