Translate

Mostrando postagens com marcador análise multivariada. Mostrar todas as postagens
Mostrando postagens com marcador análise multivariada. Mostrar todas as postagens

04 janeiro 2026

Um histograma que mostra um problema na ciência moderna

Há cinco anos, escrevi um pequeno artigo sobre o filtro de significância, a maldição do vencedor e a necessidade de “shrinkage” (em coautoria com Eric Cator). O principal objetivo era publicar alguns resultados matemáticos para referência futura. Para tornar o artigo um pouco mais interessante, quisemos acrescentar um exemplo motivador. Encontrei então um trabalho de Barnett e Wren (2019), que coletaram (scraped) mais de um milhão de intervalos de confiança de estimativas de razões a partir do PubMed e os disponibilizaram publicamente. Convertemos esses intervalos de confiança em estatísticas z, construí um histograma e fiquei impressionado com a ausência de estatísticas z entre −2 e 2 (ou seja, resultados não significativos).

(...) muitos memes foram criados. 


Para marcar o quinto aniversário do histograma, quis reagir a alguns comentários típicos. Por exemplo, Adriano Aguzzi comentou:

“Não vamos hiperventilar com isso. É da natureza das coisas que resultados negativos raramente sejam informativos e, portanto, raramente sejam publicados. E isso é perfeitamente legítimo.”

É decepcionante — para dizer o mínimo — que muitas pessoas ainda não percebam o problema de distorcer o registro científico ao relatar e publicar seletivamente apenas resultados que atendem ao critério p < 0,05.

Outro comentário típico (Simo110901) foi:

“Não acho que isso seja inerentemente ruim. Parte desse viés certamente vem do viés de publicação, mas uma parcela significativa (esperamos que a maioria) pode decorrer do fato de que pesquisadores costumam ser muito bons em formular hipóteses bem fundamentadas e, portanto, conseguem rejeitar resultados nulos na maioria dos casos.”

Muitos outros comentaristas também acreditam que a ausência de resultados não significativos se deve à capacidade dos pesquisadores de dimensionar seus estudos com precisão, de modo a obter significância estatística com um desvio mínimo para cima. Isso é muito improvável. Na figura abaixo, comparo as estatísticas z de Barnett e Wren (2019) com um conjunto de mais de 20.000 estatísticas z referentes aos desfechos primários de eficácia de ensaios clínicos extraídos da Cochrane Database of Systematic Reviews (CDSR).


O histograma da CDSR (à direita) não apresenta uma lacuna perceptível. Não posso afirmar com certeza a razão disso, mas arriscaria dizer que se deve ao fato de que ensaios clínicos constituem pesquisa séria. Em geral, eles são pré-registrados, no sentido de que possuem um protocolo aprovado por um Comitê de Ética em Pesquisa (Institutional Review Board). Além disso, são caros e demorados, de modo que, mesmo quando os resultados não são significativos, seria um desperdício não publicá-los. Por fim, não publicar seria eticamente problemático em relação aos participantes do estudo.

Outro comentário típico (Daniel Lakens) afirma:

“Isso não é um retrato preciso do quanto a literatura é enviesada. Os autores analisam apenas valores-p presentes nos resumos.”

Barnett e Wren (2019), no entanto, coletaram estatísticas z tanto de resumos quanto de textos completos. Os dados de texto completo estão disponíveis para artigos hospedados no PubMed Central. No total, há 961.862 resumos e 348.809 textos completos. A seguir, apresento as estatísticas z separadamente. As distribuições são notavelmente semelhantes, embora haja uma proporção ligeiramente maior de resultados não significativos nos textos completos.

Qualquer algoritmo automatizado de coleta de dados (scraping) inevitavelmente deixará passar algumas informações. É bastante possível que resultados não significativos que não apareçam no resumo ou no texto principal ainda sejam reportados em tabelas separadas, apêndices ou materiais suplementares. No entanto, duvido que isso explique a enorme lacuna observada. Estou bastante convencido de que as estatísticas z extraídas do PubMed realmente fornecem fortes evidências de viés de publicação contra resultados não significativos na literatura médica. Ainda assim, é importante notar que a sub-representação de estatísticas z entre −2 e 2 provavelmente não se deve apenas ao viés de publicação, mas também ao fato de os autores não reportarem intervalos de confiança para resultados não significativos. Evidentemente, isso tampouco é algo desejável.

Fonte: aqui 

Tinha pensado inicialmente em postar somente um trecho do artigo. Mas achei bem interessante e importante e acima tem o texto quase completo. A mensagem é clara: o não resultado também é importante para a ciência.  


25 dezembro 2025

Podemos substituir LLM por humanos em pesquisa?


Imagem aqui 

Parece loucura isso. Pesquisas usando IA no lugar de seres humanos. Eis um trecho da discussão

No início deste ano, comecei a prestar atenção em propostas que sugerem o uso de LLMs para simular participantes em surveys e experimentos comportamentais. A ideia é que os LLMs possam ser instruídos por meio de prompts que incluam as instruções do experimento ou do questionário e uma persona de participante (por exemplo, uma descrição demográfica), tornando possível simular amostras humanas-alvo sem os custos e as dificuldades de recrutar pessoas reais. Diversos artigos têm apontado resultados promissores — como situações em que os resultados obtidos com LLMs apresentam correlação moderada a alta com os resultados de estudos com humanos — para argumentar que essa abordagem poderia transformar as ciências comportamentais: aumentando tamanhos amostrais, gerando contrafactuais ausentes, permitindo aprender sobre populações de difícil acesso ou sobre situações eticamente sensíveis, entre outros benefícios.

O elefante óbvio na sala é a validação: como estabelecer que conclusões sobre o comportamento humano, derivadas de análises que substituem ou complementam dados humanos com saídas de LLMs, são válidas? Em outras palavras, como garantir que o uso de LLMs não introduz vieses sistemáticos na estimação do parâmetro humano de interesse (efeitos médios, coeficientes de regressão etc.)? Muitos artigos sobre esse tema lidam com essa questão de maneira frouxa e heurística. Por exemplo, os autores demonstram uma replicação parcial de alguns resultados humanos com LLMs e, em seguida, passam a argumentar que os LLMs poderiam ser usados para aproximar o comportamento humano de forma mais ampla naquele domínio. Alguns trabalhos tentam formalizar esse tipo de validação heurística.

Então decidimos escrever algo especificamente sobre a validação de participantes de estudos baseados em LLMs: como é o panorama das abordagens que vêm sendo adotadas e, dentre elas, quais atendem aos requisitos mínimos para produzir estimativas válidas de parâmetros em análises posteriores. 

O texto completo pode ser encontrado aqui. Em resumo, devemos ter cuidado (feito pelo GPT):

O uso de LLMs para substituir participantes humanos não é, em geral, válido quando o objetivo é produzir inferências confiáveis sobre o comportamento humano. Embora LLMs possam reproduzir padrões aparentes de respostas humanas e apresentar correlações elevadas com dados reais, isso não garante validade inferencial. A principal limitação está no risco de vieses sistemáticos: erros dos LLMs podem estar correlacionados com variáveis de interesse, comprometendo estimativas de médias, efeitos causais ou coeficientes de regressão, mesmo quando o viés médio parece pequeno.

O uso de LLMs pode ser aceitável em contextos exploratórios, como geração de hipóteses, testes preliminares de desenho experimental ou identificação de possíveis efeitos, desde que haja cautela na interpretação dos resultados. Para pesquisas confirmatórias, a substituição direta de humanos por LLMs só seria defensável se acompanhada de procedimentos rigorosos de validação e calibração estatística, com dados humanos auxiliares e ajustes explícitos para vieses residuais. Sem isso, LLMs devem ser vistos como ferramentas complementares — e não substitutos — da pesquisa com participantes humanos.

19 dezembro 2025

Letramento gráfico

Muito interessante e atual: 


Na sociedade atual, saturada de dados, a comunicação visual tornou-se uma ferramenta essencial para tornar informações complexas acessíveis. À medida que a exposição a dados visuais aumenta — seja em contextos educacionais, meios de comunicação, estatísticas oficiais, instituições públicas ou redes sociais —, a capacidade de interpretar gráficos passa a ser uma forma vital de letramento. No entanto, nosso conhecimento sobre como gráficos provenientes de contextos da vida real são compreendidos e lembrados, bem como sobre os fatores que influenciam sua compreensão e recordação, ainda é relativamente limitado.

Este estudo examina como indivíduos compreendem e recordam informações provenientes de gráficos de barras simples versus gráficos com elementos decorativos, utilizando dados autênticos do Eurostat. Em um delineamento entre sujeitos, os participantes descreveram as mensagens dos gráficos e recordaram seus elementos visuais em dois momentos distintos. Diferentemente dos testes tradicionais de compreensão, foram utilizadas respostas abertas para captar interpretações espontâneas, simulando uma tarefa do mundo real: observar um gráfico estatístico público e tentar compreendê-lo sem orientação prévia.

A maioria dos participantes identificou o tema geral — frequentemente reproduzindo o título —, mas insights mais profundos (como reconhecimento de padrões ou opiniões) foram raros. Embora os elementos decorativos não tenham afetado a extração da mensagem, eles melhoraram significativamente a recordação dos gráficos. Um background estatístico previu positivamente a recordação e houve alguma evidência de associação com a compreensão, enquanto o raciocínio cognitivo e o interesse pelo tema apresentaram associações limitadas. Esses achados ressaltam a importância dos títulos dos gráficos, da experiência do usuário e dos elementos de design na construção do entendimento. O estudo defende melhorias na redação dos gráficos, uso cauteloso de elementos decorativos e esforços educacionais para promover o letramento em visualização de dados.


R volta a subir na linguagem de programação, mas Python ainda é o rei


Eis uma análise do último da lista: 

Havia rumores de que o R estava em declínio, mas neste ano o R voltou a subir do 16º para o 10º lugar, de acordo com o Índice TIOBE, que acompanha a popularidade das linguagens de programação.

A linguagem de programação R é conhecida por se ajustar perfeitamente a estatísticos e cientistas de dados. À medida que a estatística e a visualização de dados em larga escala se tornam cada vez mais importantes, o R recuperou popularidade. Essa tendência também se reflete, por exemplo, na ascensão do Wolfram/Mathematica (outra ferramenta com capacidades semelhantes), que retornou ao top 50 neste mês.

O R às vezes é visto com desconfiança por engenheiros de software “tradicionais”, devido à sua sintaxe pouco convencional e à escalabilidade limitada para grandes sistemas de produção. No entanto, para especialistas de domínio, continua sendo uma ferramenta poderosa e elegante. O R segue forte nas universidades e em setores orientados por pesquisa.

21 agosto 2025

Random Forrest no trabalho do auditor

O resumo: 


 Diante da incerteza econômica global, a auditoria financeira tornou-se essencial para a conformidade regulatória e mitigação de riscos. Os métodos tradicionais de auditoria manual estão cada vez mais limitados pelos grandes volumes de dados, estruturas empresariais complexas e evolução das táticas de fraude. Este estudo propõe uma estrutura de auditoria financeira empresarial orientada por IA e de identificação de alto risco, utilizando aprendizado de máquina para melhorar a eficiência e a precisão. Com um conjunto de dados das quatro grandes firmas de auditoria (EY, PwC, Deloitte, KPMG) de 2020 a 2025, a pesquisa examina tendências em avaliação de risco, violações de conformidade e detecção de fraudes. O conjunto inclui indicadores como número de projetos de auditoria, casos de alto risco, instâncias de fraude, violações de conformidade, carga de trabalho dos funcionários e satisfação dos clientes, capturando tanto os comportamentos de auditoria quanto o impacto da IA nas operações. Para construir um modelo robusto de predição de riscos, três algoritmos — Support Vector Machine (SVM), Random Forest (RF) e K-Nearest Neighbors (KNN) — são avaliados. O SVM usa otimização de hiperplanos para classificações complexas, o RF combina árvores de decisão para lidar com dados não lineares e de alta dimensionalidade com resistência ao overfitting, e o KNN aplica aprendizado baseado em distância para desempenho flexível. Por meio de validação cruzada hierárquica K-fold e avaliação com F1-score, acurácia e recall, o Random Forest alcança o melhor desempenho, com F1-score de 0,9012, destacando-se na identificação de fraudes e anomalias de conformidade. A análise de importância das variáveis revela frequência de auditorias, violações anteriores, carga de trabalho dos funcionários e avaliações dos clientes como principais preditores. O estudo recomenda a adoção do Random Forest como modelo central, com aprimoramento de variáveis via feature engineering e implementação de monitoramento de riscos em tempo real. Esta pesquisa traz contribuições valiosas sobre o uso de aprendizado de máquina para auditoria inteligente e gestão de riscos em empresas modernas.

09 abril 2024

Análise Multivariada e Contabilidade

A Análise Multivariada (AMV) representa uma extensão dos métodos estatísticos univariados e bivariados, permitindo investigar simultaneamente a relação entre múltiplas variáveis. Trata-se de um conjunto de técnicas muito usada em quase todos os campos científicos, especialmente quando existem eventos que são influenciados por várias variáveis conectadas.


Sua importância decorre da capacidade de controlar o efeito de múltiplas variáveis ao mesmo tempo, permitindo uma compreensão mais precisa dos dados. Por isso, pode ser útil para identificar padrões, tendências e associações que não conseguimos usando as variáveis de forma separada ou através da mera observação dos dados. Uma potencial aplicação é no processo preditivo.

Para a contabilidade, a AMV pode ser uma ferramenta muito útil para diferentes aplicações em diferentes campos da contabilidade. Usando as técnicas, podemos ter instrumentos poderosos para analisar a saúde financeira de uma empresa através do estudo integrado de índices. Outro campo onde a AMV pode ser usada é na detecção de fraudes, analisando padrões e ajudando a identificar transações que desviam do padrão usual. Na análise de risco, podemos verificar o impacto de fatos no risco. Na contabilidade gerencial, as técnicas podem ser úteis em diferentes situações.

Um levantamento que fiz em mais de 30 obras que abordam o tema, sob diferentes perspectivas, permitiu listar as cinco técnicas mais populares de AMV. Na ordem:

1. Regressão – esta é uma técnica presente em qualquer obra sobre o assunto. Em muitos cursos, os professores dedicam um grande foco de atenção a este assunto, e realmente seu conhecimento é importante para um profissional contábil que deseja ter uma visão mais sofisticada de diversos temas. Um exemplo onde a regressão pode ser usada na contabilidade é na contabilidade de custos, onde o custo de uma empresa pode ser dividido em uma parcela fixa, que seria a constante do resultado obtido na regressão, uma parcela que varia conforme o volume de atividade da empresa, o chamado custo variável por atividade, além do custo por lote de produção, custo decorrente da diversidade do produto, custo de parada, entre outros.

2. Regressão Logística – esta poderia ser usada quando trabalhamos com as chances de ocorrência de um evento onde o resultado esperado é do tipo categórico. Um exemplo é estimar a chance de falência de uma empresa a partir dos índices de análise, como liquidez ou endividamento. A logística pode criar uma expressão onde os índices são usados, sendo possível tomar uma decisão baseada na probabilidade. Este é um método um pouco mais sofisticado, mas tem se tornado popular com os softwares estatísticos e a atratividade em termos de restrição de uso.

3. Análise de Cluster ou de Agrupamento – a ideia da análise é verificar se um conjunto de elementos pode ser dividido em grupos em razão de sua semelhança. Estamos classificando um conjunto de hospitais com base na sua receita, tipo de atendimento, taxa de leitos, entre outras medidas. A análise de cluster agrupa os hospitais de maneira mais precisa, onde os hospitais com características semelhantes estarão no mesmo grupo. Essa é uma técnica que pode ser usada quando não sabemos muito sobre o objeto de estudo, facilitando as comparações e análises que possam ser feitas.

4. Análise Discriminante – A análise discriminante é uma velha conhecida na literatura contábil na construção de índices de solvência. Os índices de Altman e de Kanitz foram construídos com base nessa técnica. Veja, a análise é muito parecida com a logística: queremos distinguir dois ou mais grupos (solvente e insolvente, por exemplo) com base em características (os índices de balanço). Confesso que fiquei surpreso ao verificar que a análise ainda é estudada na literatura de AMV, pois achava que a mesma já tinha sido substituída pela logística.

5. Análise de Componentes Principais – Essa técnica procura reduzir um grande conjunto de dados em algumas poucas informações. Se fiz um questionário com 30 perguntas e não sei como analisar, a PCA, como é chamada, pode ser útil ao reduzir em um menor número de componentes. Se o analista der sorte, dos 30 itens talvez somente dois ou três realmente importam. E isso ajuda muito no processo de análise e compreensão do que está ocorrendo. Há uma grande controvérsia na literatura sobre a diferença da PCA com a análise fatorial, que também é bastante estudada.

Além destas técnicas, outras aparecem na literatura e podem ser úteis para o contador: análise de variância, análise fatorial (exploratória e confirmatória), correlação canônica, equação estrutural, escalonamento multidimensional, correspondência, árvore de decisão, entre outras. Boa diversão.

(Imagem criada pelo Chatgpt a partir do texto acima)