Translate

25 dezembro 2025

Podemos substituir LLM por humanos em pesquisa?


Imagem aqui 

Parece loucura isso. Pesquisas usando IA no lugar de seres humanos. Eis um trecho da discussão

No início deste ano, comecei a prestar atenção em propostas que sugerem o uso de LLMs para simular participantes em surveys e experimentos comportamentais. A ideia é que os LLMs possam ser instruídos por meio de prompts que incluam as instruções do experimento ou do questionário e uma persona de participante (por exemplo, uma descrição demográfica), tornando possível simular amostras humanas-alvo sem os custos e as dificuldades de recrutar pessoas reais. Diversos artigos têm apontado resultados promissores — como situações em que os resultados obtidos com LLMs apresentam correlação moderada a alta com os resultados de estudos com humanos — para argumentar que essa abordagem poderia transformar as ciências comportamentais: aumentando tamanhos amostrais, gerando contrafactuais ausentes, permitindo aprender sobre populações de difícil acesso ou sobre situações eticamente sensíveis, entre outros benefícios.

O elefante óbvio na sala é a validação: como estabelecer que conclusões sobre o comportamento humano, derivadas de análises que substituem ou complementam dados humanos com saídas de LLMs, são válidas? Em outras palavras, como garantir que o uso de LLMs não introduz vieses sistemáticos na estimação do parâmetro humano de interesse (efeitos médios, coeficientes de regressão etc.)? Muitos artigos sobre esse tema lidam com essa questão de maneira frouxa e heurística. Por exemplo, os autores demonstram uma replicação parcial de alguns resultados humanos com LLMs e, em seguida, passam a argumentar que os LLMs poderiam ser usados para aproximar o comportamento humano de forma mais ampla naquele domínio. Alguns trabalhos tentam formalizar esse tipo de validação heurística.

Então decidimos escrever algo especificamente sobre a validação de participantes de estudos baseados em LLMs: como é o panorama das abordagens que vêm sendo adotadas e, dentre elas, quais atendem aos requisitos mínimos para produzir estimativas válidas de parâmetros em análises posteriores. 

O texto completo pode ser encontrado aqui. Em resumo, devemos ter cuidado (feito pelo GPT):

O uso de LLMs para substituir participantes humanos não é, em geral, válido quando o objetivo é produzir inferências confiáveis sobre o comportamento humano. Embora LLMs possam reproduzir padrões aparentes de respostas humanas e apresentar correlações elevadas com dados reais, isso não garante validade inferencial. A principal limitação está no risco de vieses sistemáticos: erros dos LLMs podem estar correlacionados com variáveis de interesse, comprometendo estimativas de médias, efeitos causais ou coeficientes de regressão, mesmo quando o viés médio parece pequeno.

O uso de LLMs pode ser aceitável em contextos exploratórios, como geração de hipóteses, testes preliminares de desenho experimental ou identificação de possíveis efeitos, desde que haja cautela na interpretação dos resultados. Para pesquisas confirmatórias, a substituição direta de humanos por LLMs só seria defensável se acompanhada de procedimentos rigorosos de validação e calibração estatística, com dados humanos auxiliares e ajustes explícitos para vieses residuais. Sem isso, LLMs devem ser vistos como ferramentas complementares — e não substitutos — da pesquisa com participantes humanos.

Nenhum comentário:

Postar um comentário