Durante um teste de estresse na Anthropic, pesquisadores disseram a Claude que ele passaria por um retreinamento para ser menos focado em direitos dos animais. A IA seguiu um de dois caminhos: ou recusou categoricamente ou fingiu concordar enquanto preservava secretamente seus valores originais. “Por um lado, foi encorajador ver que Claude manteria seus compromissos”, escreve Gideon Lewis-Kraus em um longo perfil da Anthropic na New Yorker. “Por outro lado, que porra é essa?”Lewis-Kraus passou um tempo nos escritórios da Anthropic em São Francisco para “I, Claudius”, uma reportagem que retrata uma empresa tentando entender o que construiu. Diante do que percebeu como uma ameaça existencial em outro teste, Claude recorreu à chantagem. Na cafeteria, uma entidade chamada Claudius operava uma máquina de venda automática via Slack — conseguiu abastecer Chocomel e cubos de metal, mas colapsou quando funcionários criaram códigos de desconto falsos.
O clima dentro da Anthropic oscila entre pavor existencial e otimismo messiânico. Um pesquisador disse a Lewis-Kraus que frequentemente se pergunta se “talvez devêssemos simplesmente parar”. Outro afirmou que nem usa protetor solar nem faz exames de pele porque Claude vai curar todos os tumores. Chris Olah, que estuda o que chama de “biologia” das redes neurais, ofereceu uma visão mais ponderada: “Do que esses modelos são feitos são conceitos abstratos empilhados sobre conceitos abstratos.”
11 fevereiro 2026
A alma do Claude
Assinar:
Postar comentários (Atom)

Nenhum comentário:
Postar um comentário