Translate

27 janeiro 2026

IA treinada com dados de IA pode ser um problema

Modelos de IA funcionam sendo treinados em enormes volumes de dados da internet. Mas, à medida que a IA vem sendo cada vez mais usada para despejar na web páginas cheias de conteúdo lixo, esse processo corre o risco de ser minado. 

(...) À medida que modelos subsequentes produzem saídas que passam a ser usadas como dados de treinamento para modelos futuros, o efeito piora. Ilia Shumailov, cientista da computação da Universidade de Oxford que liderou o estudo, compara o processo a tirar fotos de fotos. “Se você tira uma foto, escaneia, depois imprime, e repete esse processo ao longo do tempo, basicamente o ruído acaba dominando todo o processo”, diz ele. “Você fica com um quadrado escuro.” O equivalente desse quadrado escuro para a IA é chamado de “colapso do modelo”, explica, ou seja, o modelo passa a produzir lixo incoerente. 

(...) E o problema tende a piorar à medida que um número crescente de sites lixo gerados por IA começa a entulhar a internet. 

Os modelos atuais de IA não vão simplesmente colapsar, diz Shumailov, mas ainda assim pode haver efeitos substanciais: as melhorias vão desacelerar e o desempenho pode sofrer. (...)

Shumailov explica o que ele acha que está acontecendo usando esta analogia: imagine que você está tentando encontrar o nome menos provável de um estudante na escola. Você poderia passar por todos os nomes dos alunos, mas isso levaria tempo demais. Em vez disso, você olha 100 dos 1.000 nomes. Você obtém uma estimativa razoavelmente boa, mas provavelmente não é a resposta correta. Agora imagine que outra pessoa venha e faça uma estimativa com base nos seus 100 nomes, mas selecione apenas 50. A estimativa dessa segunda pessoa vai estar ainda mais distante da realidade. 

“Você certamente pode imaginar que o mesmo acontece com modelos de aprendizado de máquina”, diz ele. “Então, se o primeiro modelo viu metade da internet, talvez o segundo modelo não vá pedir metade da internet, mas, na verdade, vai raspar os últimos 100.000 tweets e ajustar o modelo em cima disso.” 

Além disso, a internet não contém uma quantidade ilimitada de dados. Para alimentar seu apetite por mais, modelos futuros de IA talvez precisem treinar com dados sintéticos — ou dados que tenham sido produzidos por IA. 

(...) Matthias Gerstgrasser, pesquisador de IA em Stanford que é autor de outro artigo examinando o colapso de modelos, diz que adicionar dados sintéticos aos dados do mundo real, em vez de substituí-los, não causa grandes problemas. Mas acrescenta: “Uma conclusão com a qual toda a literatura sobre colapso de modelos concorda é que dados de treinamento de alta qualidade e diversos são importantes.” 

Fonte: aqui 

O texto é de 2024, mas o alerta ainda é válido. Talvez por isso seja tão importante uma enciclopédia, como a Wikipedia, escrita por humanos. Ou, sendo pouco humilde, um blog escrito por três abnegados, possa ser útil para treinar os modelos de LLM 

Escolha seu difícil

 

E aqui uma adaptação, com ajuda do GPT:


 

Ignorância estratégica


Eu chamaria de ignorância estratégica. O colunista chamou de efeito avestruz ou evitação de informação. 

Provavelmente, você consegue lembrar de uma ocasião em que escolheu deliberadamente não saber de algo. Alguns de nós evitam conferir o saldo bancário depois de um fim de semana de gastos. Outros ignoram suspeitas persistentes sobre a fidelidade do parceiro. Há quem passe rapidamente por manchetes pesadas sobre guerras ou mudanças climáticas.

Esse pensamento de “quanto menos eu souber, melhor” é surpreendentemente comum na vida adulta. O que é menos óbvio, porém, é de onde vem esse comportamento. Afinal, crianças são notoriamente (e até irritantemente) curiosas. Estão sempre fazendo perguntas e querendo saber mais.

Isso realmente é comum. Mas há outras razões que o texto não aborda como situações onde sabemos que não temos controle dos fatos, então preferimos não estar informado. Pense na situação onde você pode assistir o jogo do seu time de futebol, mas sabe que sua torcida não irá afetar o resultado, mas você irá sofrer durante os minutos do jogo. A ignorância estratégica é muito interessante aqui, pois evita os sentimentos ruins e a perda de tempo. 

Mas há outro aspecto que interessa de perto a contabilidade. Há um pressuposto de que mais informação é melhor. Mas em muitos casos a ignorância pode ser útil. Muitas vezes não queremos saber se uma empresa onde somos acionistas subornou alguém para conseguir negócios vantajosos. E outros exemplos surgem facilmente.  

Imagem aqui 

Probabilidades. São probabilidades.


Lendo isso na ótima Forbes: 

Tanto a Polymarket quanto a Kalshi previram, no início da semana, os mesmos 10 indicados a Melhor Filme, mas apenas nove se confirmaram. Apostadores de ambas as plataformas erraram ao projetar que It Was Just An Accident seria indicado, enquanto nenhum dos dois mercados previu o indicado real: F1.

No início da semana, três filmes tinham chances de 100% de indicação na Polymarket: One Battle After Another, Hamnet e Marty Supreme. Completavam as dez vagas possíveis na Polymarket Sinners (99%), Frankenstein (98%), Sentimental Value (97%), Bugonia (90%), O Agente Secreto (84%), Train Dreams (79%) e It Was Just An Accident (64%).

 O texto que fazer parecer que os sites de previsão erraram. O texto tem o título: Oscar 2026: o Que os Mercados de Previsão Erraram nas Indicações. Mas parece que a pessoa que escreveu não entende de probabilidade e chances. De dez filmes, os mercados de previsão acertaram "apenas" nove. Mas isso é algo excelente. E veja que o erro foi cometido em um filme cuja chance era de 64%, algo bem mais próximo do chute - 50% - do que da certeza, ou 100%. 

Google tomou notas da minha vida e decidiu entregar o caderno


O Google lançou esta semana um novo e poderoso recurso no Modo IA da Busca. Ele se chama Inteligência Pessoal e integra vários serviços existentes da empresa de uma forma radicalmente nova. Isso também foi lançado recentemente no Gemini, o chatbot de IA do Google. Pranav Dixit, do Business Insider, testou e ficou impressionado. Aqui está a avaliação dele: 

“A Inteligência Pessoal parece que o Google esteve silenciosamente tomando notas sobre toda a minha vida e finalmente decidiu me entregar o caderno.” 

Com a minha permissão, o Gemini pode acessar minha conta do Google — Gmail, Fotos, histórico de buscas, YouTube e mais — e raciocinar sobre tudo isso para responder perguntas como um assistente humano faria, só que este tem anos de registros sobre a minha vida. 

Isso é algo que eu queria desde que os chatbots com IA explodiram no fim de 2022. Naquela época, eu despejava minha alma no ChatGPT e recebia uma resposta inteligente. Em seguida, o bot imediatamente esquecia que eu existia, como um peixe-dourado genial. Nos últimos anos, a OpenAI e a Anthropic permitiram que seus chatbots se conectassem a serviços como Gmail, Google Drive e Google Agenda. Mas o Google tem a vantagem de jogar em casa: ele já possui a visão mais ampla do que você realmente fez, pesquisou, assistiu e salvou. 

A capacidade do Gemini de conectar os pontos é assustadoramente boa, muito além do que o ChatGPT ou o Claude conseguem fazer. Quando pedi ideias de passeios turísticos para meus pais, que já visitaram a Bay Area algumas vezes, ele sugeriu museus e jardins, inferindo corretamente que eles já tinham feito trilhas e viagens a florestas de sequoias. 

Quando perguntei ao Gemini como ele sabia disso, ele me disse que deduziu com base em “migalhas” deixadas pela minha conta do Google: e-mails da família, fotos do Muir Woods, uma reserva de estacionamento no Gmail e uma busca no Google por “trilhas fáceis para idosos”. Isso é tão poderoso que o Google já está tentando se antecipar ao susto. O vice-presidente Josh Woodward disse que o Google toma “medidas para filtrar ou ofuscar dados pessoais” das conversas que temos com o Gemini. 

“Nós não treinamos nossos sistemas para aprender o número da sua placa; nós os treinamos para entender que, quando você pede por isso, podemos localizá-lo”, escreveu ele recentemente. Então, pedi a ele o número da placa do meu carro e ele conseguiu encontrá-lo, com base em fotos do meu carro no Google Fotos. 

Também perguntei ao Gemini quando o seguro do meu carro venceria para renovação, e ele acertou, com base em e-mails da AAA na minha caixa de entrada do Gmail. Quando pedi que me ajudasse a planejar uma viagem próxima, ele levou em conta o fato de que estamos viajando com um bebê — porque ele já sabe que temos um recém-nascido. Claro que sabe. 

Fiquei pensando no meu caso: uso gmail, posto aqui no blogger,  já usei muito o google para pesquisar - incluindo o Maps e uso eventualmente o gemini. Meu celular trabalha com o Android. Mas não uso o navegador deles, mas acho que isso é insuficiente para o Google não me conheça muito bem.