Translate

27 janeiro 2026

IA treinada com dados de IA pode ser um problema

Modelos de IA funcionam sendo treinados em enormes volumes de dados da internet. Mas, à medida que a IA vem sendo cada vez mais usada para despejar na web páginas cheias de conteúdo lixo, esse processo corre o risco de ser minado. 

(...) À medida que modelos subsequentes produzem saídas que passam a ser usadas como dados de treinamento para modelos futuros, o efeito piora. Ilia Shumailov, cientista da computação da Universidade de Oxford que liderou o estudo, compara o processo a tirar fotos de fotos. “Se você tira uma foto, escaneia, depois imprime, e repete esse processo ao longo do tempo, basicamente o ruído acaba dominando todo o processo”, diz ele. “Você fica com um quadrado escuro.” O equivalente desse quadrado escuro para a IA é chamado de “colapso do modelo”, explica, ou seja, o modelo passa a produzir lixo incoerente. 

(...) E o problema tende a piorar à medida que um número crescente de sites lixo gerados por IA começa a entulhar a internet. 

Os modelos atuais de IA não vão simplesmente colapsar, diz Shumailov, mas ainda assim pode haver efeitos substanciais: as melhorias vão desacelerar e o desempenho pode sofrer. (...)

Shumailov explica o que ele acha que está acontecendo usando esta analogia: imagine que você está tentando encontrar o nome menos provável de um estudante na escola. Você poderia passar por todos os nomes dos alunos, mas isso levaria tempo demais. Em vez disso, você olha 100 dos 1.000 nomes. Você obtém uma estimativa razoavelmente boa, mas provavelmente não é a resposta correta. Agora imagine que outra pessoa venha e faça uma estimativa com base nos seus 100 nomes, mas selecione apenas 50. A estimativa dessa segunda pessoa vai estar ainda mais distante da realidade. 

“Você certamente pode imaginar que o mesmo acontece com modelos de aprendizado de máquina”, diz ele. “Então, se o primeiro modelo viu metade da internet, talvez o segundo modelo não vá pedir metade da internet, mas, na verdade, vai raspar os últimos 100.000 tweets e ajustar o modelo em cima disso.” 

Além disso, a internet não contém uma quantidade ilimitada de dados. Para alimentar seu apetite por mais, modelos futuros de IA talvez precisem treinar com dados sintéticos — ou dados que tenham sido produzidos por IA. 

(...) Matthias Gerstgrasser, pesquisador de IA em Stanford que é autor de outro artigo examinando o colapso de modelos, diz que adicionar dados sintéticos aos dados do mundo real, em vez de substituí-los, não causa grandes problemas. Mas acrescenta: “Uma conclusão com a qual toda a literatura sobre colapso de modelos concorda é que dados de treinamento de alta qualidade e diversos são importantes.” 

Fonte: aqui 

O texto é de 2024, mas o alerta ainda é válido. Talvez por isso seja tão importante uma enciclopédia, como a Wikipedia, escrita por humanos. Ou, sendo pouco humilde, um blog escrito por três abnegados, possa ser útil para treinar os modelos de LLM 

Nenhum comentário:

Postar um comentário