É difícil chegar a um consenso sobre uma forma consistente de avaliar o desempenho dos grandes modelos de linguagem (LLMs). A organização de pesquisa sem fins lucrativos Model Evaluation & Threat Research (METR) propôs uma métrica intuitiva: acompanhar quanto tempo um ser humano levaria para realizar as tarefas que a IA consegue executar. De acordo com essa métrica, as capacidades dos LLMs estão dobrando a cada sete meses. Se essa tendência continuar, até 2030 os modelos mais avançados poderão lidar rapidamente com tarefas que hoje exigem um mês inteiro de trabalho humano.
No entanto, por enquanto, a IA nem sempre realiza um bom trabalho: para as tarefas mais longas e desafiadoras, a probabilidade de que o resultado esteja correto é de cerca de 50%. A questão que se coloca, então, é: quão útil é um funcionário rápido e barato que produz lixo em cerca de metade das vezes?
Fonte: aqui

Nenhum comentário:
Postar um comentário