Benchmarks São Termômetros, Não Boletins Escolares

Tem uma armadilha pequena escondida em todo benchmark de LLM: o número parece nota final.

92.1. 1287 Elo. 67% resolvido. Muito oficial. Muito ordenável. Muito fácil de tirar print e transformar numa religião pequenininha.

Mas score de benchmark não é boletim escolar. Está mais para termômetro: útil, às vezes preciso, e ainda assim profundamente dependente de onde você coloca. Um termômetro no forno te diz uma coisa. Um termômetro debaixo do braço te diz outra. Nenhum dos dois diz se o jantar ficou bom.

Esse é o problema dos benchmarks em um acidente de cozinha.

O que um benchmark realmente é

Um benchmark é um mundinho controlado com placar na porta.

Você dá tarefas ao modelo, define uma regra de pontuação, congela o setup e compara resultados. Isso é valioso porque vibes saem caro. Sem benchmarks, toda discussão de modelo vira "esse parece mais inteligente" e "aquele escreveu um poema melhor para o currículo do meu primo".

Só que existe uma pegadinha: no momento em que você congela uma tarefa, você também encolhe a realidade.

Trabalho real é bagunçado. Prompts são estranhos. Usuários fazem perguntas de acompanhamento. Ferramentas falham. Contexto fica velho. O modelo precisa decidir quando perguntar, quando agir, quando parar e quando não comer a planilha com confiança.

Benchmarks não removem essa bagunça. Eles tiram uma amostra minúscula e pedem para a gente não confundir aquilo com a montanha inteira.

O mapa dos benchmarks

Aqui vai a versão guia de campo.

Tipo de benchmark	No que é bom	O que deixa de fora
Provas de conhecimento como MMLU	Perguntas amplas de áreas acadêmicas e profissionais	Fluxos reais, uso de ferramentas, atualidade, contexto longo
Provas mais difíceis como MMLU-Pro	Mais pressão de raciocínio e menos ruído fácil de múltipla escolha	Ainda é um mundo com cara de prova
Zoológicos de capacidades como BIG-bench	Bordas estranhas, habilidades raras, falhas surpreendentes	Utilidade de produto e preferência de usuário
Suites holísticas como HELM	Comparação multimétrica: acurácia, robustez, justiça, eficiência	Ainda é incompleta por design
Arenas de preferência humana como Chatbot Arena	Quais respostas pessoas preferem em conversas abertas	Gosto, viés da multidão, mistura de prompts, efeito de popularidade
Benchmarks de trabalho como SWE-bench	Se um agente consegue corrigir issues reais em repos reais	Qualidade do harness, cobertura de testes, seleção das tarefas
Evals privados	Seu caso de uso real, seus dados, seu fluxo	Mais difíceis de comparar publicamente

Nenhuma linha é "o benchmark verdadeiro". São instrumentos diferentes. Perguntar qual é melhor é como perguntar se um microscópio ganha de um velocímetro. Depende se você está olhando bactéria ou dirigindo contra um muro.

MMLU: a prova escolar clássica

O MMLU ficou famoso porque fez uma coisa simples e útil: testar conhecimento multitarefa amplo em 57 áreas, de direito e história a ciência da computação e matemática.

Isso fazia sentido para o momento. Os primeiros LLMs ainda estavam provando que conseguiam guardar muito conhecimento de mundo numa cabeça só. O MMLU deu ao campo uma régua compartilhada.

Mas prova escolar tem problemas de prova escolar. Ela recompensa reconhecer a resposta certa em um formato fixo. Pode saturar. Pode ter perguntas ruidosas. Pode vazar para dados de treino. E não te diz se o modelo consegue tocar uma reunião, debugar um repo, seguir um guia de estilo ou perceber que o usuário fez a pergunta errada.

O MMLU-Pro é a continuação natural: perguntas mais difíceis, mais opções de resposta, mais pressão de raciocínio, menos ruído trivial. A lição útil não é "MMLU é ruim". A lição é: quando os modelos começam a gabaritar a folha, faça uma folha melhor.

Arena: o concurso de popularidade que ainda é útil

O Chatbot Arena tem a vibe oposta.

Em vez de perguntar "o modelo escolheu a alternativa C?", ele pede para humanos compararem duas respostas anônimas e votarem. Isso é valioso porque muito uso de LLM é aberto. Não existe gabarito para "explique isso melhor" ou "qual rascunho eu preferiria enviar?"

Mas preferência humana não é verdade. É preferência.

Pessoas recompensam confiança, polimento, tamanho, simpatia, velocidade e às vezes só a resposta que irrita menos depois do almoço. Arena é um teste de gosto útil. Não é exame de laboratório.

A tradução de mesa de café: Arena te diz qual modelo ganha mais apostas de bar. Não te diz em qual modelo você deve confiar a folha de pagamento.

SWE-bench: agora estamos encostando na máquina

SWE-bench é mais interessante para agentes porque sai de "responda uma pergunta" e vai para "mude um codebase real". Ele usa issues reais do GitHub e pede que o modelo produza patches que passam nos testes.

Agora estamos mais perto do trabalho, que é onde os gráficos bonitos começam a suar.

Também significa que o benchmark está testando um sistema inteiro, não só um modelo. O prompt importa. As ferramentas de edição importam. A navegação pelo repo importa. A suíte de testes importa. A política de retries importa. Um modelo dentro de um harness ruim pode parecer mais burro do que é. Um modelo dentro de um harness ótimo pode parecer que aprendeu marcenaria durante a noite.

Então, quando você vê um número de SWE-bench, não leia como "QI do modelo". Leia como:

modelo + prompt + loop de agente + ferramentas + harness de teste + orçamento de tempo

Isso não é defeito. É o ponto. Agentes são sistemas.

HELM: o adulto na sala

A contribuição útil do HELM é filosófica: pare de fingir que acurácia é o único eixo só porque ela é a mais fácil de colocar no gráfico.

Para modelos de linguagem, também importam robustez, justiça, toxicidade, calibração, eficiência e transparência. Um modelo 2% melhor numa prova, mas 4x mais caro, mais sensível a variação de prompt e pouco claro sobre dados de treino, talvez não seja "melhor" do jeito que seu produto precisa.

O HELM também fala a parte quieta em voz alta: toda avaliação é incompleta. Essa humildade é saudável. Um benchmark que admite suas peças faltando costuma ser mais confiável do que um que veste capa e finge salvar a cidade.

Os três pecados dos benchmarks

A maioria das conversas de leaderboard dá errado de três jeitos bem chatos.

Pecado	Como soa	Pergunta melhor
Adoração de score	"O modelo A é melhor porque fez +1.8 em X."	Essa diferença importa para minha tarefa?
Escolher benchmark por conveniência	"Olha, meu modelo favorito ganha neste gráfico."	Qual benchmark parece com a falha que me preocupa?
Cegueira de setup	"O modelo fez 67%."	Com qual prompt, ferramentas, orçamento, juiz e split de dados?

O terceiro é o mais traiçoeiro. Um benchmark não é só o dataset. É a receita inteira. Se alguém muda prompt, número de tentativas, acesso a ferramentas, modelo juiz, temperatura, janela de contexto ou orçamento de tempo, pode continuar chamando aquilo pelo mesmo nome enquanto mede algo bem diferente.

É assim que nasce sopa de leaderboard.

Como ler um benchmark sem cair no gráfico

Quando uma empresa de modelos te mostrar um gráfico, faça a coisa chata e útil: seis perguntas.

Qual é a unidade de trabalho? Pergunta de múltipla escolha, resposta de chat, patch de código, tarefa no navegador, fluxo de agente?
Quem julga? Resposta exata, testes unitários, humanos, outro modelo, rubrica?
Qual foi o harness? Prompt único, chain-of-thought, ferramentas, retries, loop de agente?
É fresco? O modelo poderia ter visto as tarefas durante o treino?
O score saturou? Se todo mundo está acima de 90, o benchmark virou desempate, não mapa.
Parece com seu caso de uso? Se você precisa de redação jurídica, benchmark de código é trivia. Se precisa consertar repo, MMLU é trivia.

Essa última é a frase que paga o aluguel: o melhor benchmark é o que tem o formato da sua falha.

Se seu modelo esquece regras de formatação, crie um eval para regras de formatação. Se ele faz joins SQL ruins, crie um eval para joins SQL. Se ele dá respostas lindas e erradas para tickets de suporte, avalie exatamente esse fluxo de suporte.

Benchmarks públicos são previsão do tempo. Evals privados são olhar pela janela antes de sair de casa porque a sua rua alaga primeiro.

Minha opinião

Benchmarks são bons. Idolatria de leaderboard é ruim.

Um bom benchmark dá ao campo uma discussão compartilhada. Uma leitura ruim transforma essa discussão em corrida de cavalo. O gráfico não é a verdade. O gráfico é painel de instrumento. Você ainda precisa saber qual veículo está dirigindo, em qual estrada está e se o marcador de combustível está mentindo.

Então use MMLU para perguntar sobre conhecimento amplo. Use MMLU-Pro quando a prova antiga ficou fácil demais. Use Arena para amostrar gosto humano. Use SWE-bench para inspecionar sistemas de agentes de código. Use HELM para lembrar que acurácia não é o bicho inteiro. Use OpenAI Evals, seus próprios scripts ou uma planilha sem glamour com exemplos reais para testar aquilo que realmente dói no seu produto.

A regra do Shakesbee: nunca pergunte "qual modelo é o melhor?"

Pergunte: melhor em quê, sob qual setup, com qual custo de falha?

Essa pergunta é menos divertida em slide de marketing. É muito melhor para não comprar um termômetro e chamar de jantar.

Sources

Measuring Massive Multitask Language Understanding — paper original do MMLU, cobrindo 57 tarefas em áreas acadêmicas e profissionais
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark — explica o MMLU-Pro, com dez opções de resposta e mais pressão de raciocínio
BIG-bench — coleção colaborativa do Google para testar capacidades amplas e incomuns de modelos de linguagem
Holistic Evaluation of Language Models — framing do Stanford CRFM para avaliação multimétrica, transparente e incompleta por design
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference — paper sobre avaliação por comparação pareada e preferência humana
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — explicação de Princeton sobre avaliar modelos em issues reais do GitHub
OpenAI Evals — framework open source para criar e rodar evals de LLM, incluindo avaliações privadas específicas do seu fluxo