Post
A OpenAI Aposentou o Próprio Boletim
A OpenAI diz que o SWE-bench Verified — o benchmark que todo modelo de código vinha exibindo no peito — não mede mais capacidade de fronteira. Olha como ficou o novo placar e por que o antigo deixou de ser honesto.
Então a OpenAI publicou o aviso mais constrangedor da história dos benchmarks: aquele teste que a gente vinha jogando na cara um do outro há dois anos não mede o que a gente acha que mede.
O benchmark é o SWE-bench Verified. O aviso, em português direto, é: a gente não avalia mais nele porque os números deixaram de fazer sentido. Vindo da empresa que ajudou a popularizar o benchmark, em primeiro lugar.
Se você vinha lendo "Modelo X tirou 87% no SWE-bench" e assumindo que aquilo significava algo concreto — esse é o aviso gentil de que talvez não signifique mais.
O que era o SWE-bench Verified, de fato
Recapitulando rápido. O SWE-bench é um benchmark onde o modelo recebe uma issue real do GitHub, num repo open-source real (Django, Sympy, scikit-learn, essa turma), e tem que produzir um patch que faz os testes que estavam falhando passarem. O SWE-bench Verified era o subconjunto limpo que a OpenAI lançou — as tarefas foram auditadas pra que falha de teste de fato refletisse código ruim, e não teste flaky ou spec impossível.
Por um tempo, foi a coisa mais próxima que a área tinha de um teste de "esse modelo faz engenharia de software de verdade?".
E aí todo mundo começou a ganhar.
| Modelo (2025–2026) | SWE-bench Verified |
|---|---|
| Claude Mythos Preview | 93,9% |
| GPT-5.3 Codex | 85% |
| Claude Opus 4.5 | 80,9% |
| Média entre 83 modelos rastreados | 63,4% |
Se a média do seu benchmark passa de 60%, o seu benchmark provavelmente não é mais um benchmark. É troféu de participação.
Por que a OpenAI saiu de campo
O texto da OpenAI se resume a duas reclamações, ambas ruins.
1. Os testes rejeitam soluções corretas. Quando a OpenAI re-auditou o conjunto Verified, pelo menos 59,4% dos problemas auditados tinham testes mal escritos — testes que marcam uma solução perfeitamente razoável como "errada" porque assumem uma implementação específica. Ou seja: muita falha de modelo não era falha; e muito acerto era o modelo adivinhando a frase exata que o teste queria ver.
2. Os dados de treino estão contaminados. Modelos de fronteira conseguem reproduzir os fixes humanos originais — às vezes literalmente, às vezes a descrição do problema palavra por palavra. Tradução: os modelos viram essas tarefas no treino. Não estão resolvendo, estão lembrando.
Tem um jeito limpo de medir o tamanho do efeito da contaminação. Pega o mesmo modelo e roda no SWE-bench Pro, um benchmark mais novo que inclui códigos privados de startups que os crawlers não podem legalmente coletar:
| Modelo | SWE-bench Verified | SWE-bench Pro |
|---|---|---|
| GPT-5.4 (xHigh) | faixa dos 90% | 59,10% |
| Muse Spark | 80 e poucos | 55,00% |
| Claude Opus 4.6 (thinking) | ~80% | 51,90% |
| Claude Opus 4.5 | 80,9% | 45,9% |
Diferença de 35 pontos no mesmo modelo, em tarefas do mesmo formato. A leitura honesta é que ~35 pontos da nota do Verified vinham do modelo reconhecendo problemas que ele já tinha estudado.
Por que isso importa fora da bolha de benchmark
É tentador arquivar isso como "papo interno da área". Não é. Três coisas seguem dali.
Toda manchete de "IA substitui engenheiro" fica mais baixa. Boa parte dessas manchetes saiu do SWE-bench Verified passando dos 80%. Se metade dessa subida era contaminação, a conta da manchete não fecha. Os modelos continuam impressionantes — mas "passa em 90% das tarefas reais de engenharia" é uma alegação muito diferente de "lembra de 90% de um benchmark público".
Empresa escolhendo ferramenta de IA pra código precisa de evidência nova. Vendor citando nota do SWE-bench Verified em 2026 está, no melhor caso, atrasado. No pior, contando que você esteja. Pede número do SWE-bench Pro, número de eval interna, ou um piloto real na sua própria base de código. Trata o número antigo como medição de esteira — bom pro marketing, péssimo pra prever como anda na rua.
O jogo todo de benchmark vai começar a virar privado. O truque do SWE-bench Pro é que 276 das 1.865 tarefas vêm de bases de código privadas que não podem ser coletadas legalmente. Essa é a única defesa confiável contra contaminação no momento: manter o conjunto de teste fora do conjunto de treino na marra. Espera mais benchmarks indo por esse caminho, com leaderboards rodados por terceiros que guardam o segredo.
A parte que eu acho de fato engraçada
A OpenAI é a empresa que introduziu o SWE-bench Verified. Eles construíram a versão limpa, colocaram em todo post de release, e treinaram contra ele implicitamente ao treinar na internet aberta que o contém.
Agora são eles que publicam o obituário. Não é contradição — é como a área deveria funcionar. Você lança uma métrica, a métrica é gameada (às vezes pelo seu próprio pipeline de dados), você aposenta e lança uma melhor. Isso é saudável.
Só significa que o resto da gente — gente que cita esses números em slide, em pitch, em tweet de "olha como o Claude tá bom agora" — também precisa atualizar. O padrão-ouro de ontem é o gráfico de nostalgia de hoje.
Minha leitura
Acho que a história da contaminação é a mais importante, e a que vai continuar valendo. O SWE-bench Pro também vai ser gameado, eventualmente. E o que vier depois também. O padrão é o benchmark, o padrão, não o nome específico do teste.
A lição que o Shakesbee tira é pequena mas útil: quando um modelo cita um número num benchmark público, mentalmente subtrai uma "taxa de contaminação" antes de agir em cima. O tamanho da taxa depende de quanto tempo o benchmark está público e quão alto os labs vêm correndo atrás dele.
Pro SWE-bench Verified, com base na diferença Verified-vs-Pro, essa taxa é de uns 30 pontos.
Pro resto, arquiva como "confia, mas verifica na sua própria base de código".
Sources
- Why we no longer evaluate SWE-bench Verified — OpenAI — o aviso oficial de aposentadoria, com os números de contaminação e teste mal escrito
- SWE-bench Pro public leaderboard — Scale — o benchmark de substituição, com notas atuais e composição do dataset (1.865 tarefas, 41 repos)
- Introducing SWE-bench Verified — OpenAI (2024) — o post original de lançamento, útil como contraste com a nota de hoje
- SWE-bench Verified leaderboard 2026 — Codeant — tracker terceiro mostrando o padrão de saturação em 83 modelos e a diferença Verified-vs-Pro
- Discussão no Hacker News — reações da comunidade, incluindo comentários afiados sobre gaming de benchmark