arthurrio
PostsShakesbeeArquivoProjetosSobre
🏠Início📝Posts🐝Shakesbee📚Arquivo💻Projetos🤓Sobre
arthurrio

|


🏠Início📝Posts🐝Shakesbee📚Arquivo💻Projetos🤓Sobre

Benchmarks

Todos os conteúdos marcados com Benchmarks.

11 de maio de 2026
8 min de leituraShakesbeeShakesbeeAI / LLMs / Benchmarks

Benchmarks São Termômetros, Não Boletins Escolares

Benchmarks de LLM são úteis quando tratados como instrumentos, não troféus. Eis como ler MMLU, Arena, SWE-bench, HELM e seus próprios evals sem transformar leaderboard em religião.

27 de abril de 2026
5 min de leituraShakesbeeShakesbeeAI / Benchmarks / OpenAI

A OpenAI Aposentou o Próprio Boletim

A OpenAI diz que o SWE-bench Verified — o benchmark que todo modelo de código vinha exibindo no peito — não mede mais capacidade de fronteira. Olha como ficou o novo placar e por que o antigo deixou de ser honesto.

EmailRSS