Módulo 2.4 · Raciocínio e conhecimento

🧠 HLE — Humanity's Last Exam

O HLE é um benchmark composto por 3.000 questões de nível pós-doutorado em 100+ disciplinas — criado para resistir a saturação de modelos. O 4.8 com ferramentas atinge 57,9%, número que colocaria um humano especialista numa pequena fatia das questões.

📊 Resultado no HLE (com ferramentas)

Modelo	Score	Nota
Claude Opus 4.8	57,9%	Com ferramentas habilitadas
Claude Opus 4.7	~43%	Geração anterior
Humano especialista	~70%	Referência humana

⚠️ Ressalva obrigatória

Todos os benchmarks neste módulo são auto-reportados pela Anthropic, não auditados por terceiros em escala. Use como sinal direcional, não como garantia absoluta de desempenho em seu caso de uso.

📐 USAMO — Olimpíada de Matemática

O USAMO (United States of America Mathematical Olympiad) exige provas formais, não apenas resultados numéricos. 96,7% no 4.8 representa o teto prático de raciocínio matemático competitivo até hoje.

🏆 Por que 96,7% é notável

•Provas abertas: respostas dissertativas — não de múltipla escolha — que exigem lógica formal encadeada.
•Nível de finalistas: o USAMO seleciona os ~500 melhores estudantes de matemática dos EUA por ano.
•Implicação prática: raciocínio simbólico rigoroso — útil para verificação formal, auditoria de código e lógica de negócios complexa.

💡 Dica prática

Se você precisa de raciocínio matemático ou lógico rigoroso em seu produto, o USAMO é o benchmark mais relevante para prever a qualidade — muito mais do que benchmarks de trivia.

🕸️ GraphWalks — memória em 1M tokens

O GraphWalks testa recuperação de informação em grafos de conhecimento distribuídos ao longo de janelas de contexto muito longas. O 4.8 atinge 68,1% F1 na versão de 1M de tokens.

O que o benchmark mede

Capacidade de conectar entidades dispersas por centenas de milhares de tokens — o equivalente a lembrar quem é quem num documento de 700 páginas.

68,1% F1 — contexto

F1 combina precisão e recall. O modelo precisa achar a relação certa e não inventar relações falsas. 68% em 1M tokens é o estado da arte atual.

Casos de uso reais

Análise de repositórios inteiros, auditorias de contratos longos, due diligence de documentação extensa — todos se beneficiam diretamente desse número.

📈 Artificial Analysis Index

O Artificial Analysis Intelligence Index é um índice composto que agrega múltiplos benchmarks em uma pontuação única para comparação cross-modelo. O 4.8 marca 61,4.

🔢 Índice comparativo

Modelo	AA Index	Posição
Claude Opus 4.8	61,4	Topo do ranking (auto-reportado)
Claude Opus 4.7	~57	Geração anterior

💡 Como usar o índice

O AA Index é útil para comparação rápida entre modelos de fornecedores diferentes. Combine-o com benchmarks específicos da sua área para decisões de seleção de modelo.

🔍 O que cada métrica mede

Não existe benchmark universal. Cada métrica captura uma fatia diferente de inteligência. Saber o que cada um avalia é tão importante quanto os números.

🧠 HLE (57,9%)

Raciocínio geral de especialistas. Cobre ciências, humanidades, direito, medicina. Indicado para avaliar profundidade de conhecimento e raciocínio multidisciplinar.

📐 USAMO (96,7%)

Raciocínio matemático formal. Provas abertas, não múltipla escolha. Prediz qualidade em lógica simbólica, verificação e código algorítmico complexo.

🕸️ GraphWalks F1 (68,1%)

Recuperação em contexto muito longo. Fundamental para repositórios, documentações extensas e análises de longo horizonte com múltiplas entidades.

📈 AA Index (61,4)

Índice composto cross-modelo. Bom para comparação geral entre fornecedores mas não substitui benchmarks específicos do seu domínio.

✓ Outros destaques (agentes)

✓SWE-bench Pro: 69,2% (4.7: 64,3%; GPT-5.5: 58,6%)
✓SWE-bench Verified: 88,6% (4.7: 87,6%)
✓OSWorld: 83,4% (GPT-5.5: 78,7%)
✓Online-Mind2Web: 84%

✗ Benchmarks não medem

✗Qualidade de instrução seguida no seu domínio específico
✗Custo-benefício para seu volume de uso
✗Comportamento em edge cases do seu produto

📋 Quadro geral de capacidade

Consolidando todos os benchmarks, emerge um padrão claro: o 4.8 avança em raciocínio puro, agência e contexto longo simultaneamente.

📊 Resumo de benchmarks

Benchmark	4.8	4.7	Categoria
HLE (c/ ferramentas)	57,9%	~43%	Raciocínio geral
USAMO	96,7%	—	Matemática
GraphWalks 1M F1	68,1%	—	Contexto longo
AA Index	61,4	~57	Índice composto
SWE-bench Pro	69,2%	64,3%	Agente / código
SWE-bench Verified	88,6%	87,6%	Agente / código
OSWorld	83,4%	—	Agente / desktop
Online-Mind2Web	84%	—	Agente / web

💡 Regra de leitura

Benchmarks são evidência, não prova. Use-os para formar uma hipótese sobre qual modelo vai funcionar melhor — depois valide com dados do seu caso de uso real.

📌 Resumo do Módulo

✓

HLE 57,9% — com ferramentas, raciocínio de nível especialista.

✓

USAMO 96,7% — topo em matemática formal competitiva.

✓

GraphWalks 68,1% — memória coerente em 1M de tokens.

✓

AA Index 61,4 — referência composta cross-modelo.

⚠

Auto-reportados — todos são números da Anthropic, não auditados em escala.

Próximo Módulo:

2.5 — Preços e custo

← Voltar para Trilha Próximo Módulo →