MÓDULO 2.4

🎓 Raciocínio e conhecimento

Os números que provam o salto do 4.8: HLE, USAMO, GraphWalks, Artificial Analysis Index e os benchmarks de agentes. Entenda o que cada métrica mede e o que isso significa na prática.

6
Tópicos
35
Minutos
Básico
Nível
Dados
Tipo
1

🧠 HLE — Humanity's Last Exam

O HLE é um benchmark composto por 3.000 questões de nível pós-doutorado em 100+ disciplinas — criado para resistir a saturação de modelos. O 4.8 com ferramentas atinge 57,9%, número que colocaria um humano especialista numa pequena fatia das questões.

📊 Resultado no HLE (com ferramentas)

Modelo Score Nota
Claude Opus 4.8 57,9% Com ferramentas habilitadas
Claude Opus 4.7 ~43% Geração anterior
Humano especialista ~70% Referência humana

⚠️ Ressalva obrigatória

Todos os benchmarks neste módulo são auto-reportados pela Anthropic, não auditados por terceiros em escala. Use como sinal direcional, não como garantia absoluta de desempenho em seu caso de uso.

2

📐 USAMO — Olimpíada de Matemática

O USAMO (United States of America Mathematical Olympiad) exige provas formais, não apenas resultados numéricos. 96,7% no 4.8 representa o teto prático de raciocínio matemático competitivo até hoje.

🏆 Por que 96,7% é notável

  • Provas abertas: respostas dissertativas — não de múltipla escolha — que exigem lógica formal encadeada.
  • Nível de finalistas: o USAMO seleciona os ~500 melhores estudantes de matemática dos EUA por ano.
  • Implicação prática: raciocínio simbólico rigoroso — útil para verificação formal, auditoria de código e lógica de negócios complexa.

💡 Dica prática

Se você precisa de raciocínio matemático ou lógico rigoroso em seu produto, o USAMO é o benchmark mais relevante para prever a qualidade — muito mais do que benchmarks de trivia.

3

🕸️ GraphWalks — memória em 1M tokens

O GraphWalks testa recuperação de informação em grafos de conhecimento distribuídos ao longo de janelas de contexto muito longas. O 4.8 atinge 68,1% F1 na versão de 1M de tokens.

A

O que o benchmark mede

Capacidade de conectar entidades dispersas por centenas de milhares de tokens — o equivalente a lembrar quem é quem num documento de 700 páginas.

B

68,1% F1 — contexto

F1 combina precisão e recall. O modelo precisa achar a relação certa e não inventar relações falsas. 68% em 1M tokens é o estado da arte atual.

C

Casos de uso reais

Análise de repositórios inteiros, auditorias de contratos longos, due diligence de documentação extensa — todos se beneficiam diretamente desse número.

4

📈 Artificial Analysis Index

O Artificial Analysis Intelligence Index é um índice composto que agrega múltiplos benchmarks em uma pontuação única para comparação cross-modelo. O 4.8 marca 61,4.

🔢 Índice comparativo

Modelo AA Index Posição
Claude Opus 4.8 61,4 Topo do ranking (auto-reportado)
Claude Opus 4.7 ~57 Geração anterior

💡 Como usar o índice

O AA Index é útil para comparação rápida entre modelos de fornecedores diferentes. Combine-o com benchmarks específicos da sua área para decisões de seleção de modelo.

5

🔍 O que cada métrica mede

Não existe benchmark universal. Cada métrica captura uma fatia diferente de inteligência. Saber o que cada um avalia é tão importante quanto os números.

🧠 HLE (57,9%)

Raciocínio geral de especialistas. Cobre ciências, humanidades, direito, medicina. Indicado para avaliar profundidade de conhecimento e raciocínio multidisciplinar.

📐 USAMO (96,7%)

Raciocínio matemático formal. Provas abertas, não múltipla escolha. Prediz qualidade em lógica simbólica, verificação e código algorítmico complexo.

🕸️ GraphWalks F1 (68,1%)

Recuperação em contexto muito longo. Fundamental para repositórios, documentações extensas e análises de longo horizonte com múltiplas entidades.

📈 AA Index (61,4)

Índice composto cross-modelo. Bom para comparação geral entre fornecedores mas não substitui benchmarks específicos do seu domínio.

✓ Outros destaques (agentes)

  • SWE-bench Pro: 69,2% (4.7: 64,3%; GPT-5.5: 58,6%)
  • SWE-bench Verified: 88,6% (4.7: 87,6%)
  • OSWorld: 83,4% (GPT-5.5: 78,7%)
  • Online-Mind2Web: 84%

✗ Benchmarks não medem

  • Qualidade de instrução seguida no seu domínio específico
  • Custo-benefício para seu volume de uso
  • Comportamento em edge cases do seu produto
6

📋 Quadro geral de capacidade

Consolidando todos os benchmarks, emerge um padrão claro: o 4.8 avança em raciocínio puro, agência e contexto longo simultaneamente.

📊 Resumo de benchmarks

Benchmark 4.8 4.7 Categoria
HLE (c/ ferramentas) 57,9% ~43% Raciocínio geral
USAMO 96,7% Matemática
GraphWalks 1M F1 68,1% Contexto longo
AA Index 61,4 ~57 Índice composto
SWE-bench Pro 69,2% 64,3% Agente / código
SWE-bench Verified 88,6% 87,6% Agente / código
OSWorld 83,4% Agente / desktop
Online-Mind2Web 84% Agente / web

💡 Regra de leitura

Benchmarks são evidência, não prova. Use-os para formar uma hipótese sobre qual modelo vai funcionar melhor — depois valide com dados do seu caso de uso real.

📌 Resumo do Módulo

HLE 57,9% — com ferramentas, raciocínio de nível especialista.
USAMO 96,7% — topo em matemática formal competitiva.
GraphWalks 68,1% — memória coerente em 1M de tokens.
AA Index 61,4 — referência composta cross-modelo.
Auto-reportados — todos são números da Anthropic, não auditados em escala.

Próximo Módulo:

2.5 — Preços e custo