Mapa da trilha
📈 Opus 4.8 vs 4.7 vs 4.6
O ciclo mais rápido
💻 Benchmarks de código
SWE-bench na mesa
🖥️ Uso de computador e agentes
OSWorld & Mind2Web
🎓 Raciocínio e conhecimento
HLE, USAMO, índice
💰 Preços e custo
Igual ao 4.7
✏️ Exercícios da Trilha 2
Teste os números
📋 Prompts prontos da Trilha 2
Compare e calcule
Conteúdo detalhado
📈 Opus 4.8 vs 4.7 vs 4.6
A família 4.x em perspectiva: cadência, herança e o que realmente mudou de versão para versão.
A família 4.x tem quatro membros: Opus 4.5 (24/11/2025), Opus 4.6 (05/02/2026), Opus 4.7 (16/04/2026) e Opus 4.8 (28/05/2026).
Entender a cronologia ajuda a posicionar o 4.8 no contexto de evolução contínua e decidir qual versão usar em projetos existentes.
4.5 → 4.6 (73 dias) → 4.7 (70 dias) → 4.8 (42 dias); ciclos encurtando ao longo de 2026.
O intervalo entre 4.7 (16/04/2026) e 4.8 (28/05/2026) é de aproximadamente 42 dias — o mais curto de toda a família 4.x.
Ciclos curtos indicam que a Anthropic priorizou responder rapidamente ao mercado — e que o 4.8 é incremental, não transformador.
~42 dias; ciclo mais rápido da família; indica resposta de mercado, não grande salto técnico.
No lançamento do 4.7, aproximadamente 85% dos posts em r/Anthropic classificaram a versão como regressão. A comunidade sentiu piora em criatividade e escrita.
Contextualiza por que o 4.8 veio tão rápido: a Anthropic precisava recuperar confiança da comunidade e corrigir a percepção negativa do 4.7.
~85% de posts negativos em r/Anthropic; percepção de regressão no 4.7; 4.8 como resposta.
O 4.8 é construído sobre o 4.7: mantém raciocínio híbrido, janela de 1M tokens, 128k saída, fast mode e a mesma estrutura de preços.
Saber o que foi mantido facilita a migração: código que funcionava no 4.7 funciona no 4.8 sem alterações.
Construído sobre 4.7; compatibilidade de API; herança de contexto e fast mode.
A própria Anthropic descreve o 4.8 como "melhoria modesta porém tangível" sobre o 4.7 — uma comunicação incomumente honesta sobre escopo.
Calibra expectativas: o 4.8 não é um salto de geração, mas uma correção de curso com ganhos reais em benchmarks e comportamento.
"Modest yet tangible improvement"; declaração da Anthropic; alinhamento de expectativas.
Para migrar do 4.7 ao 4.8, troque o model ID, execute seus testes de regressão e compare saídas nas tarefas críticas. A API é compatível.
Evita migrar por hype e garante que você só sobe de versão quando há ganho real para seu caso de uso.
Troca de model ID; regressão de testes; comparação A/B; custo idêntico facilita a decisão.
💻 Benchmarks de código
O 4.8 nos rankings de coding: SWE-bench Pro e Verified, com os números de todos os concorrentes.
SWE-bench Pro é um benchmark de resolução de issues reais em repositórios públicos do GitHub — mais exigente que o Verified clássico.
É a referência do setor para comparar modelos em coding agêntico com tarefas concretas.
Issues reais; repositórios públicos; solução de ponta a ponta validada por testes.
No SWE-bench Pro: Opus 4.8 = 69,2%; Opus 4.7 = 64,3%; GPT-5.5 = 58,6%; Gemini 3.1 Pro = 54,2%.
Mostra o salto de ~5 pontos percentuais do 4.7 ao 4.8 — o maior ganho individual do benchmark de coding.
69,2% (4.8) > 64,3% (4.7) > 58,6% (GPT-5.5) > 54,2% (Gemini 3.1 Pro); todos auto-reportados.
No SWE-bench Verified (subset curado por humanos): Opus 4.8 = 88,6%; Opus 4.7 = 87,6% — ganho de 1 ponto.
Verified usa issues validadas por humanos, sendo considerado mais confiável que Pro como medida de qualidade.
88,6% (4.8) vs 87,6% (4.7); subset curado; considera o modelo nas tarefas onde humanos concordam com a dificuldade.
Benchmarks de coding medem resolução de issues em repos públicos com scaffold de agente — não reproduzem exatamente seu ambiente de produção.
Evita confiar cegamente nos números; o benchmark mais relevante é sempre o seu próprio caso de uso.
Scaffold específico; repos públicos; não generaliza automaticamente para código proprietário.
No SWE-bench Pro, o 4.8 (69,2%) supera GPT-5.5 (58,6%) em 10,6 pp e Gemini 3.1 Pro (54,2%) em 15 pp — segundo dados auto-reportados pela Anthropic.
Quantifica a vantagem competitiva em coding agêntico — mas lembre que os concorrentes reportam seus próprios números com outros setups.
+10,6 pp vs GPT-5.5; +15 pp vs Gemini 3.1 Pro; comparação entre benchmarks diferentes requer cautela.
Todos os benchmarks de coding citados são auto-reportados pela Anthropic e não foram auditados de forma independente.
Posicionamento de fornecedor não é imparcial — as condições de teste (scaffold, temperatura, etc.) influenciam o resultado.
Auto-reportado; sem auditoria independente; faça seu próprio benchmark no seu use case.
🖥️ Uso de computador e agentes
OSWorld e Online-Mind2Web: o 4.8 operando interfaces visuais de forma autônoma.
Computer use é a capacidade de um modelo controlar uma interface gráfica (mouse, teclado, screenshots) para executar tarefas em ambientes visuais.
Abre casos de uso de automação em software sem API — navegadores, apps desktop, formulários.
Screenshots como input; ações como output; ciclo perceber-agir-perceber.
OSWorld avalia agentes realizando tarefas reais em desktop (Ubuntu). Opus 4.8 marca 83,4%; GPT-5.5 = 78,7%; Gemini = 76,2%.
É um dos poucos benchmarks que testa controle real de sistema operacional — base para avaliar automação de desktop.
83,4% (4.8) vs 78,7% (GPT-5.5) vs 76,2% (Gemini); +4,7 pp e +7,2 pp respectivamente.
Online-Mind2Web avalia navegação em sites reais com objetivos de alto nível. Opus 4.8 marca 84%.
Complementa o OSWorld com foco específico em web — relevante para automação de processos baseados em browser.
84% no Mind2Web; sites reais; objetivos em linguagem natural.
Em OSWorld, o 4.8 lidera os concorrentes diretos. GPT-5.5 fica em 78,7% e Gemini 3.1 em 76,2% — ambos atrás por margem significativa.
Computer use é diferencial estratégico; entender onde o 4.8 lidera ajuda a justificar o uso em projetos de automação visual.
Liderança no OSWorld; comparação sempre auto-reportada pela Anthropic.
Alta performance em OSWorld e Mind2Web indica que o 4.8 pode operar software sem API de forma mais confiável — reduz falhas em automação de UI.
Abre portas para automação em sistemas legados, ERPs e interfaces que não expõem API.
Automação de UI sem API; sistemas legados; combinação com tool use.
OSWorld usa ambientes controlados (Ubuntu virtualizado); performance em produção varia conforme o layout da UI, idioma e resolução.
Não extrapole 83% para qualquer tarefa de UI — teste no seu ambiente antes de escalar.
Ambiente controlado; variáveis de UI real; teste próprio é essencial.
🎓 Raciocínio e conhecimento
HLE, USAMO, GraphWalks e o Artificial Analysis Index: o quadro completo de raciocínio do 4.8.
Humanity's Last Exam (HLE) é um conjunto de perguntas criadas por especialistas humanos para serem difíceis até para experts. Com ferramentas, o 4.8 marca 57,9%.
HLE mede o teto de raciocínio do modelo em domínios altamente especializados — útil para aplicações acadêmicas e de pesquisa.
57,9% com ferramentas; perguntas de nível pós-doutorado; benchmark mais difícil disponível.
USAMO (United States Mathematical Olympiad) é uma das mais difíceis competições de matemática do mundo. O 4.8 marca 96,7% — performance de elite.
Evidencia raciocínio matemático formal de altíssimo nível — relevante para ciência, engenharia e aplicações quantitativas.
96,7%; provas de demonstração; raciocínio matemático formal.
GraphWalks 1M mede recuperação de informações em contextos de 1 milhão de tokens. O 4.8 marca F1 de 68,1%.
Confirma que o 4.8 não só suporta 1M de tokens, mas consegue raciocinar sobre informações distribuídas nesse contexto enorme.
F1 68,1%; janela de 1M tokens; raciocínio em grafo de contexto longo.
O Artificial Analysis Index agrega múltiplos benchmarks em uma nota única. O 4.8 marca 61,4 — terceiro avaliador independente mais próximo da neutralidade.
Oferece uma visão consolidada que não depende de um único benchmark — útil para comparações rápidas entre modelos.
61,4 no índice agregado; metodologia de terceiro; combina múltiplos domínios.
HLE = raciocínio expert; USAMO = matemática formal; GraphWalks = contexto longo; AA Index = performance agregada. Cada um mede uma dimensão diferente.
Saber o que cada benchmark mede ajuda a selecionar o modelo certo para o seu domínio específico.
Dimensões diferentes; nenhum benchmark mede tudo; escolha a métrica do seu domínio.
Consolidando: em coding (SWE-bench), UI (OSWorld), raciocínio (HLE, USAMO) e contexto (GraphWalks), o 4.8 supera os concorrentes mais próximos em todos os domínios segundo dados da Anthropic.
Oferece a visão integrada necessária para decisões de adoção — mas sempre com a ressalva de que são dados auto-reportados.
Liderança em múltiplos domínios; auto-reportado; auditoria independente ainda pendente.
💰 Preços e custo
Tabela completa de preços do 4.8: regular, cache, batch e fast mode — idênticos ao 4.7 e 4.6.
O preço regular do Opus 4.8 é US$5,00 por milhão de tokens de entrada e US$25,00 por milhão de tokens de saída.
É a base de cálculo para qualquer orçamento de uso do modelo — e é idêntico ao 4.7 e ao 4.6.
US$5/M entrada; US$25/M saída; mesma tabela do 4.7 e 4.6.
Cache write 5 min = US$6,25/M; cache write 1h = US$10/M; cache hit = US$0,50/M. Economia de até 90% para contextos reutilizados.
Para aplicações com system prompt longo e reutilizado (agentes, assistentes), o caching é o maior alavancador de economia.
Cache write 5min US$6,25/M; write 1h US$10/M; hit US$0,50/M; até 90% de economia.
A API de batch (processamento assíncrono de múltiplas requisições) oferece 50% de desconto sobre os preços regulares.
Para workloads de alto volume sem necessidade de resposta em tempo real (enriquecimento de dados, avaliações em massa), o batch é a forma mais econômica.
50% de desconto; assíncrono; ideal para alto volume sem latência crítica.
Fast mode custa US$10/M de entrada e US$50/M de saída, mas é ~2,5x mais rápido. É ~3x mais barato que o fast mode do Opus 4.7 (que custava ~US$30/M de entrada).
Para aplicações interativas onde latência é crítica, o fast mode é a opção — e ficou significativamente mais barato no 4.8 vs 4.7.
US$10/M entrada; US$50/M saída; ~2,5x mais rápido; ~3x mais barato que fast mode 4.7.
Os preços regulares do 4.8 (US$5/US$25) são idênticos aos do 4.7 e 4.6 — migrar de versão não impacta o orçamento já aprovado.
Facilita a adoção: não é necessário renegociar budgets ou atualizar planilhas de custo ao migrar do 4.7 para o 4.8.
Paridade de preço entre 4.6, 4.7 e 4.8; migração neutra em custo.
Estime tokens de entrada × US$0,005/k + tokens de saída × US$0,025/k. Com caching: reduza entrada reutilizada em 90%. Com batch: reduza tudo em 50%.
Uma planilha simples de orçamento evita surpresas na fatura e ajuda a escolher o modo certo (regular/fast/batch).
Fórmula: (tokens_in × 5 + tokens_out × 25) / 1.000.000; ajuste por cache e batch.
✏️ Exercícios da Trilha 2
Quizzes e desafios práticos para fixar versões, benchmarks e cálculos de custo.
Questões de múltipla escolha sobre datas de lançamento (4.5/4.6/4.7/4.8), intervalos entre versões e o ciclo mais rápido.
Reforça a linha do tempo da família 4.x e o contexto por trás do ciclo acelerado do 4.8.
Gabarito comentado; foco em fatos verificados.
Questões sobre os valores de SWE-bench Pro, Verified, OSWorld, Mind2Web, HLE, USAMO e GraphWalks.
Fixar os números permite comparações rápidas em conversas e decisões de seleção de modelo.
Gabarito com contexto; inclui ressalva de auto-reporte.
Dado um trecho de release note com benchmarks, identifique o que é declaração de fornecedor, o que é comparação justa e o que falta para validar.
Desenvolve pensamento crítico para consumir materiais de marketing técnico.
Análise de viés; critérios de comparação justa; perguntas para auditar um benchmark.
Dado um workload de 1M de tokens de entrada e 100k de saída por dia, calcule o custo mensal em regular, fast mode e batch. Compare os três.
Torna concreto o impacto financeiro das diferentes modalidades de uso.
Resolução passo a passo; tabela comparativa no gabarito.
Execute o mesmo prompt em claude-opus-4-7 e claude-opus-4-8. Compare qualidade de saída, latência e tokens usados em 3 tarefas diferentes.
Transforma a "melhoria modesta" em evidência empírica pessoal — o benchmark mais relevante é sempre o seu.
Comparação A/B; mesmo prompt; critério de avaliação definido antes de rodar.
Checklist do que você deve conseguir responder ao final da Trilha 2: cronologia, benchmarks-chave, tabela de preços e como decidir migrar.
Identifica lacunas antes de avançar para a Trilha 3 (aplicações práticas).
Autodiagnóstico; objetivos de aprendizado da trilha; ponte para a Trilha 3.
📋 Prompts prontos da Trilha 2
Prompts copiáveis para comparar versões, analisar benchmarks e calcular custos.
Prompt de sistema para rodar o mesmo request em claude-opus-4-7 e claude-opus-4-8 e solicitar comparação estruturada das saídas.
É o ponto de partida para qualquer decisão de migração baseada em evidência.
Prompt copiável; critérios de avaliação embutidos; saída em tabela comparativa.
Prompt para colar uma tabela de benchmarks e pedir ao 4.8 que explique o que cada número significa para um caso de uso específico.
Transforma dados brutos em recomendações acionáveis para seu contexto.
Prompt copiável; personalização por caso de uso; output em bullets priorizados.
Prompt para descrever um workload (volume de chamadas, tokens médios) e receber estimativa de custo mensal em regular, cache e batch.
Automatiza o cálculo de orçamento — use como ponto de partida antes de qualquer planilha manual.
Prompt copiável; saída em tabela; inclui cálculo de ROI do cache.
Prompt que descreve sua aplicação (tolerância a latência, volume, criticidade) e recebe recomendação entre regular, fast mode e batch com justificativa.
Sistematiza uma decisão que costuma ser feita por intuição, tornando-a auditável.
Prompt copiável; parâmetros de decisão explícitos; output com recomendação + trade-offs.
Prompt para gerar tabela comparativa de custo entre 4.7 e 4.8 dado um workload, incluindo fast mode e batch para ambas as versões.
Confirma que a migração é neutra em custo — e identifica se o fast mode do 4.8 compensa frente ao regular do 4.7.
Prompt copiável; saída em Markdown; inclui coluna de delta.
Prompt para gerar um resumo executivo de uma página com os trade-offs de adotar o 4.8 vs manter o 4.7, considerando benchmarks, custo e risco de regressão.
Facilita comunicação com stakeholders não-técnicos sobre a decisão de migração.
Prompt copiável; linguagem executiva; inclui recomendação e próximos passos.