Trilha 2 · O que mudou

2.1~30 min

📈 Opus 4.8 vs 4.7 vs 4.6

A família 4.x em perspectiva: cadência, herança e o que realmente mudou de versão para versão.

O que é:

A família 4.x tem quatro membros: Opus 4.5 (24/11/2025), Opus 4.6 (05/02/2026), Opus 4.7 (16/04/2026) e Opus 4.8 (28/05/2026).

Por que aprender:

Entender a cronologia ajuda a posicionar o 4.8 no contexto de evolução contínua e decidir qual versão usar em projetos existentes.

Conceitos-chave:

4.5 → 4.6 (73 dias) → 4.7 (70 dias) → 4.8 (42 dias); ciclos encurtando ao longo de 2026.

O que é:

O intervalo entre 4.7 (16/04/2026) e 4.8 (28/05/2026) é de aproximadamente 42 dias — o mais curto de toda a família 4.x.

Por que aprender:

Ciclos curtos indicam que a Anthropic priorizou responder rapidamente ao mercado — e que o 4.8 é incremental, não transformador.

Conceitos-chave:

~42 dias; ciclo mais rápido da família; indica resposta de mercado, não grande salto técnico.

O que é:

No lançamento do 4.7, aproximadamente 85% dos posts em r/Anthropic classificaram a versão como regressão. A comunidade sentiu piora em criatividade e escrita.

Por que aprender:

Contextualiza por que o 4.8 veio tão rápido: a Anthropic precisava recuperar confiança da comunidade e corrigir a percepção negativa do 4.7.

Conceitos-chave:

~85% de posts negativos em r/Anthropic; percepção de regressão no 4.7; 4.8 como resposta.

O que é:

O 4.8 é construído sobre o 4.7: mantém raciocínio híbrido, janela de 1M tokens, 128k saída, fast mode e a mesma estrutura de preços.

Por que aprender:

Saber o que foi mantido facilita a migração: código que funcionava no 4.7 funciona no 4.8 sem alterações.

Conceitos-chave:

Construído sobre 4.7; compatibilidade de API; herança de contexto e fast mode.

O que é:

A própria Anthropic descreve o 4.8 como "melhoria modesta porém tangível" sobre o 4.7 — uma comunicação incomumente honesta sobre escopo.

Por que aprender:

Calibra expectativas: o 4.8 não é um salto de geração, mas uma correção de curso com ganhos reais em benchmarks e comportamento.

Conceitos-chave:

"Modest yet tangible improvement"; declaração da Anthropic; alinhamento de expectativas.

O que é:

Para migrar do 4.7 ao 4.8, troque o model ID, execute seus testes de regressão e compare saídas nas tarefas críticas. A API é compatível.

Por que aprender:

Evita migrar por hype e garante que você só sobe de versão quando há ganho real para seu caso de uso.

Conceitos-chave:

Troca de model ID; regressão de testes; comparação A/B; custo idêntico facilita a decisão.

Ver Completo

2.2~30 min

💻 Benchmarks de código

O 4.8 nos rankings de coding: SWE-bench Pro e Verified, com os números de todos os concorrentes.

O que é:

SWE-bench Pro é um benchmark de resolução de issues reais em repositórios públicos do GitHub — mais exigente que o Verified clássico.

Por que aprender:

É a referência do setor para comparar modelos em coding agêntico com tarefas concretas.

Conceitos-chave:

Issues reais; repositórios públicos; solução de ponta a ponta validada por testes.

O que é:

No SWE-bench Pro: Opus 4.8 = 69,2%; Opus 4.7 = 64,3%; GPT-5.5 = 58,6%; Gemini 3.1 Pro = 54,2%.

Por que aprender:

Mostra o salto de ~5 pontos percentuais do 4.7 ao 4.8 — o maior ganho individual do benchmark de coding.

Conceitos-chave:

69,2% (4.8) > 64,3% (4.7) > 58,6% (GPT-5.5) > 54,2% (Gemini 3.1 Pro); todos auto-reportados.

O que é:

No SWE-bench Verified (subset curado por humanos): Opus 4.8 = 88,6%; Opus 4.7 = 87,6% — ganho de 1 ponto.

Por que aprender:

Verified usa issues validadas por humanos, sendo considerado mais confiável que Pro como medida de qualidade.

Conceitos-chave:

88,6% (4.8) vs 87,6% (4.7); subset curado; considera o modelo nas tarefas onde humanos concordam com a dificuldade.

O que é:

Benchmarks de coding medem resolução de issues em repos públicos com scaffold de agente — não reproduzem exatamente seu ambiente de produção.

Por que aprender:

Evita confiar cegamente nos números; o benchmark mais relevante é sempre o seu próprio caso de uso.

Conceitos-chave:

Scaffold específico; repos públicos; não generaliza automaticamente para código proprietário.

O que é:

No SWE-bench Pro, o 4.8 (69,2%) supera GPT-5.5 (58,6%) em 10,6 pp e Gemini 3.1 Pro (54,2%) em 15 pp — segundo dados auto-reportados pela Anthropic.

Por que aprender:

Quantifica a vantagem competitiva em coding agêntico — mas lembre que os concorrentes reportam seus próprios números com outros setups.

Conceitos-chave:

+10,6 pp vs GPT-5.5; +15 pp vs Gemini 3.1 Pro; comparação entre benchmarks diferentes requer cautela.

O que é:

Todos os benchmarks de coding citados são auto-reportados pela Anthropic e não foram auditados de forma independente.

Por que aprender:

Posicionamento de fornecedor não é imparcial — as condições de teste (scaffold, temperatura, etc.) influenciam o resultado.

Conceitos-chave:

Auto-reportado; sem auditoria independente; faça seu próprio benchmark no seu use case.

Ver Completo

2.3~25 min

🖥️ Uso de computador e agentes

OSWorld e Online-Mind2Web: o 4.8 operando interfaces visuais de forma autônoma.

O que é:

Computer use é a capacidade de um modelo controlar uma interface gráfica (mouse, teclado, screenshots) para executar tarefas em ambientes visuais.

Por que aprender:

Abre casos de uso de automação em software sem API — navegadores, apps desktop, formulários.

Conceitos-chave:

Screenshots como input; ações como output; ciclo perceber-agir-perceber.

O que é:

OSWorld avalia agentes realizando tarefas reais em desktop (Ubuntu). Opus 4.8 marca 83,4%; GPT-5.5 = 78,7%; Gemini = 76,2%.

Por que aprender:

É um dos poucos benchmarks que testa controle real de sistema operacional — base para avaliar automação de desktop.

Conceitos-chave:

83,4% (4.8) vs 78,7% (GPT-5.5) vs 76,2% (Gemini); +4,7 pp e +7,2 pp respectivamente.

O que é:

Online-Mind2Web avalia navegação em sites reais com objetivos de alto nível. Opus 4.8 marca 84%.

Por que aprender:

Complementa o OSWorld com foco específico em web — relevante para automação de processos baseados em browser.

Conceitos-chave:

84% no Mind2Web; sites reais; objetivos em linguagem natural.

O que é:

Em OSWorld, o 4.8 lidera os concorrentes diretos. GPT-5.5 fica em 78,7% e Gemini 3.1 em 76,2% — ambos atrás por margem significativa.

Por que aprender:

Computer use é diferencial estratégico; entender onde o 4.8 lidera ajuda a justificar o uso em projetos de automação visual.

Conceitos-chave:

Liderança no OSWorld; comparação sempre auto-reportada pela Anthropic.

O que é:

Alta performance em OSWorld e Mind2Web indica que o 4.8 pode operar software sem API de forma mais confiável — reduz falhas em automação de UI.

Por que aprender:

Abre portas para automação em sistemas legados, ERPs e interfaces que não expõem API.

Conceitos-chave:

Automação de UI sem API; sistemas legados; combinação com tool use.

O que é:

OSWorld usa ambientes controlados (Ubuntu virtualizado); performance em produção varia conforme o layout da UI, idioma e resolução.

Por que aprender:

Não extrapole 83% para qualquer tarefa de UI — teste no seu ambiente antes de escalar.

Conceitos-chave:

Ambiente controlado; variáveis de UI real; teste próprio é essencial.

Ver Completo

2.4~25 min

🎓 Raciocínio e conhecimento

HLE, USAMO, GraphWalks e o Artificial Analysis Index: o quadro completo de raciocínio do 4.8.

O que é:

Humanity's Last Exam (HLE) é um conjunto de perguntas criadas por especialistas humanos para serem difíceis até para experts. Com ferramentas, o 4.8 marca 57,9%.

Por que aprender:

HLE mede o teto de raciocínio do modelo em domínios altamente especializados — útil para aplicações acadêmicas e de pesquisa.

Conceitos-chave:

57,9% com ferramentas; perguntas de nível pós-doutorado; benchmark mais difícil disponível.

O que é:

USAMO (United States Mathematical Olympiad) é uma das mais difíceis competições de matemática do mundo. O 4.8 marca 96,7% — performance de elite.

Por que aprender:

Evidencia raciocínio matemático formal de altíssimo nível — relevante para ciência, engenharia e aplicações quantitativas.

Conceitos-chave:

96,7%; provas de demonstração; raciocínio matemático formal.

O que é:

GraphWalks 1M mede recuperação de informações em contextos de 1 milhão de tokens. O 4.8 marca F1 de 68,1%.

Por que aprender:

Confirma que o 4.8 não só suporta 1M de tokens, mas consegue raciocinar sobre informações distribuídas nesse contexto enorme.

Conceitos-chave:

F1 68,1%; janela de 1M tokens; raciocínio em grafo de contexto longo.

O que é:

O Artificial Analysis Index agrega múltiplos benchmarks em uma nota única. O 4.8 marca 61,4 — terceiro avaliador independente mais próximo da neutralidade.

Por que aprender:

Oferece uma visão consolidada que não depende de um único benchmark — útil para comparações rápidas entre modelos.

Conceitos-chave:

61,4 no índice agregado; metodologia de terceiro; combina múltiplos domínios.

O que é:

HLE = raciocínio expert; USAMO = matemática formal; GraphWalks = contexto longo; AA Index = performance agregada. Cada um mede uma dimensão diferente.

Por que aprender:

Saber o que cada benchmark mede ajuda a selecionar o modelo certo para o seu domínio específico.

Conceitos-chave:

Dimensões diferentes; nenhum benchmark mede tudo; escolha a métrica do seu domínio.

O que é:

Consolidando: em coding (SWE-bench), UI (OSWorld), raciocínio (HLE, USAMO) e contexto (GraphWalks), o 4.8 supera os concorrentes mais próximos em todos os domínios segundo dados da Anthropic.

Por que aprender:

Oferece a visão integrada necessária para decisões de adoção — mas sempre com a ressalva de que são dados auto-reportados.

Conceitos-chave:

Liderança em múltiplos domínios; auto-reportado; auditoria independente ainda pendente.

Ver Completo

2.5~25 min

💰 Preços e custo

Tabela completa de preços do 4.8: regular, cache, batch e fast mode — idênticos ao 4.7 e 4.6.

O que é:

O preço regular do Opus 4.8 é US$5,00 por milhão de tokens de entrada e US$25,00 por milhão de tokens de saída.

Por que aprender:

É a base de cálculo para qualquer orçamento de uso do modelo — e é idêntico ao 4.7 e ao 4.6.

Conceitos-chave:

US$5/M entrada; US$25/M saída; mesma tabela do 4.7 e 4.6.

O que é:

Cache write 5 min = US$6,25/M; cache write 1h = US$10/M; cache hit = US$0,50/M. Economia de até 90% para contextos reutilizados.

Por que aprender:

Para aplicações com system prompt longo e reutilizado (agentes, assistentes), o caching é o maior alavancador de economia.

Conceitos-chave:

Cache write 5min US$6,25/M; write 1h US$10/M; hit US$0,50/M; até 90% de economia.

O que é:

A API de batch (processamento assíncrono de múltiplas requisições) oferece 50% de desconto sobre os preços regulares.

Por que aprender:

Para workloads de alto volume sem necessidade de resposta em tempo real (enriquecimento de dados, avaliações em massa), o batch é a forma mais econômica.

Conceitos-chave:

50% de desconto; assíncrono; ideal para alto volume sem latência crítica.

O que é:

Fast mode custa US$10/M de entrada e US$50/M de saída, mas é ~2,5x mais rápido. É ~3x mais barato que o fast mode do Opus 4.7 (que custava ~US$30/M de entrada).

Por que aprender:

Para aplicações interativas onde latência é crítica, o fast mode é a opção — e ficou significativamente mais barato no 4.8 vs 4.7.

Conceitos-chave:

US$10/M entrada; US$50/M saída; ~2,5x mais rápido; ~3x mais barato que fast mode 4.7.

O que é:

Os preços regulares do 4.8 (US$5/US$25) são idênticos aos do 4.7 e 4.6 — migrar de versão não impacta o orçamento já aprovado.

Por que aprender:

Facilita a adoção: não é necessário renegociar budgets ou atualizar planilhas de custo ao migrar do 4.7 para o 4.8.

Conceitos-chave:

Paridade de preço entre 4.6, 4.7 e 4.8; migração neutra em custo.

O que é:

Estime tokens de entrada × US$0,005/k + tokens de saída × US$0,025/k. Com caching: reduza entrada reutilizada em 90%. Com batch: reduza tudo em 50%.

Por que aprender:

Uma planilha simples de orçamento evita surpresas na fatura e ajuda a escolher o modo certo (regular/fast/batch).

Conceitos-chave:

Fórmula: (tokens_in × 5 + tokens_out × 25) / 1.000.000; ajuste por cache e batch.

Ver Completo

2.6~30 min

✏️ Exercícios da Trilha 2

Quizzes e desafios práticos para fixar versões, benchmarks e cálculos de custo.

O que é:

Questões de múltipla escolha sobre datas de lançamento (4.5/4.6/4.7/4.8), intervalos entre versões e o ciclo mais rápido.

Por que aprender:

Reforça a linha do tempo da família 4.x e o contexto por trás do ciclo acelerado do 4.8.

Conceitos-chave:

Gabarito comentado; foco em fatos verificados.

O que é:

Questões sobre os valores de SWE-bench Pro, Verified, OSWorld, Mind2Web, HLE, USAMO e GraphWalks.

Por que aprender:

Fixar os números permite comparações rápidas em conversas e decisões de seleção de modelo.

Conceitos-chave:

Gabarito com contexto; inclui ressalva de auto-reporte.

O que é:

Dado um trecho de release note com benchmarks, identifique o que é declaração de fornecedor, o que é comparação justa e o que falta para validar.

Por que aprender:

Desenvolve pensamento crítico para consumir materiais de marketing técnico.

Conceitos-chave:

Análise de viés; critérios de comparação justa; perguntas para auditar um benchmark.

O que é:

Dado um workload de 1M de tokens de entrada e 100k de saída por dia, calcule o custo mensal em regular, fast mode e batch. Compare os três.

Por que aprender:

Torna concreto o impacto financeiro das diferentes modalidades de uso.

Conceitos-chave:

Resolução passo a passo; tabela comparativa no gabarito.

O que é:

Execute o mesmo prompt em claude-opus-4-7 e claude-opus-4-8. Compare qualidade de saída, latência e tokens usados em 3 tarefas diferentes.

Por que aprender:

Transforma a "melhoria modesta" em evidência empírica pessoal — o benchmark mais relevante é sempre o seu.

Conceitos-chave:

Comparação A/B; mesmo prompt; critério de avaliação definido antes de rodar.

O que é:

Checklist do que você deve conseguir responder ao final da Trilha 2: cronologia, benchmarks-chave, tabela de preços e como decidir migrar.

Por que aprender:

Identifica lacunas antes de avançar para a Trilha 3 (aplicações práticas).

Conceitos-chave:

Autodiagnóstico; objetivos de aprendizado da trilha; ponte para a Trilha 3.

Ver Completo

2.7~20 min

📋 Prompts prontos da Trilha 2

Prompts copiáveis para comparar versões, analisar benchmarks e calcular custos.

O que é:

Prompt de sistema para rodar o mesmo request em claude-opus-4-7 e claude-opus-4-8 e solicitar comparação estruturada das saídas.

Por que aprender:

É o ponto de partida para qualquer decisão de migração baseada em evidência.

Conceitos-chave:

Prompt copiável; critérios de avaliação embutidos; saída em tabela comparativa.

O que é:

Prompt para colar uma tabela de benchmarks e pedir ao 4.8 que explique o que cada número significa para um caso de uso específico.

Por que aprender:

Transforma dados brutos em recomendações acionáveis para seu contexto.

Conceitos-chave:

Prompt copiável; personalização por caso de uso; output em bullets priorizados.

O que é:

Prompt para descrever um workload (volume de chamadas, tokens médios) e receber estimativa de custo mensal em regular, cache e batch.

Por que aprender:

Automatiza o cálculo de orçamento — use como ponto de partida antes de qualquer planilha manual.

Conceitos-chave:

Prompt copiável; saída em tabela; inclui cálculo de ROI do cache.

O que é:

Prompt que descreve sua aplicação (tolerância a latência, volume, criticidade) e recebe recomendação entre regular, fast mode e batch com justificativa.

Por que aprender:

Sistematiza uma decisão que costuma ser feita por intuição, tornando-a auditável.

Conceitos-chave:

Prompt copiável; parâmetros de decisão explícitos; output com recomendação + trade-offs.

O que é:

Prompt para gerar tabela comparativa de custo entre 4.7 e 4.8 dado um workload, incluindo fast mode e batch para ambas as versões.

Por que aprender:

Confirma que a migração é neutra em custo — e identifica se o fast mode do 4.8 compensa frente ao regular do 4.7.

Conceitos-chave:

Prompt copiável; saída em Markdown; inclui coluna de delta.

O que é:

Prompt para gerar um resumo executivo de uma página com os trade-offs de adotar o 4.8 vs manter o 4.7, considerando benchmarks, custo e risco de regressão.

Por que aprender:

Facilita comunicação com stakeholders não-técnicos sobre a decisão de migração.

Conceitos-chave:

Prompt copiável; linguagem executiva; inclui recomendação e próximos passos.

Ver Completo

📊 O que mudou

Mapa da trilha

📈 Opus 4.8 vs 4.7 vs 4.6

💻 Benchmarks de código

🖥️ Uso de computador e agentes

🎓 Raciocínio e conhecimento

💰 Preços e custo

✏️ Exercícios da Trilha 2

📋 Prompts prontos da Trilha 2

Conteúdo detalhado

📈 Opus 4.8 vs 4.7 vs 4.6

💻 Benchmarks de código

🖥️ Uso de computador e agentes

🎓 Raciocínio e conhecimento

💰 Preços e custo

✏️ Exercícios da Trilha 2

📋 Prompts prontos da Trilha 2