Módulo 2.6 · Exercícios

Parte 1 — Quiz com gabarito

Em que data o Claude Opus 4.7 foi lançado?

a) 28/05/2026
b) 16/04/2026
c) 05/02/2026
d) 12/03/2026

Resposta: b) 16/04/2026

O 4.7 saiu em 16 de abril de 2026. O 4.8 veio ~42 dias depois, em 28/05/2026. As outras datas são fictícias.

Qual é o score do Opus 4.8 no SWE-bench Pro?

a) 64,3%
b) 88,6%
c) 69,2%
d) 58,6%

Resposta: c) 69,2%

64,3% é o 4.7; 88,6% é o SWE-bench Verified (diferente do Pro); 58,6% é o GPT-5.5. O 4.8 no SWE-bench Pro = 69,2% (auto-reportado).

Quanto custa um cache hit no Opus 4.8 (por milhão de tokens)?

a) US$5,00
b) US$0,50
c) US$6,25
d) US$1,00

Resposta: b) US$0,50

Cache hit = US$0,50/M — 10× mais barato que a entrada regular (US$5/M). US$6,25 é o cache write com TTL 5 min.

Verdadeiro ou falso: "O fast mode do Opus 4.8 é mais caro que o fast mode do 4.7 para a mesma qualidade entregue."

Resposta: Falso

O fast mode do 4.8 é ~3× mais barato que o fast mode do 4.7 para qualidade equivalente — justamente porque o 4.8 é mais capaz no modo regular, o que eleva o patamar de desempenho do fast.

Qual é o benchmark que mede recuperação de informação em grafos de conhecimento distribuídos em 1M de tokens?

a) HLE
b) USAMO
c) GraphWalks
d) Online-Mind2Web

Resposta: c) GraphWalks

GraphWalks mede precisão de recuperação (F1) em grafos de entidades distribuídas em contextos de 1M de tokens. O 4.8 atinge 68,1% F1. Online-Mind2Web é navegação web autônoma.

O desconto de 50% da API Batch se aplica sobre qual preço base?

a) Preço de cache hit
b) Preço do fast mode
c) Preço regular (US$5/M entrada)
d) Preço de cache write

Resposta: c) Preço regular

Batch desconta 50% sobre o preço regular: US$5/M → US$2,50/M entrada; US$25/M → US$12,50/M saída. Pode ser combinado com cache para economia acumulada.

Parte 2 — Desafios práticos

🧮 Desafio 1 — Regular vs fast mode

Você tem um chat interativo com 500 usuários/dia. Cada conversa usa ~5k tokens de entrada e ~1k de saída. Calcule o custo diário no modo regular e no fast mode. Quando o fast mode se justifica?

Regular: Entrada: 500 × 5k = 2,5M × US$5/M = US$12,50. Saída: 500 × 1k = 0,5M × US$25/M = US$12,50. Total = US$25/dia.

Fast mode: Entrada: 2,5M × US$10/M = US$25. Saída: 0,5M × US$50/M = US$25. Total = US$50/dia.

Diferença: US$25/dia extra (~US$750/mês) pelo fast mode. Se a latência menor reduz abandono ou melhora conversão, pode valer. Se o chat tolera 2-3s de resposta, o regular é suficiente.

🔬 Desafio 2 — Comparar 4.7 vs 4.8 numa tarefa de código

Escolha uma tarefa de código com complexidade real (bug fix, refatoração, feature pequena). Execute no claude-opus-4-7 e no claude-opus-4-8 com o mesmo prompt.

Critério de avaliação: compare (1) qualidade do código gerado, (2) cobertura de edge cases e (3) clareza da explicação. Documente se houve diferença perceptível — esse é o tipo de avaliação que benchmarks não capturam.

🏁 Autoavaliação

Ao fim da Trilha 2, você deveria conseguir explicar:

✓Datas de lançamento do 4.7 (16/04) e 4.8 (28/05/2026)

✓O que HLE, USAMO, GraphWalks e AA Index medem

✓Diferença entre SWE-bench Pro (69,2%) e Verified (88,6%)

✓Estrutura de preços: regular, cache (write/hit), batch, fast

✓Como calcular custo de um workload real

✓Por que benchmarks são auto-reportados e o que isso implica

← Voltar para Trilha Próximo: Prompts prontos →