MÓDULO 1.6

🎬 Comparativo em Ação

A mesma tarefa no 4.6 e no 4.7 — o que medir, onde o 4.7 parece lento (e não é), e onde dispara de verdade.

7
Tópicos
35
Minutos
Básico
Nível
Experim.
Tipo
COMPARATIVO — MESMA TAREFA Opus 4.6 turnos humanos: 4 tokens: 18k wall-clock: 22 min Opus 4.7 turnos: 1 tokens: 26k wall-clock: 9 min ↓ 4× menos turnos humanos • ↑ 1.4× tokens • ↓ 2.4× tempo
1

🧪 Mesmo briefing, dois modelos

Preparar um mesmo briefing ICCA e rodar em 4.6 e 4.7. Congele tudo exceto o modelo — mesmo repo, mesmo effort equivalente, mesmo prompt.

2

📈 Métricas a observar

👤
Turnos humanos
quanto você interferiu
💰
Tokens totais
in + out + thinking
⏱️
Wall-clock
tempo total até concluir
📏
Tamanho do diff
linhas alteradas
3

🐢 Onde o 4.7 parece lento (e não é)

Em xhigh, a primeira resposta demora mais. Novato olha o relógio e pensa que regrediu. Mas olhe o wall-clock total — o 4.7 entregou sem os 3 turnos extras do 4.6.

4

🚀 Onde o 4.7 dispara

5

⚠️ Armadilha: prompt antigo

🚨 Não caia nessa

Usar prompt que funcionava no 4.6 no 4.7 e chamar de "regressão" é o erro mais comum.

O prompt é o problema — não o modelo. Refatore antes de comparar.

6

📊 Template de relatório

Métrica4.64.7Δ
Turnos humanos___
Tokens totais___
Wall-clock___
Qualidade (1-5)___
7

🎯 Conclusões acionáveis

Todo experimento deve sair com 3 ações concretas para o próximo prompt real:

  1. 1. O que vou adicionar ao briefing ICCA daqui em diante
  2. 2. O que vou remover (scaffold antigo)
  3. 3. Qual effort vou testar na próxima tarefa desse tipo

📋 Resumo

Meça por tarefa — não por resposta
Primeira resposta lenta ≠ pior — olhe o total
Refatore prompts antes de comparar
3 ações por experimento — sempre

Próximo Módulo:

1.7 — Autodiagnóstico + Plano de 7 Dias