Módulo 1.6 — Comparativo em Ação

🧪 Mesmo briefing, dois modelos

Preparar um mesmo briefing ICCA e rodar em 4.6 e 4.7. Congele tudo exceto o modelo — mesmo repo, mesmo effort equivalente, mesmo prompt.

📈 Métricas a observar

👤

Turnos humanos

quanto você interferiu

💰

Tokens totais

in + out + thinking

⏱️

Wall-clock

tempo total até concluir

📏

Tamanho do diff

linhas alteradas

🐢 Onde o 4.7 parece lento (e não é)

Em xhigh, a primeira resposta demora mais. Novato olha o relógio e pensa que regrediu. Mas olhe o wall-clock total — o 4.7 entregou sem os 3 turnos extras do 4.6.

🚀 Onde o 4.7 dispara

🎯
Ambiguidade alta — briefings imperfeitos ainda rendem bons resultados
🐛
Bug finding — +11pp de recall em evals de PR reais
🔄
Refactor multi-arquivo — coerência entre módulos
🔍
Code review profundo — se você pedir coverage (não "be conservative")

⚠️ Armadilha: prompt antigo

🚨 Não caia nessa

Usar prompt que funcionava no 4.6 no 4.7 e chamar de "regressão" é o erro mais comum.

O prompt é o problema — não o modelo. Refatore antes de comparar.

📊 Template de relatório

Métrica	4.6	4.7	Δ
Turnos humanos	_	_	_
Tokens totais	_	_	_
Wall-clock	_	_	_
Qualidade (1-5)	_	_	_

🎯 Conclusões acionáveis

Todo experimento deve sair com 3 ações concretas para o próximo prompt real:

1. O que vou adicionar ao briefing ICCA daqui em diante
2. O que vou remover (scaffold antigo)
3. Qual effort vou testar na próxima tarefa desse tipo

📋 Resumo

✓

Meça por tarefa — não por resposta

✓

Primeira resposta lenta ≠ pior — olhe o total

✓

Refatore prompts antes de comparar

✓

3 ações por experimento — sempre

Próximo Módulo:

1.7 — Autodiagnóstico + Plano de 7 Dias

← Módulo Anterior Próximo Módulo →