1
🧪 Mesmo briefing, dois modelos
Preparar um mesmo briefing ICCA e rodar em 4.6 e 4.7. Congele tudo exceto o modelo — mesmo repo, mesmo effort equivalente, mesmo prompt.
2
📈 Métricas a observar
👤
Turnos humanos
quanto você interferiu
💰
Tokens totais
in + out + thinking
⏱️
Wall-clock
tempo total até concluir
📏
Tamanho do diff
linhas alteradas
3
🐢 Onde o 4.7 parece lento (e não é)
Em xhigh, a primeira resposta demora mais. Novato olha o relógio e pensa que regrediu. Mas olhe o wall-clock total — o 4.7 entregou sem os 3 turnos extras do 4.6.
4
🚀 Onde o 4.7 dispara
- 🎯Ambiguidade alta — briefings imperfeitos ainda rendem bons resultados
- 🐛Bug finding — +11pp de recall em evals de PR reais
- 🔄Refactor multi-arquivo — coerência entre módulos
- 🔍Code review profundo — se você pedir coverage (não "be conservative")
5
⚠️ Armadilha: prompt antigo
🚨 Não caia nessa
Usar prompt que funcionava no 4.6 no 4.7 e chamar de "regressão" é o erro mais comum.
O prompt é o problema — não o modelo. Refatore antes de comparar.
6
📊 Template de relatório
| Métrica | 4.6 | 4.7 | Δ |
|---|---|---|---|
| Turnos humanos | _ | _ | _ |
| Tokens totais | _ | _ | _ |
| Wall-clock | _ | _ | _ |
| Qualidade (1-5) | _ | _ | _ |
7
🎯 Conclusões acionáveis
Todo experimento deve sair com 3 ações concretas para o próximo prompt real:
- 1. O que vou adicionar ao briefing ICCA daqui em diante
- 2. O que vou remover (scaffold antigo)
- 3. Qual effort vou testar na próxima tarefa desse tipo
📋 Resumo
✓
Meça por tarefa — não por resposta
✓
Primeira resposta lenta ≠ pior — olhe o total
✓
Refatore prompts antes de comparar
✓
3 ações por experimento — sempre
Próximo Módulo:
1.7 — Autodiagnóstico + Plano de 7 Dias