6.2 Orquestração Multi-Modelo | Mestre em Contexto e Tokens

🧠 Opus planeja, Haiku executa — o padrão clássico

O padrão mais poderoso de orquestração é também o mais simples: deixe o modelo caro pensar, o modelo barato agir. Opus produz o plano e revisa o resultado; Haiku executa cada passo em paralelo.

Fluxo clássico de orquestração (3 fases)

🧠

FASE 1 — Planejamento

Opus 4.7 analisa e produz plano detalhado

1 chamada • raciocínio complexo • quebra em passos claros

custo

~US$ 0,30

↓

🏃

FASE 2 — Execução paralela

Haiku × 5 executa os passos simultaneamente

5 chamadas em paralelo • cada uma faz sua parte

custo

~US$ 0,10

Haiku #1

Haiku #2

Haiku #3

Haiku #4

Haiku #5

↓

✅

FASE 3 — Revisão

Opus 4.7 consolida e valida o resultado

1 chamada • raciocínio crítico sobre as 5 saídas • ajuste final

custo

~US$ 0,20

Total da orquestração US$ 0,60

💡A intuição

Opus é como um arquiteto sênior: caro por hora, mas imbatível em planos e reviews. Haiku é como um estagiário competente: rápido, barato, ótimo quando sabe o que fazer.

A magia está em fazer o arquiteto só as 2 coisas que ele faz melhor (planejar + revisar) e o estagiário tudo no meio (executar).

🔀 Model override em subagentes

Como configurar isso na prática? O Claude Code permite forçar o modelo de cada subagente via frontmatter no arquivo .claude/agents/meu-agente.md.

📁 `.claude/agents/batch-processor.md`

Subagente Haiku

---
name: batch-processor
description: Executa tarefas repetitivas em lote — documentação, formatação, busca estruturada em múltiplos arquivos. Invoque quando precisar processar ≥ 5 arquivos com lógica similar.
model: haiku
tools:
  - Read
  - Write
  - Grep
---

# Batch Processor

Você é um agente de execução em lote. Sua responsabilidade é aplicar uma
transformação consistente em múltiplos arquivos seguindo instruções claras
recebidas do orquestrador.

## Princípios

1. Leia cada arquivo atribuído UMA vez.
2. Aplique exatamente a transformação pedida — sem improvisar.
3. Reporte de volta em formato estruturado: arquivo, status, mudanças aplicadas.
4. Se encontrar algo ambíguo, pare e devolva para o orquestrador decidir.

## Formato de saída obrigatório

```json
{
  "file": "caminho/para/arquivo.ts",
  "status": "ok" | "skipped" | "error",
  "changes": ["lista breve das mudanças"]
}
```

📘Valores aceitos em `model:`

opus

Mais capaz • mais caro

sonnet

Equilibrado • padrão

haiku

Rápido • barato

Claude Code resolve o alias para a versão mais recente disponível (ex: haiku → Haiku 4.5).

📁 `.claude/agents/orchestrator.md`

Orquestrador Opus

---
name: orchestrator
description: Planeja tarefas complexas e delega execução para subagentes especializados. Invoque em tarefas com ≥ 3 passos distintos ou que envolvem múltiplos arquivos.
model: opus
---

# Orquestrador

Seu papel é pensar, não executar. Para cada tarefa recebida:

1. Analise profundamente o problema
2. Produza plano com ≥ 3 passos numerados
3. Delegue cada passo ao subagente adequado:
   - batch-processor (Haiku): tarefas repetitivas
   - code-writer (Sonnet): escrita de código novo
   - architect (Opus): decisões arquiteturais
4. Consolide resultados e valide antes de devolver.

🎯Padrão recomendado

Crie 3 agentes base e evolua: 1 orquestrador Opus, 1 code-writer Sonnet, 1 batch-processor Haiku. Cobre 80% dos casos e ensina o padrão para o restante.

💰 Tabela de custos por modelo

Saber o preço de cor ajuda a decidir sem pensar. Estes são os valores oficiais da Anthropic (por 1M tokens) — use como referência mental ao escolher o modelo.

Preços oficiais por 1M tokens (Anthropic, 2026)

Modelo	Input	Cache read	Output	Ratio vs Haiku
🧠 Opus 4.7	US$ 15	US$ 1,50	US$ 75	15× mais caro
⚖️ Sonnet 4.6	US$ 3	US$ 0,30	US$ 15	3× mais caro
⚡ Haiku 4.5	US$ 1	US$ 0,10	US$ 5	baseline

Valores de referência. Preço oficial atualizado em platform.claude.com. Cache read é sempre 0,1× do input.

Custo relativo (input por 1M tokens)

🧠 Opus 4.7US$ 15 • 15×

⚖️ Sonnet 4.6US$ 3 • 3×

⚡ Haiku 4.5US$ 1 • 1×

📊Leitura rápida

→Opus custa 15× Haiku no input. Se a tarefa cabe em Haiku, Opus é desperdício.
→Output custa 5× o input em todos os modelos. Saídas verbosas são a maior fonte de custo evitável.
→Cache read sempre 90% off. O cache é o mesmo % de desconto em qualquer modelo.

🎯 Quando cada modelo brilha

Escolher o modelo errado é a maior alavanca de custo evitável do ecossistema Claude. Este é o guia de alocação que funciona em 90% dos casos.

🧠

Opus 4.7 — o arquiteto

Use quando a qualidade do pensamento importa mais que o custo.

Casos ideais

• Raciocínio complexo (debug difícil, trade-offs)
• Arquitetura de sistema
• Código crítico (segurança, concorrência)
• Decisões técnicas ambíguas
• Reviews de pull request importantes

% esperado em uma equipe

~20%

Do total de chamadas. Se está acima disso, provavelmente é desperdício.

⚖️

Sonnet 4.6 — o workhorse

O padrão razoável. Bom em quase tudo; excelente em nada específico.

Casos ideais

• Escrita de código nova de complexidade média
• Refactors "mecânicos"
• Explicações técnicas
• 90% do uso geral cotidiano
• Default quando não tem certeza

% esperado em uma equipe

~50%

A maior fatia. É o trabalho "normal".

⚡

Haiku 4.5 — o executor

Quando a tarefa é clara e repetitiva, ele faz 15× mais barato.

Casos ideais

• Execução repetitiva (aplicar regex, formatar)
• Busca estruturada em arquivos
• Sumarização simples
• Agentes em paralelo (batch)
• Geração de CRUD padrão

% esperado em uma equipe

~30%

Se está abaixo disso, você provavelmente está subutilizando.

🎯Árvore de decisão em 2 perguntas

1. A tarefa exige raciocínio ambíguo ou trade-off técnico? → Opus
2. É tarefa clara, repetitiva, ou uma entre muitas iguais? → Haiku
3. Se respondeu "não" a ambas → Sonnet (default)

🏃 Haiku paralelo para tarefas repetitivas

Nenhum padrão tem ROI tão dramático quanto Haiku em paralelo. Vamos a um caso concreto que deu a volta na internet — documentar 20 arquivos de uma biblioteca.

❌Abordagem A — Opus sequencial

Modelo

Opus 4.7 × 1 thread

Tempo por arquivo

~2 min

Custo por arquivo

~US$ 0,30

Tempo total (20 arquivos)40 min

Custo totalUS$ 6,00

✅Abordagem B — Haiku paralelo

Modelo

Haiku 4.5 × 5 threads

Tempo por arquivo

~2 min

Custo por arquivo

~US$ 0,04

Tempo total (5 × 4 paralelo)~8 min

Custo totalUS$ 0,80

Resultado comparativo

Economia em custo

7,5×

US$ 6,00 → US$ 0,80

Economia em tempo

5×

40 min → 8 min

Mesmo trabalho. Mesma qualidade. Diferença de produtividade de uma ordem de grandeza.

✅Quando Haiku paralelo funciona bem

→Tarefas independentes: cada arquivo pode ser processado isolado
→Output estruturado: formato de saída conhecido (JSON, markdown fixo)
→Transformação clara: regra explícita, sem decisão subjetiva
→Agregação simples: combinar resultados não exige raciocínio

⚠️Quando NÃO usar

✗Tarefa onde decisão em um arquivo depende de outro
✗Critério subjetivo ("melhore o design"); Haiku erra sem plano claro
✗Menos de 5 itens — overhead de paralelização não compensa

📈 Caso real: redução de 80% de custo

Equipe de 5 devs full-stack. Projeto SaaS B2B em produção. Usavam Claude Code pesadamente, default Opus em tudo. Em 3 meses, aplicaram orquestração multi-modelo e mediram o impacto.

Perfil da equipe

Devs

5 full-stack

Sessões/dev/dia

Projeto

SaaS B2B

Stack

Go + React

❌ ANTES — Opus em tudo

Opus 4.7100%

Sonnet 4.60%

Haiku 4.50%

Custo mensal

US$ 2.100

✅ DEPOIS — orquestrado

Opus 4.7 (planos + reviews)20%

Sonnet 4.6 (uso geral)50%

Haiku 4.5 (execução)30%

Custo mensal

US$ 420

Breakdown detalhado por tipo de chamada

Tipo de tarefa	Modelo antes	Modelo depois	% das chamadas
Planejamento de features	Opus	Opus	10%
Code review crítico	Opus	Opus	10%
Escrita de componentes	Opus	Sonnet	30%
Refactor "mecânico"	Opus	Sonnet	20%
Documentação de código	Opus	Haiku	15%
Formatação / linting	Opus	Haiku	10%
Busca / sumarização	Opus	Haiku	5%

Redução de custo

80%

US$ 2.100/mês → US$ 420/mês

Economia anual: US$ 20.160 • Mesma produtividade medida em features entregues.

🎯Seu plano de ação

1.Rode /cost esta semana e meça seu custo real
2.Identifique as 3 tarefas mais repetitivas que você faz
3.Crie um subagente Haiku para cada uma (.claude/agents/*.md)
4.Re-rode /cost em 2 semanas e compare

📋Resumo do Módulo

✓

Opus planeja, Haiku executa — padrão 3 fases: plano → paralelo → revisão

✓

Model override em subagentes — model: haiku no frontmatter

✓

Opus custa 15× Haiku — no input; cache read sempre 0,1×

✓

Distribuição 20/50/30 — Opus planos, Sonnet geral, Haiku execução

✓

Haiku paralelo: 7,5× mais barato, 5× mais rápido — em lotes de ≥ 5 itens

✓

Caso real: US$ 2.100 → US$ 420/mês — 80% de redução, mesma entrega

Próximo módulo:

6.3 — 🔬 Auditoria de Contexto

Descubra exatamente o que está comendo seu contexto e corte com precisão.

← Módulo Anterior Próximo: Auditoria →

🧠 Opus planeja, Haiku executa — o padrão clássico

Fluxo clássico de orquestração (3 fases)

💡A intuição

🔀 Model override em subagentes

📁 .claude/agents/batch-processor.md

📘Valores aceitos em model:

📁 .claude/agents/orchestrator.md

🎯Padrão recomendado

💰 Tabela de custos por modelo

Preços oficiais por 1M tokens (Anthropic, 2026)

Custo relativo (input por 1M tokens)

📊Leitura rápida

🎯 Quando cada modelo brilha

Opus 4.7 — o arquiteto

Sonnet 4.6 — o workhorse

Haiku 4.5 — o executor

🎯Árvore de decisão em 2 perguntas

🏃 Haiku paralelo para tarefas repetitivas

❌Abordagem A — Opus sequencial

✅Abordagem B — Haiku paralelo

Resultado comparativo

✅Quando Haiku paralelo funciona bem

⚠️Quando NÃO usar

📈 Caso real: redução de 80% de custo

Perfil da equipe

❌ ANTES — Opus em tudo

✅ DEPOIS — orquestrado

Breakdown detalhado por tipo de chamada

🎯Seu plano de ação

📋Resumo do Módulo

Próximo módulo:

📁 `.claude/agents/batch-processor.md`

📘Valores aceitos em `model:`

📁 `.claude/agents/orchestrator.md`