4.1 — Por que orquestrador?

📊 O número 90,2% — onde isso vem

Em 2025, a Anthropic publicou resultados internos de avaliação: um sistema multi-agente com Opus 4 como lead e Sonnet 4 como workers superou um único agente em 90,2% das tarefas de pesquisa. Não é marketing — é métrica reproduzível com eval público.

🔬 Como a avaliação foi feita

•Tarefa de referência: pesquisa multi-etapa com síntese de múltiplas fontes.
•Baseline: single-agent Opus 4 com acesso às mesmas ferramentas.
•Multi-agent: lead Opus 4 decomp + 3-5 workers Sonnet 4 em paralelo.
•Métrica: precisão, completude e consistência na síntese final.
•Resultado: 90,2% das rodadas com multi-agent produziram output superior.

📊 Marco e Sally: antes × depois

Marco (e-commerce) pediu análise de concorrência. Antes: single-agent consultou 5 fontes sequencialmente em 12 min, perdeu contexto no final. Depois: lead decompôs em 3 subproblemas, workers pesquisaram em paralelo, síntese em 4 min com cobertura 3x maior.

"A diferença não foi o modelo — foi a arquitetura." — padrão observado em múltiplos casos reais.

🌳 Plano × execução — lead × workers

A divisão fundamental do orquestrador é entre pensar e fazer. O lead agent não executa — ele decompõe, planeja e sintetiza. Os workers não planejam — eles executam tarefas atômicas com foco total. Essa separação de responsabilidades é o que elimina o gargalo cognitivo.

O ciclo plan-execute-synthesize

1. Decomposição — Lead quebra a tarefa em subtarefas independentes e paralelizáveis.
2. Dispatch — Lead envia cada subtarefa para o worker mais adequado (por ferramenta ou domínio).
3. Execução paralela — Workers rodam sem esperar uns pelos outros. Reduz latência total.
4. Coleta — Lead recebe resultados de todos os workers com timestamp e contexto.
5. Síntese — Lead consolida, resolve contradições e produz output final coerente.

💡 Por que não pode ser o mesmo agente

Um único agente tentando planejar e executar ao mesmo tempo perde contexto de planejamento durante a execução. Ele começa a "esquecer" o plano original enquanto se aprofunda nos detalhes. Separar os papéis mantém a visão estratégica intacta no lead.

⚖️ Custo × ganho — não é grátis

Multi-agent não é almoço grátis. O overhead de coordenação real: 5-15x mais tokens que single-agent na mesma tarefa. A questão não é "usar ou não" — é saber quando o ganho de qualidade justifica o custo adicional.

✓ Vale multi-agent quando

✓Tarefa tem subproblemas paralelizáveis
✓Erros têm custo alto (financeiro, reputacional)
✓Pesquisa exige cobertura ampla de fontes
✓SLA permite latência maior (>30s aceitável)
✓Domínios especializados distintos

✗ Não vale quando

✗Tarefa é simples e atômica
✗Latência é crítica (<3s obrigatório)
✗Budget de tokens é muito restrito
✗Contexto não pode ser dividido
✗Um único especialista já resolve bem

🔀 Paralelismo como superpoder

O ganho mais imediato de multi-agent não é qualidade — é velocidade por paralelismo. Tarefas que levariam 20 minutos sequencialmente levam 5 minutos quando 4 workers operam em simultâneo. Para Sally (consultora), isso transforma o tempo de análise de "um dia" para "uma hora".

⚡ Tipos de paralelismo

Fan-out simples — mesma tarefa enviada a múltiplos workers com variações de perspectiva.
Divisão por domínio — workers especializados por área: financeiro, operacional, comercial.
Divisão por fonte — cada worker pesquisa uma fonte ou base de dados diferente.
Pipeline com estágios — worker A processa, worker B valida, worker C formata.

📊 Dados de mercado 2025-2026

Segundo Sequoia Capital (Ascent 2025): empresas que adotaram arquitetura multi-agent reduziram tempo de pesquisa em 68% na média. Gartner (jan/2026) projeta que 40% dos fluxos de trabalho analítico usarão multi-agent até fim de 2026.

🧠 Contexto isolado = menos alucinação

Um dos benefícios menos discutidos do multi-agent é a redução de alucinação por isolamento de contexto. Cada worker opera com um contexto pequeno e focado. Sem o "ruído" das outras subtarefas no contexto, a chance de confusão e mistura de informações cai drasticamente.

Por que contexto menor é melhor

Foco — worker vê apenas a tarefa que precisa resolver, sem distração.
Menos interferência — informações irrelevantes não "contaminam" o raciocínio.
Contexto fresco — cada worker começa sem o peso de iterações anteriores.
Verificabilidade — resultado de cada worker é auditável individualmente.

💡 Analogia humana

Um CFO que também tenta fazer marketing e operações ao mesmo tempo toma decisões piores em todas as áreas. Especialização melhora qualidade — vale para humanos, vale para agentes.

🔄 Eval-driven: meça antes de escalar

Não adicione workers por intuição. Meça primeiro. O padrão correto é: single-agent funciona → mede resultado → identifica onde falha → adiciona worker específico para cobrir aquele ponto fraco. Sem eval, você adiciona complexidade sem ganho real.

📐 O processo eval-driven

Passo 1: Define a tarefa e o critério de sucesso (ex: "análise cobre 5+ fontes distintas").
Passo 2: Roda single-agent 10 vezes. Mede taxa de sucesso.
Passo 3: Identifica o padrão de falha (ex: "sempre perde análise financeira").
Passo 4: Adiciona worker especializado para cobrir o ponto fraco.
Passo 5: Mede novamente. Compara custo × ganho de qualidade.

⚠️ Anti-padrão: orquestrador sem eval

Sana (founder) montou um sistema com 8 workers antes de medir o single-agent. Gastou 12x o budget e o resultado foi pior — os workers se contradiziam sem critério de síntese claro. Começar com eval teria mostrado que 2 workers eram suficientes.

📋 Resumo do Módulo

✓

90,2% vem de eval real — Anthropic mediu multi-agent vs single-agent em tarefas de pesquisa

✓

Lead planeja, workers executam — separação de responsabilidades elimina gargalo cognitivo

✓

Custo 5-15x mais tokens — justificável quando qualidade e cobertura importam

✓

Paralelismo reduz latência em 3-4x — workers simultâneos vs execução sequencial

✓

Contexto isolado reduz alucinação — cada worker vê só o que precisa

✓

Sempre meça antes de escalar — eval-driven: identifique o ponto fraco antes de adicionar worker

Próximo Módulo:

4.2 — Chief-of-staff pattern: o padrão Anthropic para orquestração

← Módulo Anterior Próximo Módulo →