MÓDULO 4.1

🎯 Por que orquestrador? (90,2% melhor)

Anthropic mediu: multi-agent (Opus 4 lead + Sonnet 4 workers) supera single-agent em 90,2% das tarefas de pesquisa. Por que isso acontece e como aplicar.

6
Tópicos
45
Minutos
Médio
Nível
Teoria
Tipo
1

📊 O número 90,2% — onde isso vem

Em 2025, a Anthropic publicou resultados internos de avaliação: um sistema multi-agente com Opus 4 como lead e Sonnet 4 como workers superou um único agente em 90,2% das tarefas de pesquisa. Não é marketing — é métrica reproduzível com eval público.

🔬 Como a avaliação foi feita

  • Tarefa de referência: pesquisa multi-etapa com síntese de múltiplas fontes.
  • Baseline: single-agent Opus 4 com acesso às mesmas ferramentas.
  • Multi-agent: lead Opus 4 decomp + 3-5 workers Sonnet 4 em paralelo.
  • Métrica: precisão, completude e consistência na síntese final.
  • Resultado: 90,2% das rodadas com multi-agent produziram output superior.

📊 Marco e Sally: antes × depois

Marco (e-commerce) pediu análise de concorrência. Antes: single-agent consultou 5 fontes sequencialmente em 12 min, perdeu contexto no final. Depois: lead decompôs em 3 subproblemas, workers pesquisaram em paralelo, síntese em 4 min com cobertura 3x maior.

"A diferença não foi o modelo — foi a arquitetura." — padrão observado em múltiplos casos reais.

2

🌳 Plano × execução — lead × workers

A divisão fundamental do orquestrador é entre pensar e fazer. O lead agent não executa — ele decompõe, planeja e sintetiza. Os workers não planejam — eles executam tarefas atômicas com foco total. Essa separação de responsabilidades é o que elimina o gargalo cognitivo.

O ciclo plan-execute-synthesize

  • 1. Decomposição — Lead quebra a tarefa em subtarefas independentes e paralelizáveis.
  • 2. Dispatch — Lead envia cada subtarefa para o worker mais adequado (por ferramenta ou domínio).
  • 3. Execução paralela — Workers rodam sem esperar uns pelos outros. Reduz latência total.
  • 4. Coleta — Lead recebe resultados de todos os workers com timestamp e contexto.
  • 5. Síntese — Lead consolida, resolve contradições e produz output final coerente.

💡 Por que não pode ser o mesmo agente

Um único agente tentando planejar e executar ao mesmo tempo perde contexto de planejamento durante a execução. Ele começa a "esquecer" o plano original enquanto se aprofunda nos detalhes. Separar os papéis mantém a visão estratégica intacta no lead.

3

⚖️ Custo × ganho — não é grátis

Multi-agent não é almoço grátis. O overhead de coordenação real: 5-15x mais tokens que single-agent na mesma tarefa. A questão não é "usar ou não" — é saber quando o ganho de qualidade justifica o custo adicional.

✓ Vale multi-agent quando

  • Tarefa tem subproblemas paralelizáveis
  • Erros têm custo alto (financeiro, reputacional)
  • Pesquisa exige cobertura ampla de fontes
  • SLA permite latência maior (>30s aceitável)
  • Domínios especializados distintos

✗ Não vale quando

  • Tarefa é simples e atômica
  • Latência é crítica (<3s obrigatório)
  • Budget de tokens é muito restrito
  • Contexto não pode ser dividido
  • Um único especialista já resolve bem
4

🔀 Paralelismo como superpoder

O ganho mais imediato de multi-agent não é qualidade — é velocidade por paralelismo. Tarefas que levariam 20 minutos sequencialmente levam 5 minutos quando 4 workers operam em simultâneo. Para Sally (consultora), isso transforma o tempo de análise de "um dia" para "uma hora".

Tipos de paralelismo

  • Fan-out simples — mesma tarefa enviada a múltiplos workers com variações de perspectiva.
  • Divisão por domínio — workers especializados por área: financeiro, operacional, comercial.
  • Divisão por fonte — cada worker pesquisa uma fonte ou base de dados diferente.
  • Pipeline com estágios — worker A processa, worker B valida, worker C formata.

📊 Dados de mercado 2025-2026

Segundo Sequoia Capital (Ascent 2025): empresas que adotaram arquitetura multi-agent reduziram tempo de pesquisa em 68% na média. Gartner (jan/2026) projeta que 40% dos fluxos de trabalho analítico usarão multi-agent até fim de 2026.

5

🧠 Contexto isolado = menos alucinação

Um dos benefícios menos discutidos do multi-agent é a redução de alucinação por isolamento de contexto. Cada worker opera com um contexto pequeno e focado. Sem o "ruído" das outras subtarefas no contexto, a chance de confusão e mistura de informações cai drasticamente.

Por que contexto menor é melhor

  • Foco — worker vê apenas a tarefa que precisa resolver, sem distração.
  • Menos interferência — informações irrelevantes não "contaminam" o raciocínio.
  • Contexto fresco — cada worker começa sem o peso de iterações anteriores.
  • Verificabilidade — resultado de cada worker é auditável individualmente.

💡 Analogia humana

Um CFO que também tenta fazer marketing e operações ao mesmo tempo toma decisões piores em todas as áreas. Especialização melhora qualidade — vale para humanos, vale para agentes.

6

🔄 Eval-driven: meça antes de escalar

Não adicione workers por intuição. Meça primeiro. O padrão correto é: single-agent funciona → mede resultado → identifica onde falha → adiciona worker específico para cobrir aquele ponto fraco. Sem eval, você adiciona complexidade sem ganho real.

📐 O processo eval-driven

  • Passo 1: Define a tarefa e o critério de sucesso (ex: "análise cobre 5+ fontes distintas").
  • Passo 2: Roda single-agent 10 vezes. Mede taxa de sucesso.
  • Passo 3: Identifica o padrão de falha (ex: "sempre perde análise financeira").
  • Passo 4: Adiciona worker especializado para cobrir o ponto fraco.
  • Passo 5: Mede novamente. Compara custo × ganho de qualidade.

⚠️ Anti-padrão: orquestrador sem eval

Sana (founder) montou um sistema com 8 workers antes de medir o single-agent. Gastou 12x o budget e o resultado foi pior — os workers se contradiziam sem critério de síntese claro. Começar com eval teria mostrado que 2 workers eram suficientes.

📋 Resumo do Módulo

90,2% vem de eval real — Anthropic mediu multi-agent vs single-agent em tarefas de pesquisa
Lead planeja, workers executam — separação de responsabilidades elimina gargalo cognitivo
Custo 5-15x mais tokens — justificável quando qualidade e cobertura importam
Paralelismo reduz latência em 3-4x — workers simultâneos vs execução sequencial
Contexto isolado reduz alucinação — cada worker vê só o que precisa
Sempre meça antes de escalar — eval-driven: identifique o ponto fraco antes de adicionar worker

Próximo Módulo:

4.2 — Chief-of-staff pattern: o padrão Anthropic para orquestração