📊 O número 90,2% — onde isso vem
Em 2025, a Anthropic publicou resultados internos de avaliação: um sistema multi-agente com Opus 4 como lead e Sonnet 4 como workers superou um único agente em 90,2% das tarefas de pesquisa. Não é marketing — é métrica reproduzível com eval público.
🔬 Como a avaliação foi feita
- •Tarefa de referência: pesquisa multi-etapa com síntese de múltiplas fontes.
- •Baseline: single-agent Opus 4 com acesso às mesmas ferramentas.
- •Multi-agent: lead Opus 4 decomp + 3-5 workers Sonnet 4 em paralelo.
- •Métrica: precisão, completude e consistência na síntese final.
- •Resultado: 90,2% das rodadas com multi-agent produziram output superior.
📊 Marco e Sally: antes × depois
Marco (e-commerce) pediu análise de concorrência. Antes: single-agent consultou 5 fontes sequencialmente em 12 min, perdeu contexto no final. Depois: lead decompôs em 3 subproblemas, workers pesquisaram em paralelo, síntese em 4 min com cobertura 3x maior.
"A diferença não foi o modelo — foi a arquitetura." — padrão observado em múltiplos casos reais.
🌳 Plano × execução — lead × workers
A divisão fundamental do orquestrador é entre pensar e fazer. O lead agent não executa — ele decompõe, planeja e sintetiza. Os workers não planejam — eles executam tarefas atômicas com foco total. Essa separação de responsabilidades é o que elimina o gargalo cognitivo.
O ciclo plan-execute-synthesize
- 1. Decomposição — Lead quebra a tarefa em subtarefas independentes e paralelizáveis.
- 2. Dispatch — Lead envia cada subtarefa para o worker mais adequado (por ferramenta ou domínio).
- 3. Execução paralela — Workers rodam sem esperar uns pelos outros. Reduz latência total.
- 4. Coleta — Lead recebe resultados de todos os workers com timestamp e contexto.
- 5. Síntese — Lead consolida, resolve contradições e produz output final coerente.
💡 Por que não pode ser o mesmo agente
Um único agente tentando planejar e executar ao mesmo tempo perde contexto de planejamento durante a execução. Ele começa a "esquecer" o plano original enquanto se aprofunda nos detalhes. Separar os papéis mantém a visão estratégica intacta no lead.
⚖️ Custo × ganho — não é grátis
Multi-agent não é almoço grátis. O overhead de coordenação real: 5-15x mais tokens que single-agent na mesma tarefa. A questão não é "usar ou não" — é saber quando o ganho de qualidade justifica o custo adicional.
✓ Vale multi-agent quando
- ✓Tarefa tem subproblemas paralelizáveis
- ✓Erros têm custo alto (financeiro, reputacional)
- ✓Pesquisa exige cobertura ampla de fontes
- ✓SLA permite latência maior (>30s aceitável)
- ✓Domínios especializados distintos
✗ Não vale quando
- ✗Tarefa é simples e atômica
- ✗Latência é crítica (<3s obrigatório)
- ✗Budget de tokens é muito restrito
- ✗Contexto não pode ser dividido
- ✗Um único especialista já resolve bem
🔀 Paralelismo como superpoder
O ganho mais imediato de multi-agent não é qualidade — é velocidade por paralelismo. Tarefas que levariam 20 minutos sequencialmente levam 5 minutos quando 4 workers operam em simultâneo. Para Sally (consultora), isso transforma o tempo de análise de "um dia" para "uma hora".
⚡ Tipos de paralelismo
- Fan-out simples — mesma tarefa enviada a múltiplos workers com variações de perspectiva.
- Divisão por domínio — workers especializados por área: financeiro, operacional, comercial.
- Divisão por fonte — cada worker pesquisa uma fonte ou base de dados diferente.
- Pipeline com estágios — worker A processa, worker B valida, worker C formata.
📊 Dados de mercado 2025-2026
Segundo Sequoia Capital (Ascent 2025): empresas que adotaram arquitetura multi-agent reduziram tempo de pesquisa em 68% na média. Gartner (jan/2026) projeta que 40% dos fluxos de trabalho analítico usarão multi-agent até fim de 2026.
🧠 Contexto isolado = menos alucinação
Um dos benefícios menos discutidos do multi-agent é a redução de alucinação por isolamento de contexto. Cada worker opera com um contexto pequeno e focado. Sem o "ruído" das outras subtarefas no contexto, a chance de confusão e mistura de informações cai drasticamente.
Por que contexto menor é melhor
- Foco — worker vê apenas a tarefa que precisa resolver, sem distração.
- Menos interferência — informações irrelevantes não "contaminam" o raciocínio.
- Contexto fresco — cada worker começa sem o peso de iterações anteriores.
- Verificabilidade — resultado de cada worker é auditável individualmente.
💡 Analogia humana
Um CFO que também tenta fazer marketing e operações ao mesmo tempo toma decisões piores em todas as áreas. Especialização melhora qualidade — vale para humanos, vale para agentes.
🔄 Eval-driven: meça antes de escalar
Não adicione workers por intuição. Meça primeiro. O padrão correto é: single-agent funciona → mede resultado → identifica onde falha → adiciona worker específico para cobrir aquele ponto fraco. Sem eval, você adiciona complexidade sem ganho real.
📐 O processo eval-driven
- Passo 1: Define a tarefa e o critério de sucesso (ex: "análise cobre 5+ fontes distintas").
- Passo 2: Roda single-agent 10 vezes. Mede taxa de sucesso.
- Passo 3: Identifica o padrão de falha (ex: "sempre perde análise financeira").
- Passo 4: Adiciona worker especializado para cobrir o ponto fraco.
- Passo 5: Mede novamente. Compara custo × ganho de qualidade.
⚠️ Anti-padrão: orquestrador sem eval
Sana (founder) montou um sistema com 8 workers antes de medir o single-agent. Gastou 12x o budget e o resultado foi pior — os workers se contradiziam sem critério de síntese claro. Começar com eval teria mostrado que 2 workers eram suficientes.
📋 Resumo do Módulo
Próximo Módulo:
4.2 — Chief-of-staff pattern: o padrão Anthropic para orquestração