3.5 — Context Engineering

📚 Por que prompt engineering ficou obsoleto

Prompt engineering era a disciplina de um único prompt — você escrevia uma instrução e recebia uma resposta. Era suficiente para chatbots. Agentes fazem centenas de chamadas em sequência: pesquisam arquivos, executam tools, chamam subagentes, sumarizam resultados. Prompt engineering não escala para isso.

🔄 A evolução das disciplinas

2022-2023

Prompt Engineering — escrever o prompt certo para 1 chamada. Zero-shot, few-shot, chain-of-thought.

2024

RAG Engineering — recuperar os documentos certos para enriquecer o prompt. Embeddings, vector search.

2025-2026

Context Engineering — gerenciar qual informação entra na janela, quando, em qual formato, durante loops de agente de longa duração.

📊 Anthropic, setembro 2025

"Context engineering is the practice of carefully crafting and managing information in the context window to produce specific behaviors from AI systems."

— Documentação oficial da Anthropic, set/2025.

🪟 Janela de contexto como recurso escasso

A janela de contexto não é infinita — cada token ocupa espaço, custa dinheiro e compete por atenção com todos os outros tokens. Janela cheia de ruído dilui o sinal das instruções importantes. Janela bem gerenciada = agente mais preciso e mais barato.

💰 Token economy na prática

•Claude Sonnet 4.5 — 200K tokens de contexto. ~150K palavras. Parece muito, não é.
•1 CSV de 5MB — facilmente 500K+ tokens. Não cabe. Precisa de Silver Platter.
•Sessão longa sem poda — histórico de tool calls acumula. Degrada performance após ~50 turnos.
•Custo real — agente que processa 1M tokens/dia × R$0.003/1K = R$3.000/mês só em input.

⚠️ Atenção dilui com contexto inflado

Pesquisa da Anthropic mostra que instruções no meio de um contexto muito longo recebem menos atenção que instruções no início ou fim. "Lost in the middle" é real. Contexto menor, com sinal mais puro, produz respostas melhores.

🎯 Just-in-time Context

Em vez de injetar toda a informação no início da sessão, o agente carrega o que precisa no momento em que precisa. A analogia é o lazy loading de código: você não carrega o módulo inteiro, carrega a função quando ela é chamada. Paths em vez de conteúdo — o agente lê o arquivo quando necessário.

⚡ Padrão just-in-time

✗ Eager loading (ruim)

System prompt com:
- marketing.md completo
- financeiro.md completo
- operacoes.md completo
- historico.md completo
Total: 40K tokens antes de
o agente fazer qualquer coisa

✓ Just-in-time (bom)

System prompt com:
- Paths dos platters disponíveis
- Instrução: "leia o platter
  relevante antes de responder"
Total: 500 tokens. Agente lê
só o que precisa, quando precisa

💡 CLAUDE.md como índice

O CLAUDE.md do projeto é a implementação natural de just-in-time context. Ele não carrega todo o código — lista onde estão os arquivos importantes e quando ler cada um. O agente navega sob demanda. Esta é a razão pela qual CLAUDE.md funciona melhor quando é um índice enxuto, não um dump de documentação.

🗂️ Compactação e Poda

Sessões longas acumulam lixo: tool outputs verbosos, mensagens intermediárias, contexto obsoleto. Sem compactação, a sessão degenera — o agente começa a perder o fio da meada, repetir informação ou ignorar instruções antigas. Compactação é manutenção ativa da qualidade.

✂️ O que compactar

•Tool outputs longos — resultado de busca com 200 itens → sumarizar para os 5 relevantes.
•Histórico de reasoning — pensamentos intermediários após decisão tomada.
•Contexto obsoleto — informação sobre versão anterior do problema já resolvida.
•Arquivos de referência lidos — após extrair o que precisava, remover o conteúdo bruto.

⚙️ Compactação automática no Claude Code

Claude Code tem compactação automática configurável via hooks:

# settings.json — hook pós-compactação
{
  "hooks": {
    "PostCompact": [{
      "matcher": ".*",
      "hooks": [{
        "type": "command",
        "command": "echo 'Contexto compactado. Verifique CLAUDE.md.'"
      }]
    }]
  }
}

⚡ Prompt Caching — TTL de 5 minutos

A Anthropic mantém o prefixo do prompt em cache por 5 minutos — e cobra 90% menos por tokens servidos do cache. Para agentes que processam muitas chamadas com o mesmo sistema de contexto (CLAUDE.md, Silver Platters, identidade), o cache é ganho automático se a estrutura estiver correta.

💰 Como funciona o cache

•Prefixo estável — o que vem antes do ponto de cache não muda entre chamadas.
•Cache write — primeira chamada paga preço normal + pequena taxa de escrita.
•Cache hit — chamadas subsequentes nos 5 min pagam 10% do preço original.
•Desconto na prática — CLAUDE.md de 10K tokens × 100 chamadas/dia = R$X vs R$X/10.

📐 Ordem do contexto para máximo cache hit

1 Sistema / identidade (mais estável — muda raramente)

2 Silver Platters / contexto base (muda diariamente)

3 Histórico de conversa (muda a cada turno)

4 Mensagem do usuário (mais dinâmica — nunca cacheada)

📐 Os Three Rs da Anthropic

Em setembro de 2025, a Anthropic publicou os princípios do Context Engineering em três regras simples: Right Context, Right Time, Right Format. Uma heurística que cabe na cabeça e cobre 90% das decisões de design de contexto.

📐 Os Three Rs

1. Right Context (contexto certo)

Só o que é relevante para a tarefa atual. Não "tudo que pode ser útil" — o que é útil agora.

Exemplo: para analisar campanha de marketing, injete marketing.md — não financeiro.md, não contratos.md.

2. Right Time (momento certo)

Carregar quando o agente precisa, não antes. Just-in-time, não eager loading.

Exemplo: Silver Platter de cliente específico → carregar quando o agente abre aquele caso, não no início da sessão.

3. Right Format (formato certo)

Estrutura que o agente parse eficientemente. Markdown estruturado > texto livre. Tabelas > parágrafos para dados numéricos.

Exemplo: KPIs em tabela Markdown, não em parágrafo narrativo — o agente extrai números mais precisamente.

💡 Aplicando os Three Rs

Antes de cada decisão de contexto, pergunte: "Esse dado é o certo? Estou carregando no momento certo? O formato é o que o agente processa melhor?" Se a resposta for "não" para qualquer uma, redesenhe antes de escalar.

📋 Resumo do Módulo

✓

Prompt engineering ficou obsoleto — era para 1 chamada; agentes fazem centenas. Disciplina diferente.

✓

Janela = recurso escasso — cada token compete por atenção e custa dinheiro

✓

Just-in-time loading — paths em vez de conteúdo; agente carrega quando precisa

✓

Compactação ativa — sumarizar tool outputs, podar histórico obsoleto, manter sinal puro

✓

Prompt caching = 90% desconto — prefixo estável primeiro, conteúdo dinâmico depois

✓

Three Rs — Right Context + Right Time + Right Format. Heurística que governa tudo.

Próximo Módulo:

3.6 — Memória como filesystem

← Módulo Anterior Próximo Módulo →