Voltar ao Masterclass
MÓDULO 2 DECISÃO

Design de Contexto em Escala

Aqui é decisão estratégica, não uso operacional. Aprenda quando NÃO usar contexto.

1

Estratégias de Contexto em Larga Escala

Decisões arquiteturais

O Desafio da Escala

Em sistemas de produção com milhares de usuários, cada decisão de contexto impacta custo, latência e qualidade. O arquiteto define políticas, não prompts.

💰
Custo por Token

100K tokens/req = $$$$

⏱️
Latência

Mais contexto = mais lento

🎯
Relevância

Mais != melhor

Estratégias de Alocação

1
Static Allocation

Contexto fixo por tipo de request. Previsível, mas inflexível.

2
Dynamic Allocation

Contexto baseado em complexidade da query. Eficiente, mas complexo.

3
Tiered Allocation

Níveis de contexto (basic, standard, premium). Balanceado.

2

Decidir: Long Context, RAG ou Híbrido

Framework de decisão

Árvore de Decisão

Dados mudam frequentemente?
├─ SIM → Dados > 1M tokens?
│        ├─ SIM → RAG obrigatório
│        └─ NÃO → RAG ou cache curto
│
└─ NÃO → Dados cabem no contexto?
         ├─ SIM → Análise relacional necessária?
         │        ├─ SIM → LONG CONTEXT
         │        └─ NÃO → Qualquer abordagem
         │
         └─ NÃO → Precisão máxima necessária?
                  ├─ SIM → HÍBRIDO (long + RAG seletivo)
                  └─ NÃO → RAG puro
Long Context
  • • Dados estáticos
  • • Análise profunda
  • • Relações complexas
  • • Custo por query alto OK
RAG
  • • Dados dinâmicos
  • • Base muito grande
  • • Multi-tenant
  • • Custo por query crítico
Híbrido
  • • Base fixa + dados dinâmicos
  • • Precisão máxima
  • • Custo balanceado
  • • Complexidade OK
3

Custos Cognitivos e Técnicos do Contexto

O preço escondido

Custos Técnicos

  • 💵 Custo financeiro ($/1K tokens)
  • ⏱️ Latência aumentada
  • 📊 Throughput reduzido
  • 🔧 Complexidade operacional

Custos Cognitivos

  • 🧠 "Lost in the middle" effect
  • 🎯 Diluição de atenção
  • Conflitos de informação
  • 🔀 Inconsistências emergentes

Calculadora de Trade-offs

Contexto Custo/req Latência Precisão
10K tokens ~$0.03 ~1s Base
50K tokens ~$0.15 ~3s +15%
100K tokens ~$0.30 ~6s +20%
200K tokens ~$0.60 ~12s +22%*

* Retornos marginais decrescentes após ~100K

4

Governança de Contexto

Políticas organizacionais

Governança define quem decide o quê sobre contexto. Sem governança, cada desenvolvedor toma decisões inconsistentes.

Políticas de Acesso
  • • Quem pode adicionar contexto?
  • • Níveis de sensibilidade
  • • Audit trail obrigatório
Políticas de Qualidade
  • • Validação antes de injeção
  • • Freshness requirements
  • • Formato e estrutura
Políticas de Budget
  • • Limites por camada
  • • Quotas por time/projeto
  • • Alertas de excesso
Políticas de Conflito
  • • Prioridade entre fontes
  • • Resolução automática vs manual
  • • Escalação
5

Políticas de Persistência e Descarte

Ciclo de vida do contexto

Estratégias de Ciclo de Vida

Ephemeral
Request-scoped
Session
Conversation-scoped
Persistent
User/tenant-scoped
Global
System-wide

Políticas de Descarte (Eviction)

LRU (Least Recently Used)

Remove contexto não acessado há mais tempo

Priority-based

Remove por prioridade definida

TTL (Time-to-Live)

Remove após tempo definido

Summarization

Comprime em vez de remover

6

Falhas Sistêmicas Causadas por Contexto

Modos de falha

💥
Context Overflow

Sistema tenta injetar mais contexto do que o limite permite.

Mitigação: Budget enforcement + graceful degradation

🔀
Context Contamination

Dados de um usuário vazam para contexto de outro.

Mitigação: Strict isolation + tenant boundaries

Context Conflict

Informações contraditórias de múltiplas fontes.

Mitigação: Conflict resolution rules + source priority

📉
Context Staleness

Contexto desatualizado leva a respostas incorretas.

Mitigação: TTL policies + freshness validation

Anterior
Módulo 1: Arquitetura
Próximo
Módulo 3: Governança de Skills

Baixar este módulo

Salve para estudar offline