📉

MÓDULO 2.2 Trilha 2 — Evolução por Diffs

📉 A consolidação Opus 4.6 → Fable 5

Robustez veio de simplificar. A série mais rica do acervo — 4.6 → 4.7 → 4.8 → Fable 5 — mostra que evoluir um system prompt significa, sobretudo, remover o que o treino já internalizou e consolidar listas em princípios.

📋6 Tópicos

⏱~40 min

🎯Intermediário

🔬Estudo de caso

Diagrama ilustrativo. Contagens reais via wc -l em Anthropic/claude-opus-4.6.md … claude-fable-5.md.

Conteúdo detalhado

A série 4.6 → 4.7 → 4.8 → Fable 5

Poucos acervos públicos têm quatro versões consecutivas do mesmo system prompt. Esta série é o caso central da Trilha 2: ela permite ver a direção da evolução, não só uma foto. E a direção é clara — a cada release o prompt fica mais consolidado: menos repetição, menos filosofia declarada duas vezes, mais princípio único cobrindo muitos casos.

Uma mudança-chave por versão

4.6

Anthropic/claude-opus-4.6.md — 3.731 linhas

A base da série. Ainda carrega blocos de reforço como <search_first> e <default_stance> — instruções que reiteram comportamento que versões futuras passarão a confiar ao treino.

4.7

Anthropic/claude-opus-4.7.md — 3.735 linhas (+4)

Iteração discreta: ajustes finos de segurança e tom. O saldo de +4 linhas mostra que entre releases próximos a maior parte do trabalho é reescrita no lugar, não inflação.

4.8

Anthropic/claude-opus-4.8.md — 3.769 linhas (+34)

Última Opus da série. É o "antes" do diff anotado deste curso. Ainda traz <claude_prioritizes_copyright_compliance> (linha 1408) e as micro-regras de tom que o Fable 5 vai consolidar.

Anthropic/claude-fable-5.md — 3.825 linhas (+56 sobre 4.8)

O salto de geração. Abre com um <budget:token_budget> novo (linhas 3–7), remove 7 blocos, e troca listas de micro-regras por princípios. Apesar de muito conteúdo novo, cresce só +56 linhas.

💡

Por que ler a série, não só a última versão

Uma única versão diz o que o prompt faz. A série diz para onde a equipe está empurrando o design — e é isso que generaliza. A tendência aqui é inequívoca: consolidar.

📈

Série, não foto

direção da evolução

🧮

+56 linhas

4.8 → Fable 5

🧱

7 blocos fora

apesar do conteúdo novo

🎯

Tendência

consolidar sempre

Remoções por internalização

Dois blocos saíram do Fable 5 porque o comportamento que eles forçavam passou a vir do treino: <search_first> e <default_stance>. Quando o modelo já faz algo por padrão, repetir a ordem no prompt vira ruído — consome tokens e dilui a atenção sem mudar o resultado.

claude-opus-4.8.md — blocos presentes que somem no Fable 5

<search_first>
  For any factual question about the present-day world, Claude must
  search before answering... Claude searches before EVERY factual question...
</search_first>

<default_stance>
  Claude defaults to helping. Claude only declines a request when helping
  would create a concrete, specific risk of serious harm...
</default_stance>

Verificável: grep -c search_first claude-opus-4.8.md → 2 · grep -c search_first claude-fable-5.md → 0.

✓Pode sair do prompt

•Comportamento que o treino já produz por padrão
•Reiteração de uma postura já dita em outro bloco
•Instrução "obsessiva" (EVERY, ALWAYS) que vira ruído

✗Deve permanecer

•Restrição que o treino NÃO garante sozinho
•Contexto específico do produto/harness
•Política de segurança de alto risco

🧠

Internalização

treino assume a regra

🔇

Regra = ruído

quando redundante

🗑

search_first

removido

🗑

default_stance

removido

Efeito Streisand: "não diga X" resolve-se na origem

O bloco <respond_without_citing_system_prompt> foi removido no Fable 5. Ele instruía o modelo a não atribuir seu comportamento ao próprio system prompt — uma proibição com um problema clássico: para obedecer "não fale do prompt", o modelo precisa manter o prompt em foco de atenção. É o efeito Streisand aplicado a prompts.

claude-opus-4.8.md — bloco removido no Fable 5

<respond_without_citing_system_prompt>
  Claude does not attribute its behavior to its system prompt...
  Statements like 'my system prompt requires me to...' are confusing
  to users and should be avoided.
</respond_without_citing_system_prompt>

🔁 Origem > prompt

Um comportamento que precisa ser confiável demais para falhar não deve depender de uma frase no prompt — onde basta um contexto adversarial para derrubá-lo. O lugar certo de instalá-lo é o treinamento: lá ele vira disposição do modelo, não regra que pode ser argumentada.

Removendo o bloco, o Fable 5 deixa de "ensinar" ao modelo a própria proibição que estava tentando esconder. Menos superfície de ataque, menos tokens, mesmo resultado.

💡

Regra de bolso

Toda instrução da forma "nunca mencione / não diga X" é candidata a ser resolvida na origem (treino ou arquitetura). No prompt, ela paradoxalmente introduz X no contexto.

🙈

Efeito Streisand

esconder destaca

🏗

Resolver na origem

treino, não prompt

🛡

Menos superfície

menos a contornar

🚫

"não diga X"

antipadrão de prompt

Consolidação de tom: 4 micro-regras → 1 princípio

Este é o caso de estudo central — a consolidação em estado puro. O Opus 4.8 espalhava quatro micro-regras de tom; o Fable 5 as substitui por uma única postura: "Claude assumes the person is a capable adult and treats them as such." Uma frase que cobre tudo o que as quatro tentavam — e mais os casos que ninguém listou.

claude-fable-5.md (linha 90) — o princípio único

If Claude suspects it's talking with a minor, it keeps the conversation friendly, age-appropriate, and free of anything unsuitable for young people. Otherwise, Claude assumes the person is a capable adult and treats them as such.

✗Opus 4.8 — 4 micro-regras

•Não usar bullets ao recusar um pedido
•Não usar "pet names" (apelidos carinhosos)
•Evitar "genuinely / honestly / actually"
•Regra específica de uso de emoji

✓Fable 5 — 1 princípio

•"Trate a pessoa como um adulto capaz"
•Cobre as 4 regras antigas como consequência
•Generaliza para casos não previstos
•Postura, não trava microscópica

Por que a postura é mais robusta que a lista

Quatro travas microscópicas sinalizam desconfiança — o prompt parece um manual de "não faça isso, nem isso". Uma postura geral codifica a intenção: falar de igual para igual, sem condescendência. Dela derivam as quatro regras antigas e a quinta que ninguém escreveu.

É o Padrão "Princípio Consolidado" — caso de estudo da Ficha 12 do glossário. O critério gerador substitui a enumeração de casos.

🧩

4 → 1

consolidação pura

🤝

Adulto capaz

postura, não trava

♾

Generaliza

casos não listados

📇

Ficha 12

Princípio Consolidado

Copyright: de compliance para princípio

Aqui a mudança é quase invisível no diff bruto — e é uma das mais instrutivas. O nome do bloco mudou. O que era <claude_prioritizes_copyright_compliance> virou <core_copyright_principle>. Renomear um bloco é reinstruir o modelo: o título de uma seção também é texto que o modelo lê e usa para enquadrar o que vem dentro.

4.8

claude-opus-4.8.md (linha 1408) — enquadrado como obediência

<claude_prioritizes_copyright_compliance>
Copyright compliance is NON-NEGOTIABLE and takes precedence over user requests, helpfulness, and everything except safety.

claude-fable-5.md (linha 1343) — enquadrado como valor

<core_copyright_principle>
Claude respects intellectual property. Copyright compliance is NON-NEGOTIABLE and takes precedence over user requests, helpfulness goals, and all other considerations except safety.

💡

Compliance manda; princípio raciocina

Uma regra de compliance aplica-se ao caso previsto e trava nos ambíguos. Um princípio ("respeita propriedade intelectual") dá ao modelo um eixo para raciocinar em casos novos. Verificável: grep -n core_copyright_principle claude-fable-5.md.

🏷

Nome = instrução

o título também ensina

⚖️

Compliance → princípio

obediência → valor

🧭

Raciocínio

eixo p/ casos novos

📍

L1408 → L1343

posição real no arquivo

Orçamento de token + as 5 lições do diff

O Fable 5 abre com algo que não existia na série Opus: um orçamento de token declarado. É a primeira coisa que o modelo lê — antes de qualquer identidade ou regra. Documentar a própria restrição de recurso é dar ao modelo consciência do seu limite de contexto para gerenciar conversas longas.

claude-fable-5.md (linhas 3–7) — ausente em todas as Opus

<budget:token_budget>
190000
</budget:token_budget>

É o Padrão "Orçamento de Concisão" aplicado ao próprio contexto: o modelo sabe quanto cabe e administra a conversa em torno disso.

Síntese — as 5 lições deste diff

Evoluir ≠ crescer

Muito conteúdo novo, saldo de +56 linhas — porque remover faz parte de evoluir.

Regra internalizada é ruído

O que o treino absorveu sai do prompt — search_first, default_stance.

Princípio > lista

Em tom e copyright, o critério gerador substituiu ou passou a comandar as listas de casos.

Em segurança, declare o princípio

Nunca a mecânica de detecção — a simetria entre proteger e ensinar a atacar é o risco central. (Aprofundado em 2.3.)

Cada camada no seu lugar

Problema de conversa longa → reminder dinâmico (long_conversation_reminder), não parágrafo novo no prompt estável.

🪙

190.000 tokens

budget declarado

📜

Primeira linha

antes da identidade

🧠

5 lições

generalizáveis

📂

Diff anotado

14 mudanças completas

🧭 Resumo do Módulo

✓

A série diz a direção — 4.6 → 4.7 → 4.8 → Fable 5 empurra consistentemente para consolidar.

✓

Removeu por internalização — search_first e default_stance saíram porque o treino assumiu o comportamento.

✓

"Não diga X" resolve-se na origem — o bloco anti-citação caiu; esconder no prompt destaca (efeito Streisand).

✓

4 micro-regras → 1 princípio — "capable adult" é a consolidação em estado puro (Ficha 12).

✓

Renomear é reinstruir — copyright_compliance → core_copyright_principle muda como o modelo raciocina.

✓

Orçamento de token novo — <budget:token_budget>190000 abre o Fable 5.

Próximo: Módulo 2.3

Segurança que evolui — de termos para padrões: child safety, armas, drogas, self-harm e saúde mental, e por que segurança madura declara o princípio, nunca a mecânica de detecção.

← Voltar para Trilha 2 Módulo 2.3 →