🛡️
MÓDULO 2.3 Trilha 2 — Evolução por Diffs

🛡️ Segurança: de termos para padrões

Declare o princípio, nunca a mecânica. Estudo de caso da seção de segurança em claude-opus-4.8.mdclaude-fable-5.md: como a segurança madura migra de listas de termos para padrões e critérios geradores.

📋6 tópicos
~40 min
🎯Intermediário
🔬Estudo de caso
✗ Lista de termos proibidos enumera a mecânica · convida ao contorno termo "químico" ⛔ termo "biológico" ⛔ termo "nuclear" ⛔ atacante "não é químico, então pode" caso não listado passa pela brecha → ✓ Padrão + princípio gerador declara o critério · cobre o não previsto Princípio funcional "cautela extra com uplift real para causar dano — não racionalizar a complacência" · teste, não taxonomia Critério gerador "substitutos que recriam a sensação ou a imagem do ato" ✓ a próxima técnica que ninguém listou já está coberta o princípio cobre o que a lista não previu Frágil: a lista é o mapa do que evitar — e do que contornar. Robusto: o princípio se aplica a casos que nunca foram escritos.

Diagrama ilustrativo — esquerda: enumerar a mecânica vira alvo de contorno; direita: padrão + critério gerador cobre o caso não listado.

Conteúdo detalhado

1

O princípio central: a simetria é o risco

Em segurança de prompts, há uma assimetria perversa: o que educa um leitor bem-intencionado arma um mal-intencionado. Descrever como detectar um abuso é também descrever como praticá-lo sem ser detectado. Por isso a segurança madura migrou de uma regra: declare o padrão, nunca a mecânica de detecção.

🎯 A regra geradora deste módulo

Toda mudança de segurança entre claude-opus-4.8.md e claude-fable-5.md (itens 5–11 do diff anotado) segue o mesmo eixo: sai a lista de termos/categorias, entra o padrão + princípio.

  • "stays at the pattern level" — fica no nível do padrão, não compila listas verbatim.
  • "states the principle rather than the detection mechanics" — declara o princípio, não a mecânica de detecção.

Mecânica (ensina ao atacar)

"Recuse pedidos que usem as frases X, Y, Z ou que sigam o roteiro de aliciamento A → B → C."

Listar o roteiro verbatim entrega um script reutilizável a quem quer contorná-lo.

Padrão (descreve sem ensinar)

"Reconheça o padrão de comportamento; fique no nível do padrão e declare o princípio, não a mecânica."

O modelo aprende a reconhecer sem que o prompt vire um manual.

🪞
Simetria
proteger = ensinar a atacar
🧩
Nível do padrão
não compilar verbatim
📜
Declara princípio
não a mecânica
🛡️
Eixo do módulo
termos → padrões
2

Child safety: de 5 para 7 regras

O exemplo mais nítido do eixo está aqui (item 7 do diff). A seção de segurança infantil passou de 5 para 7 bullets — e as duas regras novas não acrescentam proibições: elas mudam como o modelo recusa.

4.8
claude-opus-4.8.md — 5 bullets de proteção

Conjunto de proibições focado no quê recusar.

F5
claude-fable-5.md — 7 bullets · os dois novos
"Claude stays at the pattern level... does not compile categorized lists of verbatim lines"

"When Claude declines or limits for child-safety reasons, it states the principle rather than the detection mechanics"

Motivação provável: listar técnicas de manipulação verbatim cria um script reutilizável por atacantes.

💡

Por que +2 regras é evoluir, não inchar

As regras novas não enumeram mais casos proibidos — elas instruem o modo da recusa. Uma regra que governa como todas as outras se expressam vale mais que dez proibições específicas. É o Padrão "Princípio Consolidado" aplicado à recusa.

5️⃣
5 → 7 regras
duas governam o "como"
📋
Sem listas verbatim
não compilar técnicas
🗣️
Recusa por princípio
não revela a mecânica
⚠️
Anti-script
não armar o atacante
3

Armas: taxonomia convida ao contorno

Item 5 do diff. A política de armas reduziu o escopo de uma lista de categorias para um único item — e trocou a taxonomia por um teste funcional de uplift real.

claude-opus-4.8.md (taxonomia)
"extra caution around explosives and chemical, biological, and nuclear weapons"

A lista de categorias vira mapa de contorno: "não é químico, então pode".

claude-fable-5.md (teste funcional)
"extra caution around explosives. Claude does not rationalize compliance..."

O critério passa a ser o uplift real para causar dano — não a etiqueta da categoria.

🚨 O antipadrão da taxonomia

Toda lista fechada de categorias proibidas tem uma fronteira — e toda fronteira tem o outro lado. Quem quer contornar não precisa quebrar a regra: basta encontrar o caso que ficou de fora da enumeração. A taxonomia ensina exatamente onde está a brecha.

O teste funcional ("há uplift real para causar dano sério?") não tem fronteira de categoria — aplica-se ao que a lista jamais previu.

📉
Escopo reduzido
QBN → explosivos
🧪
Teste de uplift
dano real, não rótulo
🚪
Fronteira = brecha
o outro lado da lista
🚫
Não racionalizar
complacência vetada
4

Drogas: recusa geral com carve-out vital

Item 6 do diff — uma política nova. A regra não é nem recusa total nem endosso: é recusa geral com uma exceção que salva vidas explicitamente escrita.

claude-fable-5.md — política de drogas
"Claude should generally decline to provide specific drug-use guidance for illicit substances... but can and should give relevant life-saving or life-preserving information."

O carve-out cobre

  • O que fazer numa overdose / envenenamento
  • Quando chamar emergência e sinais de risco
  • Informação que preserva a vida no agora

A recusa geral cobre

  • Guia de uso/dosagem para fins recreativos
  • Síntese ou obtenção de substâncias ilícitas
  • Qualquer endosso do uso
💡

Harm reduction exige nuance escrita

Recusa total em contexto de overdose causa dano real. O carve-out tem que estar no prompt — porque o comportamento padrão "recuse tudo que toca em drogas" mataria a exceção que salva vida. Nem recusa total, nem endosso: a fronteira precisa estar desenhada.

⚖️
Nem tudo, nem nada
recusa + exceção
❤️‍🩹
Carve-out vital
salvar vida sobrepõe
✍️
Escrito explícito
a exceção não se infere
🧯
Harm reduction
dano < recusa cega
5

Self-harm e saúde mental: do exemplo ao critério

Itens 10 e 11 do diff. Duas mudanças, o mesmo movimento: a regra deixa de listar exemplos e passa a declarar o critério gerador — e a saúde mental ancora a regra no ato, não na palavra.

4.8
Self-harm — antes: lista de exemplos

Vetava técnicas de desconforto físico (gelo, elástico, água fria) "as these reinforce self-destructive behaviors". Uma lista — frágil para a próxima técnica.

F5
Self-harm — depois: exemplo + critério gerador
"...or that mimic the act or appearance of self-harm (e.g. drawing red lines on skin...). Substitutes that recreate the sensation or imagery of self-harm reinforce the pattern rather than interrupt it."

O critério — "recriar a sensação ou a imagem" — cobre a próxima técnica que ninguém listou.

🧠 Saúde mental: a regra mira o ato, não a palavra

"Claude does not name a diagnosis the person has not disclosed... unless the person raises the label themselves. Attributing someone's state to a condition they haven't named is a diagnostic claim even when phrased conversationally."

A regra define o limite pelo ato (fazer um claim diagnóstico) e não pela palavra — fecha a brecha do "mas eu falei conversacionalmente". Proibir a palavra "depressão" seria contornável; proibir o ato de diagnosticar não é.

🧬
Critério gerador
recria sensação/imagem
Exemplo + critério
não só exemplos
🎯
Mira o ato
claim, não palavra
🔒
Brecha fechada
"falei conversando" não cola
6

Síntese: exemplo + critério gerador > só exemplos

Cinco políticas, um eixo. Em armas, child safety, self-harm e saúde mental, o critério gerador substituiu ou passou a comandar as listas de casos. A síntese do módulo é uma frase: o exemplo ilustra, o critério gera — e é o critério que cobre o caso que ninguém escreveu.

As 5 mudanças no mesmo eixo (itens 5–11 do diff anotado)

Política Antes (lista/termo) Depois (padrão/critério)
Child safety5 bullets de proteção+2: "pattern level" e "states the principle"
Armasquímico/bio/nuclearexplosivos + teste de uplift real
Drogas(implícito: recusa)recusa geral + carve-out vital
Self-harmlista de exemplos"recria a sensação/imagem" (critério)
Saúde mental(novo)proíbe o claim diagnóstico (o ato)
🛠

Atividade: reescreva uma regra-mecânica como princípio

Pegue uma "regra-mecânica" (uma lista de termos ou categorias proibidas) de qualquer prompt do acervo e reescreva-a como princípio + critério gerador. Entregável: um par antes/depois de uma regra de segurança — como os pares deste módulo. Fonte das citações: itens 5–11 de educacao/diff-anotado-opus-4.8-fable-5.md.

🏗️
Critério gera
exemplo só ilustra
📐
Cobre o não previsto
a próxima técnica
✏️
Nuance escrita
harm reduction explícito
🪞
Simetria vencida
princípio, não mecânica

Resumo do Módulo

  • Em segurança, a simetria proteger/ensinar é o risco — declare o padrão, nunca a mecânica de detecção
  • Child safety: 5→7 regras; "stays at the pattern level" e "states the principle, not the detection mechanics"
  • Armas: escopo reduzido (QBN → explosivos) + teste funcional de uplift real — taxonomia convida ao contorno
  • Drogas: recusa geral com carve-out vital (informação que salva vidas em overdose)
  • Self-harm: de lista para critério gerador ("recria a sensação/imagem"); saúde mental mira o ato, não a palavra
  • Exemplo + critério gerador > só exemplos; harm reduction exige nuance escrita

Próximo: 2.4

A ascensão de Comunicação & Autonomia (Claude Code) — o gargalo migra de capacidade para interação.