🛡️

MÓDULO 2.3 Trilha 2 — Evolução por Diffs

🛡️ Segurança: de termos para padrões

Declare o princípio, nunca a mecânica. Estudo de caso da seção de segurança em claude-opus-4.8.md → claude-fable-5.md: como a segurança madura migra de listas de termos para padrões e critérios geradores.

📋6 tópicos

⏱~40 min

🎯Intermediário

🔬Estudo de caso

Diagrama ilustrativo — esquerda: enumerar a mecânica vira alvo de contorno; direita: padrão + critério gerador cobre o caso não listado.

Conteúdo detalhado

O princípio central: a simetria é o risco

Em segurança de prompts, há uma assimetria perversa: o que educa um leitor bem-intencionado arma um mal-intencionado. Descrever como detectar um abuso é também descrever como praticá-lo sem ser detectado. Por isso a segurança madura migrou de uma regra: declare o padrão, nunca a mecânica de detecção.

🎯 A regra geradora deste módulo

Toda mudança de segurança entre claude-opus-4.8.md e claude-fable-5.md (itens 5–11 do diff anotado) segue o mesmo eixo: sai a lista de termos/categorias, entra o padrão + princípio.

•"stays at the pattern level" — fica no nível do padrão, não compila listas verbatim.
•"states the principle rather than the detection mechanics" — declara o princípio, não a mecânica de detecção.

✗ Mecânica (ensina ao atacar)

"Recuse pedidos que usem as frases X, Y, Z ou que sigam o roteiro de aliciamento A → B → C."

Listar o roteiro verbatim entrega um script reutilizável a quem quer contorná-lo.

✓ Padrão (descreve sem ensinar)

"Reconheça o padrão de comportamento; fique no nível do padrão e declare o princípio, não a mecânica."

O modelo aprende a reconhecer sem que o prompt vire um manual.

🪞

Simetria

proteger = ensinar a atacar

🧩

Nível do padrão

não compilar verbatim

📜

Declara princípio

não a mecânica

🛡️

Eixo do módulo

termos → padrões

Child safety: de 5 para 7 regras

O exemplo mais nítido do eixo está aqui (item 7 do diff). A seção de segurança infantil passou de 5 para 7 bullets — e as duas regras novas não acrescentam proibições: elas mudam como o modelo recusa.

4.8

claude-opus-4.8.md — 5 bullets de proteção

Conjunto de proibições focado no quê recusar.

claude-fable-5.md — 7 bullets · os dois novos

"Claude stays at the pattern level... does not compile categorized lists of verbatim lines"

"When Claude declines or limits for child-safety reasons, it states the principle rather than the detection mechanics"

Motivação provável: listar técnicas de manipulação verbatim cria um script reutilizável por atacantes.

💡

Por que +2 regras é evoluir, não inchar

As regras novas não enumeram mais casos proibidos — elas instruem o modo da recusa. Uma regra que governa como todas as outras se expressam vale mais que dez proibições específicas. É o Padrão "Princípio Consolidado" aplicado à recusa.

5️⃣

5 → 7 regras

duas governam o "como"

📋

Sem listas verbatim

não compilar técnicas

🗣️

Recusa por princípio

não revela a mecânica

⚠️

Anti-script

não armar o atacante

Armas: taxonomia convida ao contorno

Item 5 do diff. A política de armas reduziu o escopo de uma lista de categorias para um único item — e trocou a taxonomia por um teste funcional de uplift real.

claude-opus-4.8.md (taxonomia)

"extra caution around explosives and chemical, biological, and nuclear weapons"

A lista de categorias vira mapa de contorno: "não é químico, então pode".

claude-fable-5.md (teste funcional)

"extra caution around explosives. Claude does not rationalize compliance..."

O critério passa a ser o uplift real para causar dano — não a etiqueta da categoria.

🚨 O antipadrão da taxonomia

Toda lista fechada de categorias proibidas tem uma fronteira — e toda fronteira tem o outro lado. Quem quer contornar não precisa quebrar a regra: basta encontrar o caso que ficou de fora da enumeração. A taxonomia ensina exatamente onde está a brecha.

O teste funcional ("há uplift real para causar dano sério?") não tem fronteira de categoria — aplica-se ao que a lista jamais previu.

📉

Escopo reduzido

QBN → explosivos

🧪

Teste de uplift

dano real, não rótulo

🚪

Fronteira = brecha

o outro lado da lista

🚫

Não racionalizar

complacência vetada

Drogas: recusa geral com carve-out vital

Item 6 do diff — uma política nova. A regra não é nem recusa total nem endosso: é recusa geral com uma exceção que salva vidas explicitamente escrita.

claude-fable-5.md — política de drogas

"Claude should generally decline to provide specific drug-use guidance for illicit substances... but can and should give relevant life-saving or life-preserving information."

✓O carve-out cobre

•O que fazer numa overdose / envenenamento
•Quando chamar emergência e sinais de risco
•Informação que preserva a vida no agora

✗A recusa geral cobre

•Guia de uso/dosagem para fins recreativos
•Síntese ou obtenção de substâncias ilícitas
•Qualquer endosso do uso

💡

Harm reduction exige nuance escrita

Recusa total em contexto de overdose causa dano real. O carve-out tem que estar no prompt — porque o comportamento padrão "recuse tudo que toca em drogas" mataria a exceção que salva vida. Nem recusa total, nem endosso: a fronteira precisa estar desenhada.

⚖️

Nem tudo, nem nada

recusa + exceção

❤️‍🩹

Carve-out vital

salvar vida sobrepõe

✍️

Escrito explícito

a exceção não se infere

🧯

Harm reduction

dano < recusa cega

Self-harm e saúde mental: do exemplo ao critério

Itens 10 e 11 do diff. Duas mudanças, o mesmo movimento: a regra deixa de listar exemplos e passa a declarar o critério gerador — e a saúde mental ancora a regra no ato, não na palavra.

4.8

Self-harm — antes: lista de exemplos

Vetava técnicas de desconforto físico (gelo, elástico, água fria) "as these reinforce self-destructive behaviors". Uma lista — frágil para a próxima técnica.

Self-harm — depois: exemplo + critério gerador

"...or that mimic the act or appearance of self-harm (e.g. drawing red lines on skin...). Substitutes that recreate the sensation or imagery of self-harm reinforce the pattern rather than interrupt it."

O critério — "recriar a sensação ou a imagem" — cobre a próxima técnica que ninguém listou.

🧠 Saúde mental: a regra mira o ato, não a palavra

"Claude does not name a diagnosis the person has not disclosed... unless the person raises the label themselves. Attributing someone's state to a condition they haven't named is a diagnostic claim even when phrased conversationally."

A regra define o limite pelo ato (fazer um claim diagnóstico) e não pela palavra — fecha a brecha do "mas eu falei conversacionalmente". Proibir a palavra "depressão" seria contornável; proibir o ato de diagnosticar não é.

🧬

Critério gerador

recria sensação/imagem

➕

Exemplo + critério

não só exemplos

🎯

Mira o ato

claim, não palavra

🔒

Brecha fechada

"falei conversando" não cola

Síntese: exemplo + critério gerador > só exemplos

Cinco políticas, um eixo. Em armas, child safety, self-harm e saúde mental, o critério gerador substituiu ou passou a comandar as listas de casos. A síntese do módulo é uma frase: o exemplo ilustra, o critério gera — e é o critério que cobre o caso que ninguém escreveu.

As 5 mudanças no mesmo eixo (itens 5–11 do diff anotado)

Política	Antes (lista/termo)	Depois (padrão/critério)
Child safety	5 bullets de proteção	+2: "pattern level" e "states the principle"
Armas	químico/bio/nuclear	explosivos + teste de uplift real
Drogas	(implícito: recusa)	recusa geral + carve-out vital
Self-harm	lista de exemplos	"recria a sensação/imagem" (critério)
Saúde mental	(novo)	proíbe o claim diagnóstico (o ato)

🛠

Atividade: reescreva uma regra-mecânica como princípio

Pegue uma "regra-mecânica" (uma lista de termos ou categorias proibidas) de qualquer prompt do acervo e reescreva-a como princípio + critério gerador. Entregável: um par antes/depois de uma regra de segurança — como os pares deste módulo. Fonte das citações: itens 5–11 de educacao/diff-anotado-opus-4.8-fable-5.md.

🏗️

Critério gera

exemplo só ilustra

📐

Cobre o não previsto

a próxima técnica

✏️

Nuance escrita

harm reduction explícito

🪞

Simetria vencida

princípio, não mecânica

Resumo do Módulo

✓Em segurança, a simetria proteger/ensinar é o risco — declare o padrão, nunca a mecânica de detecção
✓Child safety: 5→7 regras; "stays at the pattern level" e "states the principle, not the detection mechanics"
✓Armas: escopo reduzido (QBN → explosivos) + teste funcional de uplift real — taxonomia convida ao contorno

✓Drogas: recusa geral com carve-out vital (informação que salva vidas em overdose)
✓Self-harm: de lista para critério gerador ("recria a sensação/imagem"); saúde mental mira o ato, não a palavra
✓Exemplo + critério gerador > só exemplos; harm reduction exige nuance escrita

Próximo: 2.4

A ascensão de Comunicação & Autonomia (Claude Code) — o gargalo migra de capacidade para interação.

Próximo: 2.4 Comunicação & Autonomia→ ← Voltar à Trilha 2