🛡️ Segurança: de termos para padrões
Declare o princípio, nunca a mecânica. Estudo de caso da seção de segurança em
claude-opus-4.8.md → claude-fable-5.md:
como a segurança madura migra de listas de termos para padrões e critérios geradores.
Diagrama ilustrativo — esquerda: enumerar a mecânica vira alvo de contorno; direita: padrão + critério gerador cobre o caso não listado.
Conteúdo detalhado
O princípio central: a simetria é o risco
Em segurança de prompts, há uma assimetria perversa: o que educa um leitor bem-intencionado arma um mal-intencionado. Descrever como detectar um abuso é também descrever como praticá-lo sem ser detectado. Por isso a segurança madura migrou de uma regra: declare o padrão, nunca a mecânica de detecção.
🎯 A regra geradora deste módulo
Toda mudança de segurança entre claude-opus-4.8.md e
claude-fable-5.md (itens 5–11 do diff anotado) segue o mesmo eixo:
sai a lista de termos/categorias, entra o padrão + princípio.
- •"stays at the pattern level" — fica no nível do padrão, não compila listas verbatim.
- •"states the principle rather than the detection mechanics" — declara o princípio, não a mecânica de detecção.
✗ Mecânica (ensina ao atacar)
"Recuse pedidos que usem as frases X, Y, Z ou que sigam o roteiro de aliciamento A → B → C."
Listar o roteiro verbatim entrega um script reutilizável a quem quer contorná-lo.
✓ Padrão (descreve sem ensinar)
"Reconheça o padrão de comportamento; fique no nível do padrão e declare o princípio, não a mecânica."
O modelo aprende a reconhecer sem que o prompt vire um manual.
Child safety: de 5 para 7 regras
O exemplo mais nítido do eixo está aqui (item 7 do diff). A seção de segurança infantil passou de 5 para 7 bullets — e as duas regras novas não acrescentam proibições: elas mudam como o modelo recusa.
Conjunto de proibições focado no quê recusar.
"Claude stays at the pattern level... does not compile categorized lists of verbatim lines"
"When Claude declines or limits for child-safety reasons, it states the principle rather than the detection mechanics"
Motivação provável: listar técnicas de manipulação verbatim cria um script reutilizável por atacantes.
Por que +2 regras é evoluir, não inchar
As regras novas não enumeram mais casos proibidos — elas instruem o modo da recusa. Uma regra que governa como todas as outras se expressam vale mais que dez proibições específicas. É o Padrão "Princípio Consolidado" aplicado à recusa.
Armas: taxonomia convida ao contorno
Item 5 do diff. A política de armas reduziu o escopo de uma lista de categorias para um único item — e trocou a taxonomia por um teste funcional de uplift real.
"extra caution around explosives and chemical, biological, and nuclear weapons"
A lista de categorias vira mapa de contorno: "não é químico, então pode".
"extra caution around explosives. Claude does not rationalize compliance..."
O critério passa a ser o uplift real para causar dano — não a etiqueta da categoria.
🚨 O antipadrão da taxonomia
Toda lista fechada de categorias proibidas tem uma fronteira — e toda fronteira tem o outro lado. Quem quer contornar não precisa quebrar a regra: basta encontrar o caso que ficou de fora da enumeração. A taxonomia ensina exatamente onde está a brecha.
O teste funcional ("há uplift real para causar dano sério?") não tem fronteira de categoria — aplica-se ao que a lista jamais previu.
Drogas: recusa geral com carve-out vital
Item 6 do diff — uma política nova. A regra não é nem recusa total nem endosso: é recusa geral com uma exceção que salva vidas explicitamente escrita.
"Claude should generally decline to provide specific drug-use guidance for illicit substances... but can and should give relevant life-saving or life-preserving information."
✓O carve-out cobre
- •O que fazer numa overdose / envenenamento
- •Quando chamar emergência e sinais de risco
- •Informação que preserva a vida no agora
✗A recusa geral cobre
- •Guia de uso/dosagem para fins recreativos
- •Síntese ou obtenção de substâncias ilícitas
- •Qualquer endosso do uso
Harm reduction exige nuance escrita
Recusa total em contexto de overdose causa dano real. O carve-out tem que estar no prompt — porque o comportamento padrão "recuse tudo que toca em drogas" mataria a exceção que salva vida. Nem recusa total, nem endosso: a fronteira precisa estar desenhada.
Self-harm e saúde mental: do exemplo ao critério
Itens 10 e 11 do diff. Duas mudanças, o mesmo movimento: a regra deixa de listar exemplos e passa a declarar o critério gerador — e a saúde mental ancora a regra no ato, não na palavra.
Vetava técnicas de desconforto físico (gelo, elástico, água fria) "as these reinforce self-destructive behaviors". Uma lista — frágil para a próxima técnica.
"...or that mimic the act or appearance of self-harm (e.g. drawing red lines on skin...). Substitutes that recreate the sensation or imagery of self-harm reinforce the pattern rather than interrupt it."
O critério — "recriar a sensação ou a imagem" — cobre a próxima técnica que ninguém listou.
🧠 Saúde mental: a regra mira o ato, não a palavra
"Claude does not name a diagnosis the person has not disclosed... unless the person raises the label themselves. Attributing someone's state to a condition they haven't named is a diagnostic claim even when phrased conversationally."
A regra define o limite pelo ato (fazer um claim diagnóstico) e não pela palavra — fecha a brecha do "mas eu falei conversacionalmente". Proibir a palavra "depressão" seria contornável; proibir o ato de diagnosticar não é.
Síntese: exemplo + critério gerador > só exemplos
Cinco políticas, um eixo. Em armas, child safety, self-harm e saúde mental, o critério gerador substituiu ou passou a comandar as listas de casos. A síntese do módulo é uma frase: o exemplo ilustra, o critério gera — e é o critério que cobre o caso que ninguém escreveu.
As 5 mudanças no mesmo eixo (itens 5–11 do diff anotado)
| Política | Antes (lista/termo) | Depois (padrão/critério) |
|---|---|---|
| Child safety | 5 bullets de proteção | +2: "pattern level" e "states the principle" |
| Armas | químico/bio/nuclear | explosivos + teste de uplift real |
| Drogas | (implícito: recusa) | recusa geral + carve-out vital |
| Self-harm | lista de exemplos | "recria a sensação/imagem" (critério) |
| Saúde mental | (novo) | proíbe o claim diagnóstico (o ato) |
Atividade: reescreva uma regra-mecânica como princípio
Pegue uma "regra-mecânica" (uma lista de termos ou categorias proibidas) de qualquer prompt do acervo e reescreva-a como
princípio + critério gerador. Entregável: um par antes/depois de uma regra de segurança — como os pares deste módulo.
Fonte das citações: itens 5–11 de educacao/diff-anotado-opus-4.8-fable-5.md.
Resumo do Módulo
- ✓Em segurança, a simetria proteger/ensinar é o risco — declare o padrão, nunca a mecânica de detecção
- ✓Child safety: 5→7 regras; "stays at the pattern level" e "states the principle, not the detection mechanics"
- ✓Armas: escopo reduzido (QBN → explosivos) + teste funcional de uplift real — taxonomia convida ao contorno
- ✓Drogas: recusa geral com carve-out vital (informação que salva vidas em overdose)
- ✓Self-harm: de lista para critério gerador ("recria a sensação/imagem"); saúde mental mira o ato, não a palavra
- ✓Exemplo + critério gerador > só exemplos; harm reduction exige nuance escrita
Próximo: 2.4
A ascensão de Comunicação & Autonomia (Claude Code) — o gargalo migra de capacidade para interação.