MODULO 2.6

🛡️ Seguranca e guardrails

Este modulo ensina a limitar o sistema certo: escopo de tools, acoes sensiveis, prompt injection, dados nao confiaveis e aprovacao humana.

Topicos

Minutos

Core

Nivel

Sec

Tipo

🔒 Escopo de tools

Toda tool exposta aumenta superficie de risco. O agente nao deve ter acesso maior do que o necessario.

Conceito principal

Permissao minima reduz impacto de falha, abuso ou chamada indevida.

Dica pratica

Separe tools de leitura, escrita e administracao. Nao misture tudo em um endpoint generico.

💥 Acoes destrutivas

Excluir, mover, publicar, pagar e alterar dado critico exigem barreiras adicionais.

Controle bom

Dry-run, confirmacao explicita e trilha de auditoria antes do side effect final.

Risco alto

Permitir execucao irreversivel sem revisao humana ou rollback possivel.

🧨 Prompt injection

Conteudo externo pode tentar reprogramar o agente. O sistema precisa tratar entradas como potencialmente hostis.

Criterio tecnico

Separar instrucoes do sistema de dados externos e limitar o que pode acionar tools.

Falha comum

Confiar em texto raspado, email ou documento como se fosse parte do prompt seguro.

📥 Dados nao confiaveis

API externa, arquivo de usuario, HTML raspado e planilha enviada podem quebrar suposicoes do fluxo.

Conceito principal

Validacao, sanitizacao e limites de schema sao parte da seguranca, nao detalhe de implementacao.

Alerta

Se entrada suja chega ate a etapa decisoria, o risco ja esta dentro do sistema.

👤 Controles humanos

Human in the loop nao e enfeite; e uma decisao de risco, governanca e qualidade operacional.

Usar quando

Ha ambiguidade alta, impacto financeiro, publicacao externa ou acao irreversivel.

Nao confundir

Aprovacao humana nao corrige arquitetura ruim; ela complementa controles tecnicos.

🧪 Laboratorio de seguranca

Fechamento do modulo com checklist de riscos, politica de aprovacao e limites claros de execucao para um caso pratico.

Exercicio

Mapear tools, classificar risco, identificar entradas hostis e definir gates humanos.

Entregavel

Checklist de risco com politica de aprovacao e lista de guardrails implementaveis.

✅ Resumo final

✓ Entendeu principio de permissao minima.

✓ Identificou acoes destrutivas e seus controles.

✓ Viu como prompt injection entra no fluxo.

✓ Tratou dados externos como nao confiaveis.

✓ Saiu com uma politica pratica de guardrails.

Voltar para Trilha Proximo Modulo