๐ก๏ธ Seguranca e guardrails
Este modulo ensina a limitar o sistema certo: escopo de tools, acoes sensiveis, prompt injection, dados nao confiaveis e aprovacao humana.
๐ Escopo de tools
Toda tool exposta aumenta superficie de risco. O agente nao deve ter acesso maior do que o necessario.
Conceito principal
Permissao minima reduz impacto de falha, abuso ou chamada indevida.
Dica pratica
Separe tools de leitura, escrita e administracao. Nao misture tudo em um endpoint generico.
๐ฅ Acoes destrutivas
Excluir, mover, publicar, pagar e alterar dado critico exigem barreiras adicionais.
Controle bom
Dry-run, confirmacao explicita e trilha de auditoria antes do side effect final.
Risco alto
Permitir execucao irreversivel sem revisao humana ou rollback possivel.
๐งจ Prompt injection
Conteudo externo pode tentar reprogramar o agente. O sistema precisa tratar entradas como potencialmente hostis.
Criterio tecnico
Separar instrucoes do sistema de dados externos e limitar o que pode acionar tools.
Falha comum
Confiar em texto raspado, email ou documento como se fosse parte do prompt seguro.
๐ฅ Dados nao confiaveis
API externa, arquivo de usuario, HTML raspado e planilha enviada podem quebrar suposicoes do fluxo.
Conceito principal
Validacao, sanitizacao e limites de schema sao parte da seguranca, nao detalhe de implementacao.
Alerta
Se entrada suja chega ate a etapa decisoria, o risco ja esta dentro do sistema.
๐ค Controles humanos
Human in the loop nao e enfeite; e uma decisao de risco, governanca e qualidade operacional.
Usar quando
Ha ambiguidade alta, impacto financeiro, publicacao externa ou acao irreversivel.
Nao confundir
Aprovacao humana nao corrige arquitetura ruim; ela complementa controles tecnicos.
๐งช Laboratorio de seguranca
Fechamento do modulo com checklist de riscos, politica de aprovacao e limites claros de execucao para um caso pratico.
Exercicio
Mapear tools, classificar risco, identificar entradas hostis e definir gates humanos.
Entregavel
Checklist de risco com politica de aprovacao e lista de guardrails implementaveis.
โ Resumo final
โ Entendeu principio de permissao minima.
โ Identificou acoes destrutivas e seus controles.
โ Viu como prompt injection entra no fluxo.
โ Tratou dados externos como nao confiaveis.
โ Saiu com uma politica pratica de guardrails.