Modulo 1.6 - Sensibilidade de Prompts

🔍 O que e Sensibilidade?

Sensibilidade de prompts refere-se ao fato de que pequenas mudancas na formulacao - uma palavra diferente, uma virgula, a ordem das frases - podem levar a outputs completamente diferentes. Isso e tanto um desafio quanto uma oportunidade.

💡 Exemplo Classico

Veja como a mesma pergunta formulada de formas diferentes gera outputs distintos:

"Tell me about AI ethics"

→ Resposta estilo academico, formal

"Explain AI ethics to me"

→ Resposta estilo tutorial, didatico ("explain" e trigger word)

"What are the ethics of AI?"

→ Resposta em lista, bullet points

"AI ethics: an overview"

→ Resposta estilo sumario, overview estruturado

⚡ Trigger Words

Certas palavras ativam modos especificos nos modelos. Trigger words sao como comandos implicitos que alteram o comportamento da resposta.

Trigger Word	Comportamento Ativado	Quando Usar
"Explain"	Modo professor/tutorial	Aprendizado, documentacao
"List"	Modo bullet points	Resumos, opcoes, features
"Step by step"	Modo sequencial numerado	Tutoriais, procedimentos
"Compare"	Modo tabela/contraste	Analise de opcoes
"Briefly"	Modo conciso	Respostas rapidas
"In detail"	Modo expansivo	Analises profundas

💡 Dica Importante

"Step by step" e especialmente poderoso mesmo em modelos nao-reasoning. Ao pedir raciocinio passo a passo, voce reduz significativamente hallucinations porque o modelo e forcado a mostrar o trabalho.

🔄 Prompt Drift

Prompt drift e o fenomeno onde um prompt que funcionava perfeitamente para de funcionar apos updates no modelo. E uma realidade inevitavel ao trabalhar com LLMs - eles mudam, e seus prompts precisam evoluir junto.

🚨 O Problema

So porque funciona hoje, nao significa que vai funcionar amanha.

• Modelos recebem updates silenciosos regularmente
• A "personalidade" pode mudar entre versoes
• Performance em tarefas especificas pode variar

✓ Estrategias de Mitigacao

✓ Prompt Testing: Teste variacoes regularmente
✓ Versionamento: Mantenha historico dos prompts que funcionam
✓ Prompts Evergreen: Foque em estruturas robutas, menos dependentes de quirks
✓ Model Pinning: Em producao, fixe versoes especificas quando possivel

🧪 Prompt Testing

Profissionais de prompt engineering tratam prompts como codigo: testam, iteram, e validam antes de colocar em producao.

🎯 Metodologia de Teste

Crie 5-10 variacoes do prompt

Mude palavras-chave, ordem, estrutura

Teste com diferentes temperatures

0.2, 0.5, 0.8 - veja qual gera resultados mais consistentes

Teste em diferentes modelos da familia

Claude 3.5, 3.7, Haiku - ou GPT-4o, 4.5, etc.

Identifique a configuracao mais robusta

Qual combinacao funciona bem em mais cenarios?

📊 Por que Testar em Multiplos Modelos?

Ao testar em Claude 3.5, 3.7, e Haiku, voce identifica prompts que sao estruturalmente robustos vs prompts que dependem de quirks especificos de uma versao. Prompts robustos sofrem menos com drift.

📋 Estrategias de Mitigacao

Alem do prompt testing, existem outras estrategias para criar prompts mais resilientes a sensibilidade.

🎯 Seja Especifico

Ambiguidade e inimiga da consistencia. Quanto mais especifico, menos espaco para interpretacao.

❌ "Escreva algo sobre vendas"

✓ "Escreva 3 bullet points sobre as vendas do Q4 2025, focando em crescimento percentual"

📝 Formato Consistente

Use sempre a mesma estrutura nos seus prompts. Consistencia gera previsibilidade.

Sempre use:

• Mesmo padrao de headers

• Mesma ordem de secoes

• Mesmos delimitadores

🔄 System Instructions

Use system prompts para definir comportamentos globais que persistem ao longo da conversa.

System instructions definem o "modo de operacao" base do modelo, reduzindo variabilidade.

🧪 Consistency Checks

Periodicamente re-teste seus prompts para detectar drift antes que cause problemas.

Crie uma suite de testes com inputs e outputs esperados. Rode semanalmente ou apos updates.

🔧 Exercicio Pratico

Vamos explorar sensibilidade na pratica para entender como pequenas mudancas afetam outputs.

📝 Desafio: Teste de Sensibilidade

Tarefa: Teste estas 4 variacoes do mesmo pedido e compare os resultados:

1. "Write an email to my boss asking for vacation"

2. "Draft a vacation request email to my manager"

3. "Compose a formal email requesting time off"

4. "Help me ask my boss for vacation in an email"

Observe: Tom, tamanho, formalidade, estrutura de cada resposta.

💡 O que Voce Deve Notar

"Write" tende a ser mais direto
"Draft" pode incluir mais opcoes ou versoes
"Compose formal" sera mais cerimonioso
"Help me" pode ser mais conversacional e incluir explicacoes

📋 Resumo do Modulo

✓

Sensibilidade - Pequenas mudancas = grandes diferencas no output

✓

Trigger Words - "Explain", "list", "step by step" ativam modos especificos

✓

Prompt Drift - O que funciona hoje pode nao funcionar amanha

✓

Prompt Testing - Teste variacoes em diferentes modelos e temperatures

✓

Especificidade - Quanto mais especifico, mais consistente

Proximo Modulo:

1.7 - Comparacao de Modelos: GPT vs Claude vs Gemini - pontos fortes e fracos

← Modulo Anterior Proximo Modulo →