Trilha 4 — Como Criar (o loop)

4.1~45 min

🌱 Do intent ao primeiro draft

Capturar o que a pessoa quer, pesquisar o suficiente e transformar isso num SKILL.md que já nasce bem escrito — imperativo, com o porquê, sem MUSTs gritando.

O que é:

Antes de escrever qualquer linha, o skill-creator faz 4 perguntas: o que a skill habilita o Claude a fazer, quando ela deve disparar, qual o formato de saída esperado e se vale montar test cases.

Por que aprender:

A maior parte das skills ruins nasce de intent mal definido. Se a conversa já contém o workflow ("transforma isso numa skill"), extraia das mensagens primeiro e só peça o que falta.

Conceitos-chave:

habilita o quê · quando dispara · formato de saída · precisa de testes? · confirmar antes de seguir

O que é:

Perguntar proativamente sobre edge cases, formatos de entrada e saída, arquivos de exemplo, critérios de sucesso e dependências. Pesquisar em paralelo via subagents quando houver MCPs úteis.

Por que aprender:

Chegar com contexto pronto reduz o atrito para o usuário. Só escreva test prompts depois de fechar essa parte — entrevista mal feita gera skill que cobre o caso feliz e quebra no resto.

Conceitos-chave:

edge cases · formatos in/out · arquivos exemplo · critérios de sucesso · dependências · research paralela

O que é:

A partir da entrevista, preencher name (identificador), description (gatilho: o que faz E quando usar) e o corpo Markdown com as instruções. Todo "quando usar" vai na description, não no corpo.

Por que aprender:

A description é o mecanismo primário de disparo. Como o Claude tende a subdisparar, ela deve ser um pouco "pushy" — listar contextos concretos onde a skill deve entrar mesmo sem o usuário pedir explicitamente.

Conceitos-chave:

name · description pushy · o que + quando · corpo <500 linhas · compatibility (raro)

O que é:

Escrever no imperativo, usar theory of mind, explicar o porquê de cada instrução em vez de empilhar MUSTs em maiúscula, e manter a skill geral em vez de colada nos exemplos.

Por que aprender:

LLMs de hoje são espertos: com o porquê, vão além da instrução rote e resolvem o caso real. ALWAYS/NEVER em caixa-alta é yellow flag — reformule explicando a razão.

Conceitos-chave:

imperativo · theory of mind · explicar o porquê · evitar MUSTs · skill geral, não estreita

O que é:

Escrever um primeiro draft sem travar, depois reler com olhos novos e melhorar. Draft → revisar → melhorar é um ciclo dentro da própria escrita.

Por que aprender:

O primeiro draft quase nunca é o melhor. Reler distanciado revela instruções redundantes, ambíguas ou que mandam o modelo gastar tempo à toa.

Conceitos-chave:

draft rápido · reler distanciado · cortar redundância · clareza · iterar na escrita

O que é:

Decidir quando extrair recursos para fora do SKILL.md: se 3 execuções repetem o mesmo script, vire scripts/; docs grandes vão para references/ carregadas sob demanda.

Por que aprender:

Progressive disclosure: metadata sempre no contexto, corpo quando dispara, recursos só quando precisa. Bundlar script repetido poupa toda invocação futura de reinventar a roda.

Conceitos-chave:

scripts/ · references/ · assets/ · progressive disclosure · regra das 3 repetições · TOC em docs >300 linhas

Ver Completo

4.2~50 min

🔁 Testar, avaliar e iterar

O coração do loop: test prompts realistas, rodar com-skill vs baseline, avaliar de forma qualitativa e quantitativa, generalizar do feedback e otimizar a description pela métrica de teste.

O que é:

Depois do draft, criar 2-3 test prompts realistas — o tipo de coisa que um usuário real digitaria — e mostrá-los ao usuário para validar antes de rodar.

Por que aprender:

Test prompts artificiais geram avaliações enganosas. Os prompts ficam em evals/evals.json sem assertions ainda — as assertions vêm depois, enquanto as runs estão rodando.

Conceitos-chave:

2-3 prompts · linguagem de usuário real · validar com o usuário · evals.json · sem assertions ainda

O que é:

Para cada test case, disparar dois subagents no mesmo turno: um com a skill, um sem (baseline). Lançar tudo de uma vez para terminarem juntos.

Por que aprender:

Sem baseline você não sabe se a skill agregou algo. Para skill nova, baseline = sem skill nenhuma. Para skill existente, baseline = a versão antiga (snapshot antes de editar).

Conceitos-chave:

with_skill · without_skill · mesmo turno · snapshot da versão antiga · workspace por iteração

O que é:

Avaliar em duas frentes: qualitativa (revisar os outputs no viewer) e quantitativa (assertions verificáveis que dão um pass_rate). Skills subjetivas se avaliam só qualitativamente.

Por que aprender:

Boas assertions são objetivamente verificáveis e têm nomes descritivos. Não force assertions em coisas que pedem julgamento humano (estilo de escrita, design).

Conceitos-chave:

qualitativo no viewer · assertions verificáveis · pass_rate · nomes descritivos · não overfit em subjetivo

O que é:

Generalizar a partir do feedback em vez de fazer overfit aos poucos exemplos, manter o prompt enxuto e ler os transcripts (não só os outputs finais).

Por que aprender:

A skill será usada um milhão de vezes em prompts diferentes. Se ela só funciona para os exemplos do teste, é inútil. Evite mudanças fiddly e MUSTs opressivos.

Conceitos-chave:

generalizar · não overfit · manter enxuto · ler transcripts · explicar o porquê · script repetido vira bundle

O que é:

Aplicar a melhoria → rerodar todos os test cases numa nova iteração → revisar com o usuário → ler feedback → repetir até satisfazer.

Por que aprender:

O loop para quando o usuário está feliz, o feedback está todo vazio ou você não faz mais progresso significativo. Cada iteração vai num diretório próprio.

Conceitos-chave:

aplicar → rerodar → revisar → repetir · iteration-N · previous-workspace · critérios de parada

O que é:

Gerar ~20 queries de gatilho (mix should-trigger e should-not-trigger), focar em near-misses, rodar o loop de otimização e escolher a description pela métrica do conjunto de teste.

Por que aprender:

A description decide se a skill dispara. Negativos óbvios não testam nada — os valiosos são near-misses que compartilham palavras-chave mas precisam de outra coisa.

Conceitos-chave:

20 queries · should-trigger / should-not · near-misses · 60% train / 40% test · best_description pelo test

Ver Completo

4.3~45 min

⭐ As Melhores Meta-Skills (para criar skills)

As ferramentas de quem CRIA skills: skill-creator (246k), find-skills (1,8M) e o padrão de scaffolding. O que cada uma faz, quando usar e onde entra no fluxo.

O que é:

Skill cujo trabalho é ajudar você a trabalhar com outras skills — descobrir, criar, testar, otimizar e empacotar. Atua um nível acima da skill comum.

Por que aprender:

Muita gente cria sem conferir se já existe algo melhor e sem o loop de evals. As meta-skills resolvem isso: descobrir antes, criar com método, validar com dados.

Conceitos-chave:

meta-skill · descobrir · criar · testar · otimizar · empacotar

O que é:

A meta-skill da Anthropic que orquestra o ciclo inteiro — draft → eval → iterate — e traz um otimizador de description separado.

Por que aprender:

É o eixo central do fluxo de criação. Tudo dos módulos 4.1 e 4.2 sai dela; não improvise um processo paralelo.

Conceitos-chave:

draft → eval → iterate · scripts · aggregate_benchmark · run_loop · package_skill

O que é:

A skill mais instalada do catálogo (1.802.925, vercel-labs). Descobre skills relevantes para uma tarefa antes de você criar do zero.

Por que aprender:

Evita o erro mais caro de quem cria: gastar horas escrevendo algo que já existe melhor. É a etapa zero do fluxo.

Conceitos-chave:

discovery · usar / estender / criar · etapa zero · catálogo de 39.366 skills

O que é:

Padrão de gerar o esqueleto inicial — SKILL.md com frontmatter e pastas scripts/, references/, assets/ — em vez de digitar tudo na mão.

Por que aprender:

Acelera o começo e tira a folha em branco. Mas crie só as pastas que vai usar — pastas vazias confundem o modelo e violam o "manter enxuto".

Conceitos-chave:

esqueleto · frontmatter pré-preenchido · não criar tudo upfront · podar boilerplate

O que é:

A sequência que evita retrabalho: find-skills (descobrir) → scaffolding (gerar base) → skill-creator (criar e iterar) → otimizador de description (afinar disparo).

Por que aprender:

As três não competem, se encadeiam. Usá-las fora de ordem é onde nascem as skills de menos de 100 installs.

Conceitos-chave:

descobrir → base → criar/iterar → otimizar → empacotar · regra de ouro

O que é:

Um resumo situação → ferramenta: "preciso de uma skill pra X" → find-skills; "vou criar" → skill-creator; "não dispara quando devia" → otimizador de description.

Por que aprender:

Decisão rápida na hora certa. Instale as três e, como o Claude tende a subdisparar, mencione-as explicitamente nas primeiras vezes até virar reflexo.

Conceitos-chave:

situação → meta-skill · instalar as três · pro tip de disparo · package_skill

Ver Completo

4.4~50 min

🛠️ Como Criar: Walkthrough Completo com Evals

Um exemplo trabalhado de ponta a ponta: intent (4 perguntas) → draft → test prompts → evals.json com assertions verificáveis → rodar com-skill vs baseline → iterar. Templates JSON prontos.

O que é:

As 4 perguntas aplicadas ao caso "margem-xlsx": habilita o quê, quando dispara, formato de saída e se vale testar. Saída verificável → vale testar.

Por que aprender:

A pergunta 4 decide o resto do walkthrough. Transformações de arquivo e geração de código merecem evals; estilo/arte, não.

Conceitos-chave:

habilita · quando dispara · formato · vale testar · extrair da conversa · confirmar

O que é:

Escrever o draft completo: name, description pushy (o que faz E quando usar) e corpo no imperativo explicando o porquê.

Por que aprender:

A description é o gatilho. "Mexe em planilhas" subdispara; listar verbos + contextos ("margem, lucro... mesmo sem pedir coluna") cobre os near-triggers.

Conceitos-chave:

name · description pushy · corpo imperativo · explicar o porquê · não chutar colunas

O que é:

2-3 prompts como um usuário real escreveria — com backstory, paths e detalhes — salvos em evals/evals.json sem assertions ainda. Template JSON pronto.

Por que aprender:

Prompts artificiais geram avaliação enganosa. Valide com o usuário antes de rodar — é barato e evita rodar tudo à toa.

Conceitos-chave:

2-3 prompts · linguagem real · paths e backstory · evals.json · validar antes

O que é:

Enquanto as runs rodam, escrever assertions objetivas e com nomes descritivos no eval_metadata.json — checadas por script de preferência. Template pronto.

Por que aprender:

"a planilha ficou boa" é subjetivo; "valores batem com (C-D)/C" é verificável e discrimina with_skill de baseline.

Conceitos-chave:

assertions verificáveis · nome descritivo · checada por script · discrimina · não subjetivo

O que é:

Dois subagents no mesmo turno por test case (com skill / sem skill = baseline), saída organizada por iteração e eval, com total_tokens e duration_ms no timing.json.

Por que aprender:

Lançar juntos evita viés. O timing só pode ser capturado quando a notificação chega — processe cada uma na hora.

Conceitos-chave:

with_skill / without_skill · mesmo turno · workspace por iteração · timing.json

O que é:

Timeline numerada: grade cada run → agregue o benchmark → abra o viewer antes de você julgar → leia o feedback e generalize → rerode em iteration-2.

Por que aprender:

No caso, as 3 runs escreveram um calc_margem.py quase igual — sinal de bundlar. Na iteração 2 o pass_rate subiu e os tokens caíram.

Conceitos-chave:

grading.json · aggregate_benchmark · generate_review · feedback · bundle de script repetido

Ver Completo

4.5~50 min

🚀 Dicas Avançadas: Otimização de Description e Benchmark

O loop de otimização (split 60/40, near-misses, best_description pelo test score), como o triggering funciona de verdade, blind comparison e como ler o benchmark sem se enganar.

O que é:

run_loop.py divide o eval set em 60% train / 40% test, avalia a description (3 runs por query), propõe melhorias com base no que falhou e reavalia, até 5x.

Por que aprender:

O disparo é estocástico; 3 runs dão um trigger rate estável. Use o model ID da sessão para o teste bater com o que o usuário experimenta.

Conceitos-chave:

run_loop · 60/40 · 3 runs/query · propor → reavaliar · model ID da sessão · background

O que é:

~20 queries realistas, metade should-trigger e metade should-not. O ouro está nos near-misses — frases que compartilham palavras mas precisam de outra coisa.

Por que aprender:

"Margem de erro de uma pesquisa" usa "margem" mas não é lucro em planilha — força a description a discriminar. Negativos óbvios não ensinam nada.

Conceitos-chave:

should-trigger 8-10 · should-not 8-10 · near-misses · evitar óbvios · trigger-eval.json

O que é:

Skills aparecem em available_skills com name + description e o Claude decide consultar — mas só consulta para tarefas que não resolve fácil sozinho.

Por que aprender:

"Leia este PDF" pode não disparar nem com description perfeita. Suas queries de teste precisam ser substantivas (multi-step, especializadas).

Conceitos-chave:

available_skills · só tarefas não-triviais · queries substantivas · subdisparo · pushy

O que é:

Dar dois outputs a um agente independente sem dizer qual é qual, deixá-lo julgar a qualidade e depois analisar por que o vencedor venceu.

Por que aprender:

Por ser cego, não favorece "o novo" só por ser novo. É opcional e exige subagents — guarde para quando a dúvida for cara.

Conceitos-chave:

anonimizar · julgar qualidade · por que venceu · opcional · subagents · review humano basta

O que é:

O benchmark traz pass_rate, tokens e tempo por config, com média ± desvio e delta. A passada de analista revela o que a média esconde.

Por que aprender:

Assertion que passa com E sem skill não mede nada e infla o pass_rate; desvio alto pode ser flaky; pass_rate alto pode esconder explosão de tokens.

Conceitos-chave:

pass_rate · delta · não-discriminante · variância/flaky · tradeoff de tokens/tempo

O que é:

Pegar o best_description (escolhido pelo test score, não pelo train), aplicar no frontmatter, mostrar antes/depois e empacotar com package_skill.

Por que aprender:

Escolher pelo train premiaria a description que decorou os exemplos. O held-out test simula o mundo real — é o que separa generalizar de brilhar só no laboratório.

Conceitos-chave:

best_description · test score > train · otimizar só depois de pronta · revisar eval set · package_skill

Ver Completo

Mapa da trilha

4.1~45 min

🌱 Do intent ao primeiro draft

Pergunte, pesquise, escreva. Um draft que já nasce no imperativo e explica o porquê.

4.2~50 min

🔁 Testar, avaliar e iterar

Roda, mede, generaliza. O loop que transforma um draft numa skill que funciona um milhão de vezes.

4.3~45 min

⭐ As Melhores Meta-Skills

find-skills descobre, skill-creator cria, scaffolding gera a base. As ferramentas de quem cria skills.

4.4~50 min

🛠️ Walkthrough Completo com Evals

Do intent ao evals.json com assertions. Um exemplo trabalhado de ponta a ponta, JSON pronto pra copiar.

4.5~50 min

🚀 Otimização de Description e Benchmark

Split 60/40, near-misses, best_description pelo test. Afina o disparo e lê o benchmark sem se enganar.

← Início Trilha 5 →