1.1 O esqueleto: reason → act → observe

⚙️ O que é um loop de agente

Um loop de agente é só uma IA que raciocina o que fazer, age, e observa o resultado — de novo e de novo, até o objetivo ser atingido. Nada de mágica: três batidas que se repetem em direção a uma meta, até uma checagem "pronto?" mandar parar.

Leia o diagrama: a partir do objetivo, o agente pensa (reason), age com uma ferramenta (act) e lê o que aconteceu (observe). Se ainda não terminou, volta para o começo. Quando a checagem "pronto?" passa, ele para.

🧩 A frase que resume tudo

"Um loop de agente é um LLM que chama ferramentas, checa o resultado, e repete em direção a um objetivo declarado — até estar pronto ou você parar." Guarde essa frase: ela é o gabarito que cabe nas 11 definições que existem por aí.

🖼️ As 4 figuras que confundem

Assista a cinco vídeos e verá cinco figuras diferentes. São o mesmo conceito de ângulos diferentes. Estas são as quatro com que você mais vai esbarrar — e a razão da confusão não é você.

Quatro diagramas luminosos do mesmo loop, cada um visto de um ângulo levemente diferente

O que ver: quatro desenhos, uma planta só. Quem está começando acha que são quatro coisas; são quatro fotos do mesmo objeto.

🔵 "Think → Act → See"

As mesmas três batidas, com palavras mais antigas (o paper do ReAct).

🟢 "Modelo usa ferramentas, em repeat"

A versão mais simples: um modelo chamando ferramentas, sem parar (Anthropic).

🟡 "Roda sozinho"

O mesmo loop, só que deixado rodando sem supervisão em direção a uma meta (AutoGPT).

🟣 "Um chefe, vários ajudantes"

Um agente líder entrega tarefas a sub-agentes (multi-agente).

A sacada: não importa o desenho — todos colapsam no mesmo esqueleto. Aprenda o esqueleto e qualquer figura nova fica óbvia.

👁️ O beat "observe"

Das três batidas, a do meio do nome — observe — é o que faz o loop funcionar de verdade. É o momento em que o agente lê o próprio resultado em vez de supor que deu certo.

Um sensor luminoso lendo um painel de resultado, com uma seta de retorno

O que ver: o agente lê o resultado e a informação volta para a próxima decisão. Sem essa leitura, ele fica cego.

✗ Sem observar

O agente age, supõe que funcionou e segue em frente. Resultado: trabalho polido, confiante e errado — e ele chama de "feito".

✓ Observando

O agente roda o teste, lê a saída real, percebe o que ainda falta — e ajusta. É isso que faz o loop convergir em vez de derivar.

💡 Por que isso é o coração do loop

Observar é o mecanismo que torna o "pronto?" possível. Se o agente não lê o próprio resultado, ele não tem como saber se terminou — e aí ou para cedo demais (entrega quebrado) ou nunca para. Toda a Trilha 2 gira em torno de uma pergunta: como esse agente checa que está pronto?

🧑‍💼 O estagiário esperto

O melhor modelo mental: pense num estagiário esperto que você não microgerencia. Você entrega a meta. Ele descobre o próximo passo, faz, confere o próprio trabalho e segue — só voltando para você quando termina (ou trava).

Um robô estagiário trabalhando sozinho numa mesa, com uma lista de verificação flutuando ao lado

O que ver: ele trabalha sozinho e confere o próprio checklist. Você não dita cada passo — você dá o objetivo e a definição de "pronto".

Você entrega a meta, não a lista de passos.

Ele descobre o próximo passo e executa.

Ele confere o próprio trabalho e repete.

Ele volta a você só quando terminou ou travou.

🧠 Por que essa metáfora ajuda

Ela calibra duas decisões que você vai tomar o tempo todo: o que delegar (a tarefa repetitiva e verificável) e o que verificar (como o estagiário sabe que está pronto). Um agente loop é exatamente isso, em software.

🔁 Loop vs prompt único

A IA nunca acerta de primeira. Num prompt único (one-shot) você aceita a resposta da primeira tentativa. Num loop, a IA faz o papel do humano que dá feedback e itera — e é por isso que ela chega muito mais perto.

O que ver: dá no mesmo lugar (90–95%), mas o loop sobe muito mais cedo porque terceiriza o ciclo de feedback-e-iteração para a própria IA, em vez de esperar você revisar a cada volta.

Quando o loop vale mais a pena que um prompt único?

🎯 O ciclo, fechado

Fechando o módulo: cada volta é um passo, e o agente circula — agir, observar, agir, observar — até a checagem "pronto?" passar, ou um guardrail (um limite de segurança, tipo número máximo de tentativas) parar. Já dá para sentir um loop de verdade rodando.

# Cole no Claude Code — seu primeiríssimo loop (você vai aprofundar na Trilha 3)

# o objetivo
Conserte o único teste que está falhando neste projeto.

# o que "pronto" significa (deixe checável)
Pronto quando: esse teste passa ao rodar a suíte de testes.

# como checar
Verifique rodando os testes e lendo a saída.

# o guardrail
Continue até passar, ou pare depois de 5 tentativas e me avise.

Como verificar: abra um projeto pequeno com 1 teste quebrado, cole o prompt no Claude Code e observe ele girar reason→act→observe até os testes passarem (ou parar em 5 tentativas). Esse é o esqueleto deste módulo, rodando.

📒 Glossário-base (leve para o resto do curso)

•LLM — o modelo de IA que decide o próximo passo.
•Ferramenta (tool) — uma ação que o modelo executa (buscar, rodar código, editar arquivo).
•Iteração / volta — uma passada pelo reason→act→observe.
•Ground truth — o resultado real que o agente observa.
•Guardrail — um limite de segurança (ex.: máximo de tentativas).

🧾 Resumo do Módulo

✓

O que é um loop de agente — IA que raciocina, age e observa, repetindo até "pronto".

✓

As 4 figuras — Think→Act→See, modelo+ferramentas, roda sozinho, chefe+ajudantes: um esqueleto só.

✓

O beat observe — ler o próprio resultado (ground truth) é o que faz o loop convergir.

✓

O estagiário esperto — meta dada, passos descobertos, autocorreção.

✓

Loop vs prompt único — o loop terceiriza o feedback para a IA e sobe a qualidade mais cedo.

✓

O ciclo, fechado — volta = passo; guardrail; glossário-base do curso.

1.2 — O núcleo invariante: 6 elementos

← Voltar para Trilha 1.2 →

🧭 O esqueleto: reason → act → observe