Mapa da trilha
Conteúdo detalhado
🧭 O esqueleto: reason → act → observe
Por baixo de todo desenho complicado, o loop é sempre os mesmos três passos repetindo até "pronto".
Uma IA que raciocina o que fazer, age, e observa o resultado — repetindo até o objetivo ser atingido.
É a base de tudo; sem ela, os "swarms" e "fleets" viram só jargão.
LLM, ferramenta, iteração, objetivo.
Think→Act→See, "modelo usa ferramentas", "roda sozinho" e "um chefe, vários ajudantes" — todas a mesma ideia.
Você para de achar que são coisas diferentes e enxerga o esqueleto único.
Mesma planta, quatro disfarces.
O passo em que o agente lê o próprio resultado em vez de supor que funcionou.
É o que faz o loop convergir; sem observar, ele entrega lixo com confiança.
Observar = ground truth; base da checagem "pronto?".
Um estagiário que você não microgerencia: você dá o objetivo, ele descobre o próximo passo e checa o próprio trabalho.
Ajuda a calibrar o que delegar e o que verificar.
Objetivo dado, passos descobertos, autocorreção.
Prompt único = uma resposta e acabou; loop = muitas voltas até verificar que terminou.
A maioria das tarefas é prompt único; loop é para quando há verificação e iteração.
One-shot × iterativo; o custo de cada um.
Cada volta é um passo; o loop circula até a checagem "pronto?" passar ou um limite de segurança parar.
Te dá o gabarito mental que serve para qualquer ferramenta de agente.
Volta = passo; guardrail; glossário base do curso.
🧩 O núcleo invariante: 6 elementos
Tire as discordâncias e sobra isto: as 6 peças que você liga para montar qualquer loop.
Um LLM no centro decide o que fazer a cada volta. Você não programa os passos; o modelo escolhe.
Tire o modelo e não há loop, só um script.
Modelo dirige cada iteração.
As ações que o modelo pode tomar: ler/escrever arquivos, rodar comandos e testes, buscar, chamar uma API.
Sem ferramentas o modelo só fala, não faz. O artesanato está nas ferramentas.
Tool-calling; descrição clara das ações.
O resultado de cada ação volta para o contexto, então a próxima volta é mais informada que a anterior.
Para tarefas longas, escreva o estado em disco (um arquivo de progresso + commits) para sobreviver entre sessões.
Contexto, context window, estado externalizado.
Um objetivo claro, escrito de modo que o modelo saiba quando terminou. "Todos os testes passam" é objetivo; "melhore o código" não é.
É um dos poucos elementos que TODA fonte concorda ser essencial.
Objetivo verificável × objetivo vago.
Antes de continuar, o agente confere o próprio trabalho contra o objetivo: roda os testes, relê o requisito, confirma que o arquivo mudou.
A Anthropic chama "verifique seu trabalho" de "o passo mais subestimado". É o que separa um loop que converge de um que produz lixo confiante.
gather → act → verify → repeat.
Algo que termina o loop: o objetivo cumprido (testes passam) + um teto duro (máximo de voltas).
As fontes divergem aqui — exatamente por isso você precisa definir uma de propósito. Não suponha que o modelo para sozinho.
max_turns; objetivo é invariante, parada não.
🗺️ O mapa do campo: 11 escolas
Não existe uma definição única de "loop de agente". Aqui está o mapa das 11 que circulam — e onde elas discordam.
Auditar 45 fontes verificadas revela 11 mentais distintos do "loop" — seu instinto de confusão estava certo.
Saber que discordam te imuniza contra "fulano disse, então é a verdade".
Convergência mínima × fratura nas bordas.
"Um LLM usando ferramentas num loop até a tarefa terminar" (Willison, Anthropic, LangChain). O loop é trivial; o artesanato são as ferramentas.
É a definição-base. Mas hoje é também o "saco de pancada" que os praticantes atacam por ser minimalista demais.
Agente = loop, numa frase.
Cada volta = pensar → agir → observar, repetindo. A única escola que nomeia um ciclo de cognição interno.
É o vocabulário que você mais vai encontrar em docs e papers.
ReAct, "thought" (pensamento sem observação).
Auto-verificação (o mesmo agente confere) × avaliador separado (um segundo agente dá nota até PASS).
É a raiz do padrão maker→checker que você usa na Trilha 2.
Evaluator-optimizer; o gerador nunca se auto-aprova.
Um Runner/orquestrador é dono do loop (OpenAI/Google/Bedrock, com max_turns) × um loop autônomo que se auto-prompta e roda sem supervisão (AutoGPT).
Mostra que "loop" pode ser um objeto de runtime OU um sistema agendado.
Runner, max_turns, auto-prompt.
"Projete o loop, não o prompt"; loop de memória entre tentativas (Reflexion); "loop não é o primitivo certo" (swyx); e a armadilha terminológica: "loop" = human-in-the-loop.
Evita copiar um guia de HITL achando que é padrão de build.
HITL = supervisão humana, não cognição do agente.
Quem é dono, o que termina o loop, se "verificar" é parte dele, o escopo de uma iteração, se ferramentas são essenciais, e se "loop" é o primitivo certo.
Saber os eixos te deixa ler qualquer definição e localizar onde ela cai.
6 eixos; o núcleo invariante por baixo.