MODULO 3.2 ยท PROJETO

๐Ÿค– Projeto 2: Agente Hermes rodando local (Vault end-to-end)

O salto do Projeto 1: do chat para o agente inteiro. Voce vai conectar o modelo de 64k ao Agente Hermes, ligar o modo Vault (airgapped) e mandar o agente executar uma tarefa real โ€” tudo sem um unico byte saindo da maquina. E o "santo graal" do curso: capaz, 100% privado e a $0.

6
Etapas
~40
Minutos
Pratico
Nivel
Projeto
Tipo
๐ŸชŸmodelo 64k ๐Ÿ”—conectar ๐Ÿ—„๏ธVault on ๐Ÿงชtarefa real โœ…nada saiu

A linha do projeto: do modelo de 64k ate a confirmacao de que nada saiu, com o Vault ligado no meio โ€” o passo que torna o agente seguro para dados sensiveis.

1

๐ŸŽฏ Objetivo: o agente inteiro no Vault

A meta deste projeto e rodar o Agente Hermes de ponta a ponta usando so o seu modelo local, em modo Vault โ€” isolado da internet. Diferente do Projeto 1 (que era um chat), aqui o agente age: usa ferramentas, executa tarefas, mas tudo dentro da sua maquina.

Site do Hermes Agent, da Nous Research: open-source, licenca MIT, com o lema 'THE AGENT GROWS YOU'
Frame do video: o Hermes Agent e open-source, com licenca MIT, da Nous Research. "Open-source" + "MIT" significam que voce pode ver e usar o codigo livremente โ€” combinacao perfeita com a ideia de posse e privacidade do curso.

๐Ÿงญ O que voce vai ter no fim

  • โ€ขO modelo de 64k (do Modulo 2.4) ligado ao Hermes.
  • โ€ขO agente operando em modo Vault, sem rede.
  • โ€ขUma tarefa real concluida 100% local.
  • โ€ขA confirmacao de que nenhum dado saiu da maquina.

Novo aqui? "End-to-end" (ponta a ponta) quer dizer que o fluxo inteiro โ€” do seu pedido ate o resultado โ€” acontece sem sair da maquina. "Airgapped" e o termo de seguranca para um sistema fisicamente isolado da rede; o modo Vault simula isso desconectando o agente da internet.

Conceitos-chave

Agente

LLM + ferramentas: ele age, nao so responde.

Hermes (MIT)

Open-source, da Nous Research; voce e dono do fluxo.

Vault

Modo airgapped: o agente isolado da rede.

End-to-end

Do pedido ao resultado, tudo na sua maquina.

2

๐ŸชŸ Ter o qwen3-coder-64k pronto

Objetivo da etapa: confirmar que o modelo de contexto 64k que voce criou no Modulo 2.4 esta disponivel no Ollama. O agente Hermes exige 64k de contexto โ€” um modelo de chat comum nao serve, porque memoria e ferramentas ocupam muito espaco.

๐ŸŽฏ Conferir o modelo (e recriar, se preciso)

Comando para colar (objetivo: ver se o modelo de 64k existe):

ollama list
# procure por:
# qwen3-coder-64k

Se ele NAO aparecer, recrie a partir do Modelfile do Modulo 2.4 (objetivo: derivar o modelo com 64k de contexto):

# Modelfile (conteudo):
# FROM <qwen3-coder:30b>
# PARAMETER num_ctx 65536

ollama create qwen3-coder-64k -f Modelfile

Como verificar: ollama list mostra qwen3-coder-64k. O trecho <qwen3-coder:30b> e a parte variavel โ€” e o modelo base que voce escolheu.

๐Ÿ“Š Por que 64k, em numeros

  • โ€ข65.536 tokens de contexto (โ‰ˆ 25-30 mil palavras de "memoria de trabalho").
  • โ€ขO agente gasta contexto com memoria, instrucoes e o resultado das ferramentas.
  • โ€ขSem folga de contexto, o agente "esquece" o inicio da tarefa no meio do caminho.

Atencao: contexto grande custa memoria. Um modelo com 64k pesa mais na RAM do que o mesmo modelo com contexto pequeno. Se a maquina apertar, e aqui que pode travar โ€” confira o headroom de RAM (visto no Modulo 1.4).

Conceitos-chave

num_ctx 65536

O parametro que define os 64k de contexto.

ollama create

Deriva o modelo a partir de um Modelfile.

Exigencia do agente

O Hermes pede 64k; chat comum nao serve.

Custo de memoria

Contexto grande pesa mais na RAM.

3

๐Ÿ”— Conectar o modelo ao Hermes

Objetivo da etapa: garantir que o Hermes esteja atualizado e selecionar o seu modelo local como o cerebro do agente. Primeiro o comando real de atualizacao; depois a acao na interface para apontar o agente ao seu modelo.

๐ŸŽฏ Atualizar e checar o Hermes

Comando para colar (objetivo: deixar o Hermes pronto):

hermes update
# ao terminar, o painel mostra: "HERMES IS READY / Launch Hermes"

Como verificar (o agente esta saudavel):

hermes status
App desktop do Agente Hermes na tela de 'New session', pronto para iniciar uma conversa com o agente
Frame do video: o app desktop do Hermes em "New session". E daqui que voce seleciona o modelo. O modelo escolhido aparece no canto inferior direito โ€” e onde voce confirma que o agente esta usando o seu qwen3-coder-64k local, e nao a nuvem.

๐Ÿ–ฑ๏ธ Acao na interface (selecionar o modelo local)

  1. Abra o seletor de modelo do Hermes.
  2. Escolha o seu modelo do Ollama: qwen3-coder-64k.
  3. Confirme: o nome aparece no canto inferior direito.

Como verificar: o canto inferior direito mostra o seu modelo local selecionado.

Honestidade: selecionar o modelo e uma acao na interface, nao um comando de terminal. Os comandos reais do Hermes que voce usa aqui sao hermes update e hermes status; o resto e clicar no seletor.

Conceitos-chave

hermes update

Atualiza o Hermes ("HERMES IS READY").

hermes status

Mostra a saude do agente.

Seletor de modelo

Onde voce aponta o agente ao modelo local.

Canto inferior direito

Onde o modelo ativo aparece confirmado.

4

๐Ÿ—„๏ธ Ligar o Vault (airgapped)

Objetivo da etapa: ativar o modo Vault, que isola o agente da rede โ€” como puxar o cabo de internet. E a garantia tecnica de que nada vaza: o agente simplesmente nao tem por onde sair.

Diagrama dos modos do Hermes: Vault (airgapped) alternando com Connected, sob o titulo 'Toggle your privacy'
Frame do video: o diagrama "Toggle your privacy". Para este projeto voce fica na ponta Vault (airgapped, tudo local). Repare que privacidade aqui e um botao: voce escolhe quando o agente pode ou nao falar com o mundo.
1

Selecione o modo Vault

Na interface, escolha Vault. O agente passa a usar so o modelo local.

2

Para ter certeza, desconecte a rede

Wi-fi off ou cabo desconectado โ€” a prova fisica do airgap.

3

Confirme o estado

O Hermes indica que esta em Vault / offline.

โœ“ Em Vault voce GANHA

  • โœ“Dado de cliente/saude/IP nunca sai.
  • โœ“Funciona offline (aviao, off-grid).
  • โœ“$0 por uso, mesmo rodando muito.

โœ— Em Vault voce CEDE

  • โœ—Sem busca na web fresca.
  • โœ—Sem o modelo de fronteira da nuvem.
  • โœ—A velocidade e a da sua maquina.

Sem ideologia: Vault nao e "sempre". E o modo certo para dado sensivel e para offline. Quando a tarefa for dificil e nao tiver dado sensivel, voce pode ir para Connected ou Cloud โ€” e o que o Projeto 6 ensina.

Conceitos-chave

Vault mode

O agente isolado da internet.

Airgapped

Sem rede, o dado nao tem por onde sair.

Toggle your privacy

Privacidade vira um botao que voce controla.

Trade-off

Privacidade total em troca de potencia da nuvem.

5

๐Ÿงช Tarefa real, 100% local

Objetivo da etapa: dar ao agente uma tarefa concreta e ver ele usar ferramentas para resolver โ€” provando que ele nao so conversa, ele age. Tudo isso em Vault, sem rede.

๐ŸŽฏ Sugestoes de tarefa (acao no chat do agente)

  1. "Leia este arquivo e me de um resumo em 5 pontos."
  2. "Organize estas anotacoes soltas em uma lista de tarefas."
  3. "Escreva um rascunho de e-mail a partir destes topicos."

Como verificar: a tarefa termina com um resultado util, e voce ve o agente "trabalhando" (usando ferramentas), nao so respondendo.

๐Ÿ“Š Calibre a expectativa

O modelo local roda no benchmark SWE-bench em torno de 74 (o Qwen citado no video, "runs on a laptop"), enquanto o topo da nuvem fica em ~88. Ou seja: muito capaz, mas nao e o modelo de fronteira. Para tarefas do dia a dia, em Vault, ele resolve.

A velocidade depende da sua maquina; a primeira resposta pode demorar mais (modelo carregando na memoria).

Dica: comece com uma tarefa que voce saberia fazer sozinho. Assim e facil avaliar se o agente acertou โ€” e voce ganha confianca antes de delegar coisas maiores.

Conceitos-chave

Usar ferramentas

O agente age (le, organiza, escreve), nao so fala.

Tarefa verificavel

Comece com algo que voce sabe avaliar.

~74 no SWE-bench

Capaz, mas nao a fronteira da nuvem.

Velocidade local

Depende do hardware; 1o load demora mais.

6

โœ… Confirmar privacidade: nada saiu

Resultado esperado: um agente capaz que rodou uma tarefa real sem mandar nada para a internet. Com a rede desconectada e o Vault ligado, voce tem a confirmacao que torna o agente usavel com dados sensiveis โ€” o objetivo do projeto.

๐Ÿงพ Checklist de conclusao

โœ“ollama list mostra o qwen3-coder-64k.
โœ“hermes status indica o agente saudavel.
โœ“O modelo local aparece no canto inferior direito.
โœ“A tarefa rodou com a internet desconectada, em Vault.

โš ๏ธ Deu errado?

  • โœ—Agente nao acha o modelo: confirme o seletor e que o Ollama esta rodando.
  • โœ—"Contexto insuficiente": confirme que usou o modelo 64k, nao o de chat comum.
  • โœ—Travou/lento: contexto de 64k pesa na RAM โ€” reduza outras tarefas abertas.

Auto-checagem (opcional): por que o agente precisa do qwen3-coder-64k, e nao de um modelo de chat comum?

๐ŸŽฏ Resumo do projeto

โœ“
Objetivo cumprido โ€” o Agente Hermes inteiro rodando local, em Vault, a $0.
โœ“
Modelo 64k conectado โ€” o qwen3-coder-64k ligado ao Hermes via hermes update/status.
โœ“
Vault ligado โ€” airgapped: o agente sem por onde vazar dado.
โœ“
Tarefa real + privacidade โ€” o agente agiu offline e nada saiu da maquina.

Proximo projeto:

3.3 โ€” Memoria, personas e skills: deixar o SO do agente com a sua cara.