π οΈ Mao na massa
Chega de teoria β hora de instalar. Voce vai colocar o Ollama no seu computador, escolher um modelo que caiba no seu hardware, baixar e conversar com ele, preparar o modelo do agente (Qwen 3 Coder com 64k de contexto) e ligar tudo ao Agente Hermes β desktop, terminal ou Telegram. Cada modulo traz comandos prontos pra copiar e colar.
Os quatro passos praticos desta trilha, da esquerda pra direita: instalar o Ollama, baixar um modelo, criar a versao de 64k e plugar tudo no Agente Hermes β chegando a um agente rodando 100% na sua maquina.
Mapa da trilha
β¬οΈ Instalar o Ollama
Um comando e pronto
ποΈ O modelo certo
Caber no seu hardware
π¬ Seu 1o modelo
Baixar e conversar
πͺ O modelo do agente
Qwen 3 Coder 64k
π Conectar ao Hermes
Modelo local plugado
π₯οΈ Desktop e Telegram
Tres jeitos de falar
Conteudo detalhado
β¬οΈ Instalar o Ollama
O primeiro passo pratico: pegar o Ollama no site, instalar via terminal (Mac/Linux) ou pelo instalador (Windows), e conferir que tudo funcionou β com comandos prontos pra colar.
Voce comeca no site oficial ollama.com, onde tem o botao Download e o comando de instalacao.
Pegar da fonte oficial evita versoes falsas e garante o instalador certo pro seu sistema.
Fonte oficial, Download, deteccao de sistema.
No Mac/Linux, um unico comando (curl ... | sh) baixa e instala o Ollama de uma vez.
E o jeito mais rapido e o que voce vai colar de verdade β sem clicar em telas.
curl, pipe para sh, script de instalacao.
No Windows (e tambem no Mac) da pra baixar o instalador no site e clicar pra instalar.
Se voce nao curte terminal, esse e o caminho sem linha de comando.
Instalador grafico, app de bandeja.
Rodar ollama --version e ollama list confirma que ele esta instalado e respondendo.
Verificar antes de seguir evita perder tempo depois com erro de "comando nao encontrado".
Verificacao, --version, list vazia.
O Ollama tem um app com janela e tambem comandos de terminal β fazem a mesma coisa.
Saber que os dois existem te deixa escolher o que for mais confortavel.
GUI vs CLI, mesmo motor por baixo.
O erro mais comum e o terminal nao "ver" o ollama recem-instalado β basta reabrir o terminal.
Resolve 90% dos sustos de instalacao sem precisar reinstalar nada.
PATH, reabrir o terminal, sessao nova.
ποΈ Escolher o modelo certo pro seu hardware
Antes de baixar gigabytes, descubra o que sua maquina aguenta: leia o hardware, peca uma recomendacao ao Hermes, entenda os niveis de esforco e a regra de deixar folga de RAM.
Olhar quanta memoria (RAM) e qual chip voce tem β no Mac, em "Sobre este Mac".
A RAM e o que decide qual modelo cabe; sem isso voce baixa as cegas.
RAM, chip/GPU, "Sobre este Mac".
Voce mostra seu hardware ao Hermes e ele sugere modelos que cabem (ex.: M4 Max 36GB β Qwen 32B / 30B-A3B).
Tira o chute da escolha; o proprio agente ja te aponta o caminho.
Recomendacao por hardware, opcoes por tamanho.
No seletor do Hermes voce ajusta o esforco (Minimal, Low, Medium, High, Max) e toggles Thinking/Fast.
E como voce equilibra qualidade e velocidade sem trocar de modelo.
Effort, Thinking, Fast.
O modelo precisa caber na RAM com sobra pro resto do sistema; cheio demais trava a maquina.
Evita o erro classico de escolher o maior modelo e a maquina engasgar.
Headroom, folga de RAM, baixarβtestarβapagar.
O sufixo q4_K_M indica um modelo quantizado (comprimido), que ocupa menos memoria.
Entender quantizacao te deixa caber modelos maiores na mesma RAM.
Quantizacao, q4_K_M, tamanho vs precisao.
Uma recomendacao concreta pra comecar: o qwen3:30b-a3b-q4_K_M, rapido e equilibrado.
Comecar com um modelo testado evita paralisia de escolha.
Primeiro modelo, qwen3:30b-a3b-q4_K_M.
π¬ Baixar e conversar com seu 1o modelo
O momento "uau": baixar o modelo, rodar no terminal ou no app, entender o "thinking" e gerenciar o que esta no disco β tudo rodando offline na sua maquina.
O comando ollama pull baixa o modelo escolhido (uns 18 GB) para o seu disco, com barra de progresso.
E o unico momento que precisa de internet; depois roda offline.
pull, download unico, barra de progresso.
ollama run abre um chat no proprio terminal; voce digita, ele responde, e sai com /bye.
E a forma mais direta de provar que o modelo local funciona.
run, prompt no terminal, /bye.
O app do Ollama tem uma janela de chat; escolhe o modelo na lista e conversa como num app comum.
E o caminho confortavel pra quem prefere o mouse ao teclado.
App de chat, seletor de modelo.
Modelos de raciocinio "pensam" antes de responder; o app mostra algo como "Thought for 6.2 seconds".
Explica por que a resposta demora um pouco β e por que costuma ser melhor.
Thinking, raciocinio, tempo de "pensar".
Na primeira pergunta o modelo carrega na memoria e demora mais; depois fica mais rapido.
Saber disso evita achar que "travou" logo de cara.
Cold start, carregar em RAM, aquecimento.
ollama list mostra o que voce baixou, ollama ps o que esta rodando, ollama rm apaga um modelo.
Voce vai testar varios; apagar os que nao usa libera disco.
list, ps, rm, limpeza de disco.
πͺ O modelo do agente: Qwen 3 Coder 64k
O agente exige 64k de contexto. Voce vai entender por que, conhecer o Qwen 3 Coder, escrever um Modelfile que sobe o num_ctx e criar o modelo derivado de 64k com um comando.
O Agente Hermes precisa de um modelo com 64.000 tokens de contexto; o do modulo 2.3 nem sempre tem.
E o motivo de preparar um modelo especifico antes de conectar o agente.
Requisito de 64k, modelo do agente.
Um modelo aberto da familia Qwen voltado a codigo e uso de ferramentas β ideal pra agente.
Saber por que ele e escolhido te ajuda a trocar com criterio depois.
Qwen 3 Coder, modelo p/ agente, tools.
Um Modelfile e uma receita curta: parte de um modelo base e ajusta o num_ctx para 65536 (64k).
E como voce "fabrica" o modelo de 64k a partir de um que ja tem.
Modelfile, FROM, PARAMETER num_ctx 65536.
ollama create qwen3-coder-64k -f Modelfile gera um novo modelo com o contexto ja em 64k.
Esse modelo derivado e o que voce vai apontar pro Hermes no modulo 2.5.
create, modelo derivado, -f Modelfile.
ollama show qwen3-coder-64k e ollama list confirmam que o modelo existe e tem 64k.
Verificar antes de plugar no agente evita erro de contexto la na frente.
show, list, conferir o num_ctx.
Contexto maior consome mais RAM; 64k pesa mais que o contexto padrao do mesmo modelo.
Liga de volta a regra do headroom: precisa de folga pra rodar o agente.
Custo de memoria do contexto, headroom.
π Conectar o modelo local ao Agente Hermes
A ligacao final: instalar/atualizar o Hermes (open-source, MIT, Nous Research), selecionar o modelo local de 64k, diagnosticar e testar a conexao rodando 100% offline.
O Hermes Agent e o "SO de IA" open-source da Nous Research, com licenca MIT.
Open-source + MIT = voce roda, audita e adapta sem amarras.
Open-source, licenca MIT, Nous Research.
hermes update deixa o Hermes na ultima versao; ao terminar aparece "HERMES IS READY".
Comecar atualizado evita bugs ja corrigidos.
hermes update, "HERMES IS READY".
No seletor do Hermes voce escolhe o qwen3-coder-64k; o modelo ativo aparece no canto inferior direito.
E o passo que faz o agente usar o SEU modelo local em vez da nuvem.
Seletor de modelo, canto inferior direito.
O Hermes so funciona bem com o modelo de 64k; por isso voce preparou o derivado antes.
Fecha o circulo: o modulo 2.4 existe exatamente pra este momento.
Exigencia de contexto, modelo certo.
hermes doctor checa a saude da instalacao e hermes status mostra o estado atual.
Sao seus primeiros comandos quando algo nao conecta.
hermes doctor, hermes status.
Mande um "oi" no Hermes com o modelo local selecionado e veja a resposta vir da sua maquina.
E a prova final de que o agente esta rodando 100% local.
Teste de fumaca, resposta local.
π₯οΈ App desktop, terminal e Telegram
Tres jeitos de falar com o Hermes: o app desktop (amigavel), o terminal (poderoso) e o Telegram (de qualquer lugar) β alem de sessions, branch/fork e artifacts.
Uma janela de aplicativo do Hermes, mais amigavel que o terminal pra quem esta comecando.
E o caminho de menor atrito pra usar o agente no dia a dia.
App desktop, interface grafica.
Pelo terminal voce roda hermes dashboard, hermes setup e os demais comandos do agente.
O terminal e o caminho mais poderoso e automatizavel.
hermes dashboard, hermes setup.
Da pra conversar com o agente pelo Telegram, como quem manda mensagem pra um contato.
E o que te deixa usar o agente do celular, de qualquer lugar (Projeto 7 da Trilha 3).
Telegram, acesso remoto, chat.
Cada conversa e uma "session"; voce abre New session e o Hermes guarda o historico.
Organizar por sessions mantem contextos separados (trabalho, estudo, etc.).
Session, New session, historico.
Voce pode "forkar" uma conversa num ponto e seguir por dois caminhos diferentes.
Permite testar abordagens sem perder a linha original.
Branch, fork, linhas paralelas.
As saidas do agente (codigo, textos, arquivos) podem ser salvas e revisitadas como artifacts.
E onde o trabalho do agente "fica", pronto pra usar depois.
Artifacts, saidas salvas, reuso.