MODULO 3.1 ยท PROJETO

๐Ÿ’ฌ Projeto 1: Chat privado 100% local

Chega de teoria. Este e o seu primeiro projeto de ponta a ponta: montar um chat de IA que roda inteiro na sua maquina, responde com a internet desligada e ainda permite forkar a conversa em duas linhas de raciocinio. Siga as etapas โ€” cada uma tem objetivo, passos, como verificar e o resultado esperado.

6
Etapas
~35
Minutos
Pratico
Nivel
Projeto
Tipo
โฌ‡๏ธpull modelo ๐Ÿ’ฌabrir chat โœˆ๏ธtestar offline ๐ŸŒฟforkar โœ…chat privado

O caminho do projeto em uma linha: do pull do modelo ate o chat privado, passando pelo teste offline โ€” o momento que prova que tudo roda na sua maquina.

1

๐ŸŽฏ Objetivo: conversar 100% offline

A meta deste projeto e simples e poderosa: ter um chat de IA que funciona sem internet, rodando inteiramente no seu computador. Nenhuma mensagem sai da maquina, nao ha medidor de custo, e a IA continua disponivel mesmo offline. E a prova mais direta de tudo que voce viu nas Trilhas 1 e 2.

๐Ÿงญ O que voce vai ter no fim

  • โ€ขUm modelo aberto baixado e pronto na sua maquina.
  • โ€ขUm chat funcionando no terminal ou no app do Ollama.
  • โ€ขA prova viva de que ele responde com o wi-fi desligado.
  • โ€ขUma conversa forkada em duas linhas de raciocinio.

Novo aqui? "Offline" quer dizer sem nenhuma conexao com a internet. Como o modelo e os seus dados estao no seu disco, o chat nao precisa pedir nada a um servidor โ€” por isso ele funciona no aviao, no campo ou com a rede caindo.

Conceitos-chave

Chat local

A conversa acontece na sua maquina, do inicio ao fim.

Offline

Funciona sem internet โ€” a IA esta no seu disco.

$0 por uso

Depois do download, cada conversa e gratuita.

Privacidade

Nada do que voce escreve sai da maquina.

2

โฌ‡๏ธ Garantir um modelo na maquina

Objetivo da etapa: ter o modelo rapido do curso baixado no disco. Sem um modelo local, nao ha o que rodar offline. Voce vai usar o Qwen 3 30B-A3B na versao quantizada (mais leve), que e o "modelo rapido" mostrado no video.

๐ŸŽฏ Passo a passo

  1. Abra o terminal (ou use o app do Ollama, instalado na Trilha 2).
  2. Rode o comando de pull abaixo para baixar o modelo (โ‰ˆ18 GB).
  3. Espere a barra de progresso chegar a 100%.

Comando para colar (objetivo: baixar o modelo):

ollama pull qwen3:30b-a3b-q4_K_M

Como verificar (o modelo aparece na lista):

ollama list
# saida esperada (exemplo):
# NAME                       SIZE
# qwen3:30b-a3b-q4_K_M       18 GB
Conversa com o modelo Qwen rodando local: o modelo mostra 'Thought for 6.2 seconds' antes de responder com fatos sobre teoria das cores
Frame do video: depois do pull, e este o modelo com que voce vai conversar. Repare no "Thought for 6.2 seconds" โ€” o modelo "pensa" antes de responder; isso e normal e voce ve no Modulo 3.1 etapa 5.

๐Ÿ’ก Dica pratica

O trecho q4_K_M e o nivel de quantizacao (o modelo "encolhido" para caber melhor na memoria). Se a sua maquina tiver pouca RAM, vale baixar um modelo menor primeiro, testar e apagar com ollama rm <modelo>. Explorar e barato.

Conceitos-chave

ollama pull

Baixa o modelo para o seu disco.

Quantizacao

O q4_K_M deixa o modelo menor e mais leve.

ollama list

Confirma que o modelo esta na maquina.

Download unico

Baixa uma vez; depois roda sem rede.

3

๐Ÿ’ฌ Abrir o chat (terminal ou app)

Objetivo da etapa: iniciar a conversa. Voce tem dois caminhos para o mesmo modelo โ€” o terminal (rapido, direto) e o app do Ollama (com janela de chat). Escolha o que for mais confortavel; os dois usam exatamente o mesmo modelo local.

โœ“ Caminho terminal

  • โœ“Rapido e sempre disponivel.
  • โœ“Funciona em qualquer SO.
  • โœ“Saida do chat com /bye.

๐Ÿ–ผ๏ธ Caminho app

  • โ€ขJanela de chat amigavel.
  • โ€ขBom para quem nao gosta de terminal.
  • โ€ขEscolha o modelo na lista do app.

Comando para colar (objetivo: abrir o chat no terminal):

ollama run qwen3:30b-a3b-q4_K_M
# o prompt fica aguardando voce digitar.
# experimente: "explique em 2 linhas o que e teoria das cores"
# para sair do chat, digite: /bye

Como verificar: o modelo responde a sua primeira pergunta. No primeiro uso ele pode demorar um pouco mais (carregando na memoria) โ€” e normal.

Novo aqui? ollama run faz duas coisas: se o modelo nao estiver carregado, ele carrega na memoria; depois abre um chat no proprio terminal. Da pra usar run direto sem ter feito o pull antes โ€” ele baixa automaticamente โ€” mas separar as etapas deixa o processo mais claro.

Conceitos-chave

ollama run

Carrega o modelo e abre o chat no terminal.

/bye

Sai do chat do terminal.

App do Ollama

O mesmo modelo, com janela grafica.

1o load

A primeira resposta demora mais (modelo carregando).

4

โœˆ๏ธ Testar offline (o momento da verdade)

Objetivo da etapa: provar, sem deixar duvida, que o chat nao depende da nuvem. Voce vai desligar a internet e fazer outra pergunta. Se o modelo responder, esta provado: a inteligencia esta na sua maquina.

1

Com o chat aberto, desligue o wi-fi

Desconecte a rede (wi-fi off ou cabo desconectado). No video, e literalmente "puxar o cabo".

2

Faca uma nova pergunta

Pergunte qualquer coisa. Ex.: "resuma a teoria das cores em 3 pontos".

3

Veja a resposta chegar

O modelo responde normalmente โ€” sem rede. Prova concluida.

NUVEM ยท sem internet voce servidorinalcancavel LOCAL ยท sem internet voce modelo localresponde โœ“

A esquerda, sem rede a chamada para o servidor falha; a direita, o modelo local responde mesmo offline โ€” exatamente o que voce acabou de testar.

Por que isso importa: esse teste e o que transforma "eu acredito que e local" em "eu vi funcionar". Voando, num lugar sem sinal ou com a rede caindo, o seu chat continua trabalhando.

Conceitos-chave

Teste offline

A prova de que nada depende da nuvem.

Disponibilidade

A IA esta sempre la, sem depender de rede.

Airgapped

Sem rede, o dado nao tem por onde sair.

Resiliencia

Queda de rede nao te paralisa.

5

๐ŸŒฟ Forkar a conversa em duas linhas

Objetivo da etapa: aprender a criar um fork (galho) de uma conversa para explorar dois caminhos a partir do mesmo ponto, sem perder o original. No app do Hermes isso aparece na lista de Sessions, com conversas que se ramificam.

Tela do Hermes com a lista de Sessions e conversas fixadas (Pinned), mostrando uma conversa que ramifica em duas linhas (branch/fork)
Frame do video: repare na lista de Sessions a esquerda. Forkar significa pegar uma mensagem e abrir um segundo caminho a partir dela โ€” voce mantem a conversa original intacta e cria uma "versao alternativa" para comparar respostas.

๐ŸŽฏ Como fazer (acao na interface)

  1. Tenha uma conversa em andamento.
  2. Escolha a mensagem a partir da qual quer ramificar.
  3. Crie o fork/branch dela (a UI mostra as Sessions resultantes).
  4. Faca uma pergunta diferente em cada galho e compare.

Como verificar: existem duas linhas de conversa partindo da mesma mensagem, lado a lado nas Sessions.

๐Ÿ“Š Quando forkar ajuda

  • โ€ขTestar dois tons de resposta (formal vs informal) sem refazer tudo.
  • โ€ขExplorar duas solucoes para o mesmo problema em paralelo.
  • โ€ขGuardar a conversa original como "fonte da verdade".

Novo aqui? "Forkar" (ou "branch") vem do mundo do codigo: criar um galho a partir de um ponto comum. Numa conversa, e abrir uma copia que segue por outro caminho โ€” sem apagar a original.

Conceitos-chave

Fork / branch

Um galho da conversa a partir de um ponto comum.

Sessions

A lista de conversas, incluindo as ramificadas.

Comparar caminhos

Duas respostas a partir da mesma mensagem.

Conversa original

Permanece intacta โ€” o fork nao a apaga.

6

โœ… Resultado: chat privado sem internet

Resultado esperado: voce tem um chat de IA que e seu โ€” privado, gratuito e que funciona em qualquer lugar. E o primeiro "isso e meu de verdade" do curso, e a fundacao sobre a qual o Projeto 2 vai montar o agente Hermes completo no Vault.

๐Ÿงพ Checklist de conclusao

โœ“ollama list mostra o modelo baixado.
โœ“O chat respondeu pelo terminal (ollama run) ou pelo app.
โœ“Respondeu de novo com a internet desligada.
โœ“Voce forkou a conversa em duas linhas.

โš ๏ธ Deu errado?

  • โœ—"Command not found": reabra o terminal ou confira o PATH (visto no Modulo 2.1).
  • โœ—Muito lento ou travando: o modelo pode estar grande demais pra sua RAM โ€” teste um menor.
  • โœ—"Nao responde offline": confirme que o pull terminou (100%) antes de desligar a rede.

Auto-checagem (opcional): qual e a PROVA de que o chat e 100% local?

๐ŸŽฏ Resumo do projeto

โœ“
Objetivo cumprido โ€” um chat de IA 100% local, privado e gratuito.
โœ“
Modelo + chat โ€” ollama pull e ollama run trazem o modelo e abrem a conversa.
โœ“
Prova offline โ€” respondeu com a rede desligada: a inteligencia esta na sua maquina.
โœ“
Fork de conversa โ€” voce explora dois caminhos sem perder o original.

Proximo projeto:

3.2 โ€” Agente Hermes rodando local (Vault end-to-end): do chat para o agente inteiro, 100% privado.