MODULO 2.3

๐Ÿ’ฌ Baixar e conversar com seu 1o modelo

Chegou a hora do "uau": vamos baixar um modelo de verdade, abrir um chat e ver a IA responder na sua maquina. Dois comandos resolvem โ€” um pra baixar, outro pra conversar โ€” e no fim voce desliga a internet e o modelo continua respondendo.

6
Topicos
~30
Minutos
Basico
Nivel
Pratico
Tipo
1

โฌ‡๏ธ Baixar o modelo

Com o Ollama ja instalado (modulo 2.1) e o modelo escolhido (modulo 2.2), o primeiro passo e baixar o modelo pro seu disco. Vamos usar o qwen3:30b-a3b-q4_K_M โ€” o modelo "rapido" recomendado, com cerca de 18 GB. O download e a unica etapa que pede internet; depois disso, o modelo roda 100% offline.

Terminal rodando ollama pull qwen3:30b-a3b-q4_K_M com barra de progresso em 3%, mostrando 512MB de 18GB baixados
Repare na barra de progresso e no contador "512MB / 18GB": o Ollama mostra exatamente quanto falta. Enquanto isso roda, voce pode ir tomar um cafe โ€” sao gigabytes vindo pra sua maquina UMA vez.

๐ŸŽฏ Code-run: baixar o modelo

Objetivo: trazer o modelo rapido pro seu disco. Cole no terminal:

ollama pull qwen3:30b-a3b-q4_K_M

Como verificar: aparece uma barra de progresso ate success. Depois, ollama list deve mostrar o modelo na lista.

Novo aqui? "Pull" (puxar) e o termo do Ollama (emprestado do Git/Docker) para baixar um modelo do repositorio oficial pro seu computador. O nome qwen3:30b-a3b-q4_K_M e a "tag": qwen3 = familia, 30b = 30 bilhoes de parametros, a3b = arquitetura, q4_K_M = nivel de quantizacao (compressao).

Conceitos-chave

ollama pull

O comando que baixa um modelo pro seu disco.

~18 GB

O tamanho do qwen3:30b-a3b-q4_K_M; precisa de espaco em disco.

Download unico

So usa internet uma vez; depois roda offline.

Tag do modelo

familia:tamanho-arquitetura-quantizacao.

2

๐Ÿ’ฌ Conversar no terminal

Modelo baixado, hora de conversar. O comando ollama run abre um chat dentro do proprio terminal: voce digita, da Enter, e o modelo responde ali mesmo. Para sair da conversa, digite /bye.

๐ŸŽฏ Code-run: conversar no terminal

Objetivo: abrir um chat com o modelo e fazer a primeira pergunta. Cole:

ollama run qwen3:30b-a3b-q4_K_M
>>> Explique em uma frase o que e uma janela de contexto.
... (a resposta aparece aqui) ...
>>> /bye

Como verificar: o prompt muda para >>> e o modelo responde. /bye te devolve ao terminal normal.

pullbaixa (1x) runabre o chat voce conversa>>> pergunta / resposta /byeencerra

Da esquerda pra direita: pull baixa uma vez, run abre o chat, voce conversa no prompt >>> e /bye encerra. So o "pull" precisa de internet.

๐Ÿ’ก Dica pratica

Se voce rodar ollama run com um modelo que ainda nao baixou, o Ollama baixa automaticamente antes de abrir o chat. Mas separar o pull (baixar) do run (conversar) deixa mais claro o que esta acontecendo.

Conceitos-chave

ollama run

Abre um chat com o modelo no terminal.

Prompt >>>

Onde voce digita suas perguntas.

/bye

Sai da conversa e volta ao terminal.

Auto-pull

run baixa o modelo se ele ainda nao existe.

3

๐Ÿ–ผ๏ธ Conversar no app

Nao curte terminal? Sem problema. O app do Ollama tem uma janela de chat parecida com qualquer app de mensagem: voce escolhe o modelo numa lista e conversa com o mouse e o teclado, sem digitar comandos. O motor por baixo e o mesmo โ€” muda so a interface.

App do Ollama com qwen3:30b-a3b-q4_K_M na lista de modelos e o comando ollama run sendo mostrado
No app, o modelo baixado aparece na lista pronto pra selecionar. Note que e o mesmo qwen3:30b-a3b-q4_K_M do terminal โ€” app e terminal compartilham os modelos baixados, voce nao baixa duas vezes.

โœ“ Quando o app brilha

  • โœ“Quem prefere clicar a digitar comandos.
  • โœ“Conversas longas, com historico rolavel.
  • โœ“Trocar de modelo num menu, sem decorar tags.
  • โœ“Mostrar pra alguem sem assustar com o terminal.

โœ— Quando o terminal vence

  • โœ—Automatizar (scripts, pipelines).
  • โœ—Ver mensagens de erro detalhadas.
  • โœ—Rodar comandos como pull/list/rm direto.
  • โœ—Conectar ao agente (o Hermes fala via servico/terminal).

Conceitos-chave

App de chat

Interface grafica do Ollama.

Lista de modelos

Os modelos baixados aparecem pra selecionar.

Mesmo motor

App e terminal usam os mesmos modelos.

Sem comandos

Conversa sem digitar nada no terminal.

4

๐Ÿง  O "thinking"

Voce vai notar que, antes de responder, o modelo as vezes mostra algo como "Thought for 6.2 seconds". Isso e o thinking (raciocinio): modelos modernos "pensam" em silencio antes de escrever a resposta final. Esse passo extra costuma deixar a resposta mais correta โ€” em troca de um pouquinho mais de tempo.

Conversa com o Qwen mostrando 'Thought for 6.2 seconds' e uma resposta sobre teoria das cores
Olhe o "Thought for 6.2 seconds" no topo da resposta: o modelo raciocinou ~6s antes de escrever. Esse tempo nao e "travamento" โ€” e o modelo pensando. A resposta sobre teoria das cores veio inteira da sua maquina, sem nuvem.

๐Ÿ“Š O que o "thinking" muda

  • โ€ขRespostas melhores: raciocinar antes reduz erros em tarefas dificeis.
  • โ€ขUm pouco mais lento: os segundos de "Thought for..." sao o custo do raciocinio.
  • โ€ขConfiguravel: no Hermes, os toggles Thinking/Fast deixam voce priorizar qualidade ou velocidade.

Novo aqui? "Thinking" (ou "reasoning") e quando o modelo gera um rascunho de raciocinio interno antes da resposta final. Voce ve o rotulo do tempo, mas o rascunho costuma ficar oculto. Modelos com thinking tendem a acertar mais em logica, matematica e codigo.

Conceitos-chave

Thinking

Raciocinio interno antes da resposta.

"Thought for X s"

O tempo que o modelo passou pensando.

Qualidade vs velocidade

Pensar mais acerta mais, mas demora um pouco.

Thinking/Fast

Toggles do Hermes pra escolher o equilibrio.

5

โฑ๏ธ Velocidade e o 1o load

A primeira pergunta depois de abrir o modelo costuma demorar mais. Isso e o 1o load (carregamento inicial): o Ollama precisa carregar os 18 GB do modelo do disco pra memoria. Da segunda pergunta em diante, com o modelo ja "quente" na RAM, as respostas saem bem mais rapido.

1

Cold start (1a vez)

O modelo carrega do disco pra RAM โ€” a primeira resposta demora mais.

2

Modelo quente

Ja na memoria, as proximas respostas vem rapido.

3

Descarrega sozinho

Apos um tempo ocioso, o Ollama libera a RAM โ€” ai a proxima vira "cold" de novo.

๐Ÿ’ก Dica pratica

Se a primeira resposta parecer "travada", espere โ€” provavelmente e so o 1o load. A velocidade depende do seu hardware: quanto mais rapida a memoria e o chip, mais rapido carrega e responde. Use ollama ps pra ver se o modelo esta carregado neste momento.

Conceitos-chave

1o load

Carregar o modelo do disco pra RAM.

Cold vs hot

Frio (carregando) e lento; quente (na RAM) e rapido.

ollama ps

Mostra qual modelo esta carregado agora.

Depende do hardware

A velocidade e a da sua maquina.

6

๐Ÿ—‘๏ธ Gerenciar modelos

Como modelos sao gratis, voce vai testar varios โ€” e cada um ocupa gigabytes. Tres comandos cuidam disso: ollama list mostra o que voce baixou, ollama ps mostra o que esta rodando agora, e ollama rm apaga um modelo pra liberar disco.

๐ŸŽฏ Code-run: listar, ver e apagar

Objetivo: ver seus modelos e apagar um que nao usa mais. Cole conforme precisar:

ollama list          # o que voce baixou (nome + tamanho)
ollama ps            # o que esta carregado na memoria agora
ollama rm <modelo>    # apaga; ex.: ollama rm qwen3:30b-a3b-q4_K_M

Como verificar: depois do rm, rode ollama list de novo โ€” o modelo apagado some da lista e o disco e liberado.

Atencao: troque <modelo> pelo nome exato do que aparece no ollama list. O rm apaga de verdade โ€” pra usar de novo, voce precisa baixar (pull) outra vez.

โœˆ๏ธ Verificacao final: responde offline?

Prova de que e local mesmo: desligue o wi-fi, rode ollama run qwen3:30b-a3b-q4_K_M e faca uma pergunta. Se responder sem internet, voce confirmou que a inteligencia esta na SUA maquina โ€” exatamente a promessa do curso.

Conceitos-chave

ollama list

Lista os modelos baixados e seus tamanhos.

ollama ps

Mostra o que esta carregado na memoria.

ollama rm

Apaga um modelo e libera disco.

Offline

Sem internet, o modelo continua respondendo.

Auto-checagem (opcional): voce esta conversando no terminal e quer encerrar a conversa, voltando ao terminal normal. O que voce digita?

๐ŸŽฏ Resumo do modulo

โœ“
Baixar โ€” ollama pull qwen3:30b-a3b-q4_K_M traz o modelo (~18 GB) pro disco, uma unica vez.
โœ“
Conversar โ€” ollama run ... abre o chat no terminal; /bye encerra. Ou use o app.
โœ“
Thinking e 1o load โ€” "Thought for X s" e o raciocinio; a 1a resposta demora pelo carregamento na RAM.
โœ“
Gerenciar e offline โ€” list/ps/rm cuidam dos modelos; sem wi-fi, ele ainda responde.

Proximo modulo:

2.4 โ€” O modelo do agente: Qwen 3 Coder 64k