MODULO 2.2

🎚️ Escolher o modelo certo pro seu hardware

Antes de gastar tempo (e disco) baixando 18 GB, vale parar 5 minutos para descobrir o que a sua maquina aguenta. Neste modulo voce vai ler o proprio hardware, pedir uma recomendacao ao Hermes, entender os niveis de esforco e aplicar a regra de ouro do headroom: nunca encher a RAM ate o talo.

6
Topicos
~30
Minutos
Basico
Nivel
Pratico
Tipo
1

πŸ–₯️ Conheca seu hardware

Tudo comeca com um numero: quanta memoria (RAM) voce tem. E a RAM, mais do que o chip, que decide qual modelo cabe na sua maquina. No Mac, basta abrir o menu Apple β†’ "Sobre este Mac" e ler a linha de memoria e o chip. No Windows, a tecla rapida e Ctrl+Shift+Esc β†’ aba "Desempenho" β†’ "Memoria".

Janela 'Sobre este Mac' mostrando o chip Apple e 36 GB de memoria
A janela "Sobre este Mac": repare nos dois numeros que importam β€” o chip (aqui um Apple M) e a memoria (36 GB). Esses 36 GB sao o teto do que voce pode carregar; e deles que voce vai tirar a folga do headroom.

Novo aqui? "RAM" e a memoria de trabalho do computador β€” onde o modelo precisa caber inteiro para rodar rapido. Nos Macs com chip Apple, a memoria e "unificada", ou seja, compartilhada entre CPU e GPU; por isso aquele numero unico (ex.: 36 GB) e o que conta.

Conceitos-chave

RAM

Memoria de trabalho; e ela que define qual modelo cabe.

Chip / GPU

Influencia a velocidade; nos Macs M, a memoria e unificada.

Sobre este Mac

Onde ler chip e memoria em segundos.

Teto de memoria

O modelo + o contexto precisam caber nesse numero.

2

🀝 Peca uma recomendacao

Voce nao precisa decorar tabela nenhuma. O atalho e mostrar seu hardware ao proprio Hermes (um print do "Sobre este Mac" basta) e pedir: "quais modelos rodam bem aqui?". Ele cruza a sua RAM com o tamanho dos modelos e devolve uma lista pronta.

Chat do Hermes recomendando modelos Qwen para um Mac M4 Max de 36 GB
O Hermes lendo um "M4 Max, 36 GB" e respondendo com opcoes que cabem. Repare que ele lista varios tamanhos β€” esse e o ponto: voce ganha um menu de candidatos, nao uma unica resposta. Daqui voce escolhe pelo headroom.

πŸ“Š Exemplo real: M4 Max 36 GB

Para uma maquina com 36 GB, o Hermes costuma sugerir opcoes como estas β€” todas modelos abertos:

Qwen3 32B

Mais capaz, pesa mais.

Qwen3 30B-A3B

Rapido e equilibrado (o do video).

Mistral Small 24B

Leve, sobra RAM.

Gemma 3 27B

Meio-termo da lista.

πŸ’‘ Dica pratica

Sem o Hermes a mao? A regra grosseira: um modelo quantizado em q4 ocupa, em GB, mais ou menos o numero de bilhoes de parametros vezes ~0,6. Um "30B" fica em torno de 18 GB β€” por isso ele cabe (com folga) numa maquina de 36 GB.

Conceitos-chave

Recomendacao por hardware

Mostrar o "Sobre" e deixar o agente sugerir.

Menu de candidatos

Varios tamanhos, voce escolhe pelo headroom.

Familias abertas

Qwen, Mistral, Gemma β€” todas open weights.

Estimativa por B

~0,6 GB por bilhao em q4 β€” conta de padaria.

3

🎚️ Niveis de esforco

Escolher o modelo e so metade da historia. O seletor do Hermes ainda te deixa ajustar quanto esforco ele coloca em cada resposta β€” de Minimal a Max β€” alem de dois toggles: Thinking (pensar mais antes de responder) e Fast (priorizar velocidade).

Seletor de modelo do Hermes com niveis de esforco Minimal a Max, toggles Thinking e Fast, e a lista de modelos
O seletor do Hermes: a escala de esforco (Minimal β†’ Max) controla a profundidade do raciocinio, e os toggles Thinking/Fast trocam qualidade por velocidade. Tudo isso sem precisar baixar outro modelo β€” voce afina o mesmo.
↓

Minimal / Low / Fast

Respostas rapidas, gasta menos. Bom para tarefas simples e para nao esquentar a maquina.

=

Medium

O equilibrio do dia a dia β€” qualidade boa sem demorar demais.

↑

High / Max / Thinking

Maximo de raciocinio para problemas dificeis. Demora mais e pesa mais na maquina.

Novo aqui? "Effort" (esforco) nao troca o modelo β€” troca quanto ele "se esforca" antes de responder. "Thinking" e o modo em que o modelo raciocina passo a passo (aquele "Thought for X seconds" que voce ve depois). "Fast" e o oposto: corta o raciocinio para responder ja.

Conceitos-chave

Effort (esforco)

Minimal β†’ Max, a profundidade da resposta.

Thinking

Pensa mais antes de responder.

Fast

Prioriza velocidade sobre profundidade.

Mesmo modelo

Afina sem precisar baixar outro.

4

βš–οΈ A regra do headroom

Aqui esta a regra de ouro deste modulo: deixe folga de RAM. O modelo precisa caber na memoria com sobra para o sistema operacional, o navegador e o resto. Encher a RAM ate o talo faz a maquina "swapar" para o disco e tudo fica lento β€” inclusive o modelo.

CABE COM FOLGA Β· 36 GB modelo ~18 GB folga sistema βœ“ ESTOURA Β· sem folga modelo grande demais RAM cheia β†’ swap β†’ lento

A esquerda, um modelo de ~18 GB numa maquina de 36 GB deixa folga para o sistema β€” tudo voa. A direita, um modelo grande demais enche a RAM, forca o uso do disco (swap) e tudo fica lento. Por isso: prefira sobrar memoria.

βœ“ Cabe com folga

  • βœ“Modelo + contexto ocupam bem menos que a RAM total.
  • βœ“Sobra memoria para o sistema e os apps abertos.
  • βœ“Respostas rapidas, maquina responsiva.
  • βœ“Da para subir o contexto (ex.: 64k) sem travar.

βœ— Estoura a memoria

  • βœ—O modelo quase enche toda a RAM disponivel.
  • βœ—O sistema comeca a usar disco (swap) como memoria.
  • βœ—Respostas lentas e a maquina inteira engasga.
  • βœ—Subir o contexto pode simplesmente nao caber.

O metodo certo e barato: baixar β†’ testar β†’ apagar. Como o uso e gratuito, experimente um modelo, veja se a maquina aguenta com folga, e se nao gostar, apague. Explorar nao custa nada β€” so o tempo de download.

⌨️ Copy-run: ver e apagar modelos

Objetivo: listar o que voce ja baixou e remover um modelo que nao deu certo, liberando disco e RAM.

# 1) ver tudo que esta no disco
ollama list

# 2) apagar um modelo que voce nao vai usar
ollama rm <modelo>
# ex.: ollama rm gemma3:27b

Como verificar: rode ollama list de novo β€” o modelo apagado some da lista. Troque <modelo> pelo nome exato que aparece em ollama list.

Conceitos-chave

Headroom

Folga de RAM para o sistema respirar.

Swap

Usar disco como memoria β€” o que deixa tudo lento.

Baixar→testar→apagar

O ciclo barato de explorar modelos.

ollama rm

Apaga um modelo e devolve o disco.

5

πŸƒ Rapido vs capaz: o que e q4_K_M

Voce vai ver nomes como qwen3:30b-a3b-q4_K_M e se perguntar o que e aquele sufixo. O q4_K_M indica que o modelo foi quantizado: comprimido para ocupar menos memoria, trocando um tiquinho de precisao por muito menos peso.

Novo aqui? "Quantizar" e guardar os numeros internos do modelo com menos casas β€” em vez de 16 bits por valor, usa 4 bits (o "q4"). O modelo encolhe bastante e, na pratica, a qualidade quase nao cai. O "K_M" e so a variante do metodo de compressao (um bom equilibrio padrao).

πŸ“ Lendo um nome de modelo

  • β€’qwen3 β€” a familia (Qwen, versao 3).
  • β€’30b β€” 30 bilhoes de parametros (o tamanho do "cerebro").
  • β€’a3b β€” variante "ativa 3B" (mistura de especialistas: roda rapido).
  • β€’q4_K_M β€” quantizado em 4 bits: menor e mais leve.

πŸ’‘ Dica pratica

Entre duas versoes do mesmo modelo, a quantizada (q4) quase sempre e a escolha certa no local: voce cabe um modelo maior na mesma RAM e a diferenca de qualidade e pequena. Versoes "fp16" (sem quantizar) so valem se voce tem memoria sobrando de verdade.

Conceitos-chave

Quantizacao

Comprimir o modelo para ocupar menos RAM.

q4_K_M

4 bits, variante equilibrada β€” o padrao do local.

Parametros (B)

O "30B" = 30 bilhoes; tamanho do cerebro.

Tamanho vs precisao

Troca pequena de qualidade por muito menos peso.

6

🎯 Qual baixar primeiro

Para nao travar na escolha, vai uma recomendacao concreta: comece com o qwen3:30b-a3b-q4_K_M. E o "modelo rapido" do video β€” equilibrado, quantizado, com a variante a3b que o deixa veloz, e que cabe com folga em maquinas de ~32 GB ou mais. Da pra trocar depois; o importante e ter um primeiro modelo rodando.

🧩 O plano em uma frase

Leia sua RAM β†’ peca a recomendacao β†’ escolha um modelo que cabe com folga β†’ baixe o qwen3:30b-a3b-q4_K_M como primeiro. No modulo 2.3 voce baixa e conversa com ele de verdade.

E o modelo do agente (com 64k de contexto) vem no modulo 2.4 β€” esse exige um preparo extra.

Atalho honesto: nao existe "o melhor modelo" universal. O melhor e o que cabe com folga na SUA maquina e responde rapido o suficiente para voce nao desistir. Comece pelo recomendado e ajuste com o tempo.

Conceitos-chave

Primeiro modelo

qwen3:30b-a3b-q4_K_M β€” equilibrado e rapido.

Cabe com folga

~18 GB numa maquina de ~32 GB+.

Trocavel

Comece simples, ajuste depois.

Modelo do agente vem depois

Os 64k sao do modulo 2.4.

Auto-checagem (opcional): qual e a melhor escolha de modelo para a sua maquina?

🎯 Resumo do modulo

βœ“
Leia seu hardware β€” a RAM e o numero que decide qual modelo cabe.
βœ“
Peca a recomendacao β€” mostre o "Sobre" ao Hermes e ganhe um menu de candidatos.
βœ“
Headroom e q4_K_M β€” deixe folga de RAM e prefira o modelo quantizado.
βœ“
Comece pelo recomendado β€” qwen3:30b-a3b-q4_K_M; troque depois com criterio.

Proximo modulo:

2.3 β€” Baixar e conversar com seu 1o modelo