MÓDULO 3.2

🧮 Escolhendo o Modelo Certo

Escolha o modelo ideal para seu hardware. Tamanhos, requisitos, quantização e benchmarks práticos para código.

6
Tópicos
30
Minutos
Inter.
Nível
Prático
Tipo
1

📊 Tamanhos de Modelos

O número de parâmetros (7B, 14B, 30B...) define capacidade e requisitos de hardware. Mais parâmetros = mais inteligente, mas mais memória necessária. A quantização permite reduzir o tamanho com perda mínima de qualidade.

📊 O que significa "7B", "14B", "30B"

  • B = Bilhões de parâmetros (pesos) do modelo neural
  • Cada parâmetro ocupa 2-4 bytes (dependendo da quantização)
  • Modelo 7B com quantização q4 ≈ 4-5 GB em disco/RAM
  • Modelo 30B com quantização q4 ≈ 17-20 GB em disco/RAM

Impacto do Tamanho

Tamanho RAM (q4_K_M) Tokens/seg (CPU) Tokens/seg (GPU) Qualidade para Código
7B – 9B 4-6 GB 8-15 tok/s 40-80 tok/s Boa para tarefas simples
14B – 20B 9-14 GB 4-8 tok/s 20-45 tok/s Muito boa, multi-arquivo
30B+ 18-22 GB 1-4 tok/s 15-30 tok/s Excelente, raciocínio complexo
2

🖥️ Tabela RAM/VRAM

Use esta tabela como referência rápida para saber qual modelo cabe no seu hardware antes de iniciar um download de vários GB.

Guia Rápido: Memória → Modelo

Memória Disponível Tipo Modelo Recomendado Nota
8 GB RAM CPU granite3.3:8b, glm-4.7-flash:9b Lento, funcional
16 GB RAM CPU devstral-2-small (quantizado) Aceitável para uso diário
32 GB RAM CPU qwen3-coder:30b Boa qualidade, velocidade média
Apple Silicon 16 GB Memória Unificada granite3.3:8b, glm-4.7-flash:9b Rápido (GPU integrada)
Apple Silicon 24 GB Memória Unificada devstral-2-small:24b Excelente custo-benefício
Apple Silicon 48 GB+ Memória Unificada qwen3-coder:30b Performance de topo
GPU 8 GB VRAM NVIDIA/AMD granite3.3:8b Muito rápido
GPU 16 GB VRAM NVIDIA/AMD 14B-20B quantizado Muito rápido
GPU 24 GB VRAM NVIDIA/AMD qwen3-coder:30b Excelente
3

🏆 Modelos Recomendados 2026

Lista curada dos melhores modelos open-source para uso com Claude Code em 2026. Priorizamos modelos com contexto longo (128K+), especialização em código e boa performance por tamanho.

🥇 qwen3-coder:30b

Melhor geral para código

32 GB RAM

Modelo da Alibaba especializado em codificação. Melhor SWE-bench entre modelos open-source de 30B em 2026.

128K
Contexto
~20 GB
Tamanho
Código
Foco
ollama pull qwen3-coder:30b

🥈 devstral-2-small:24b

Especializado em agentes de código

24 GB RAM

Da Mistral AI, otimizado para agentes de software. Excelente para Claude Code por ser treinado para tasks multi-step.

128K
Contexto
~14 GB
Tamanho
Agentes
Foco
ollama pull devstral-2-small:24b

🥉 granite3.3:8b

Melhor para hardware limitado

8 GB RAM

Da IBM. Eficiente para código, ótimo custo-benefício de hardware. Roda bem em máquinas com 8GB.

128K
Contexto
~5 GB
Tamanho
Eficiente
Foco
ollama pull granite3.3:8b

⚡ glm-4.7-flash:9b

Rápido, contexto longo, 8GB

8 GB RAM

Da Zhipu AI. Muito rápido e com 128K de contexto nativo. Ótima opção quando velocidade é prioridade.

128K
Contexto
~6 GB
Tamanho
Velocidade
Foco
ollama pull glm-4.7-flash:9b
4

📐 Janela de Contexto

A janela de contexto define quantos tokens (aproximadamente palavras) o modelo consegue "ver" de uma vez. Para Claude Code, que analisa arquivos inteiros de código, contexto longo é requisito, não luxo.

📐 Por que Contexto Importa para Claude Code

  • Claude Code envia o contexto completo da conversa + arquivos relevantes a cada requisição
  • Um arquivo TypeScript médio tem 500-2000 tokens; um componente complexo pode ter 10K+
  • Contexto mínimo recomendado: 64K tokens para uso básico
  • Contexto ideal: 128K+ para projetos maiores

🔍 Como Verificar o Contexto

Use o comando abaixo para ver os parâmetros internos do modelo, incluindo num_ctx:

ollama show qwen3-coder --modelfile # Procure por: # PARAMETER num_ctx 131072 ← 128K contexto # PARAMETER num_ctx 32768 ← 32K contexto (mínimo aceitável)

📊 Contexto vs Consumo de RAM

Atenção: contexto maior consome RAM adicional durante inferência (KV-cache). Estimativas para modelo 8B:

  • 32K contexto: +~1 GB RAM durante inferência
  • 64K contexto: +~2 GB RAM durante inferência
  • 128K contexto: +~4 GB RAM durante inferência
5

⬇️ Baixando o Modelo

Com o modelo escolhido, basta um comando para baixar. O Ollama mostra o progresso por camada e o download é retomável se interrompido.

Processo de Download

$ ollama pull qwen3-coder:30b pulling manifest pulling 1234abcd... 45% ████████░░░░░░░░ 9.2 GB/20.4 GB 4.2 MB/s 45m remaining pulling 5678efgh... 100% ████████████████ 512 MB verifying sha256 digest writing manifest success
  • Download em camadas — cada camada é verificada com SHA256
  • Se interrompido, retoma de onde parou na próxima execução do comando
  • Modelos ficam em ~/.ollama/models/ (Linux/Mac) ou C:\Users\..\.ollama (Windows)

Variantes (Tags)

ollama pull qwen3-coder # latest (padrão) ollama pull qwen3-coder:30b # 30B ollama pull qwen3-coder:7b # 7B menor ollama pull qwen3-coder:30b-q8 # qualidade alta

Gerenciar Espaço

ollama list # ver tudo instalado ollama rm qwen3-coder:7b # remover específico # Modelos ficam em ~/.ollama/models
6

🧪 Testando Localmente

Antes de conectar ao Claude Code, teste o modelo direto pelo CLI para validar qualidade e velocidade. Se a resposta for boa no terminal, vai ser boa no Claude Code também.

🧪 Testes Recomendados

Teste 1 — Hello World (verificar básico):

ollama run qwen3-coder >>> escreva um hello world em Python com type hints

Teste 2 — Refatoração (verificar compreensão):

>>> refatore esta função para usar async/await: def get_data(url): return requests.get(url).json()

Teste 3 — Contexto longo (verificar capacidade):

>>> [cole um arquivo de código de ~200 linhas] explique o que essa classe faz

📈 Interpretando os Resultados

  • Velocidade aceitável: 10+ tokens/segundo para uso interativo
  • Sinal de problema: menos de 3 tok/s — considere modelo menor
  • /bye para sair do chat interativo
  • Ollama mostra eval rate no final de cada resposta

📋 Resumo do Módulo

Tamanho define memória necessária — 7B=8GB, 14B=16GB, 30B=32GB (quantizado q4)
Apple Silicon tem vantagem — memória unificada permite modelos maiores com boa velocidade
Top pick 2026: qwen3-coder:30b — melhor qualidade para código, 128K contexto
Contexto mínimo: 64K — verificar com ollama show [modelo] --modelfile
Teste antes de conectar ao CC — validar velocidade e qualidade com ollama run

Próximo Módulo:

3.3 — Configurando Claude Code + Ollama: os 3 métodos de conexão