Módulo 3.2: Escolhendo o Modelo Certo

📊 Tamanhos de Modelos

O número de parâmetros (7B, 14B, 30B...) define capacidade e requisitos de hardware. Mais parâmetros = mais inteligente, mas mais memória necessária. A quantização permite reduzir o tamanho com perda mínima de qualidade.

📊 O que significa "7B", "14B", "30B"

• B = Bilhões de parâmetros (pesos) do modelo neural
• Cada parâmetro ocupa 2-4 bytes (dependendo da quantização)
• Modelo 7B com quantização q4 ≈ 4-5 GB em disco/RAM
• Modelo 30B com quantização q4 ≈ 17-20 GB em disco/RAM

Impacto do Tamanho

Tamanho	RAM (q4_K_M)	Tokens/seg (CPU)	Tokens/seg (GPU)	Qualidade para Código
7B – 9B	4-6 GB	8-15 tok/s	40-80 tok/s	Boa para tarefas simples
14B – 20B	9-14 GB	4-8 tok/s	20-45 tok/s	Muito boa, multi-arquivo
30B+	18-22 GB	1-4 tok/s	15-30 tok/s	Excelente, raciocínio complexo

🖥️ Tabela RAM/VRAM

Use esta tabela como referência rápida para saber qual modelo cabe no seu hardware antes de iniciar um download de vários GB.

Guia Rápido: Memória → Modelo

Memória Disponível	Tipo	Modelo Recomendado	Nota
8 GB RAM	CPU	granite3.3:8b, glm-4.7-flash:9b	Lento, funcional
16 GB RAM	CPU	devstral-2-small (quantizado)	Aceitável para uso diário
32 GB RAM	CPU	qwen3-coder:30b	Boa qualidade, velocidade média
Apple Silicon 16 GB	Memória Unificada	granite3.3:8b, glm-4.7-flash:9b	Rápido (GPU integrada)
Apple Silicon 24 GB	Memória Unificada	devstral-2-small:24b	Excelente custo-benefício
Apple Silicon 48 GB+	Memória Unificada	qwen3-coder:30b	Performance de topo
GPU 8 GB VRAM	NVIDIA/AMD	granite3.3:8b	Muito rápido
GPU 16 GB VRAM	NVIDIA/AMD	14B-20B quantizado	Muito rápido
GPU 24 GB VRAM	NVIDIA/AMD	qwen3-coder:30b	Excelente

🏆 Modelos Recomendados 2026

Lista curada dos melhores modelos open-source para uso com Claude Code em 2026. Priorizamos modelos com contexto longo (128K+), especialização em código e boa performance por tamanho.

🥇 qwen3-coder:30b

Melhor geral para código

32 GB RAM

Modelo da Alibaba especializado em codificação. Melhor SWE-bench entre modelos open-source de 30B em 2026.

128K

Contexto

~20 GB

Tamanho

Código

Foco

ollama pull qwen3-coder:30b

🥈 devstral-2-small:24b

Especializado em agentes de código

24 GB RAM

Da Mistral AI, otimizado para agentes de software. Excelente para Claude Code por ser treinado para tasks multi-step.

128K

Contexto

~14 GB

Tamanho

Agentes

Foco

ollama pull devstral-2-small:24b

🥉 granite3.3:8b

Melhor para hardware limitado

8 GB RAM

Da IBM. Eficiente para código, ótimo custo-benefício de hardware. Roda bem em máquinas com 8GB.

128K

Contexto

~5 GB

Tamanho

Eficiente

Foco

ollama pull granite3.3:8b

⚡ glm-4.7-flash:9b

Rápido, contexto longo, 8GB

8 GB RAM

Da Zhipu AI. Muito rápido e com 128K de contexto nativo. Ótima opção quando velocidade é prioridade.

128K

Contexto

~6 GB

Tamanho

Velocidade

Foco

ollama pull glm-4.7-flash:9b

📐 Janela de Contexto

A janela de contexto define quantos tokens (aproximadamente palavras) o modelo consegue "ver" de uma vez. Para Claude Code, que analisa arquivos inteiros de código, contexto longo é requisito, não luxo.

📐 Por que Contexto Importa para Claude Code

• Claude Code envia o contexto completo da conversa + arquivos relevantes a cada requisição
• Um arquivo TypeScript médio tem 500-2000 tokens; um componente complexo pode ter 10K+
• Contexto mínimo recomendado: 64K tokens para uso básico
• Contexto ideal: 128K+ para projetos maiores

🔍 Como Verificar o Contexto

Use o comando abaixo para ver os parâmetros internos do modelo, incluindo num_ctx:

ollama show qwen3-coder --modelfile

# Procure por:
# PARAMETER num_ctx 131072  ← 128K contexto
# PARAMETER num_ctx 32768   ← 32K contexto (mínimo aceitável)

📊 Contexto vs Consumo de RAM

Atenção: contexto maior consome RAM adicional durante inferência (KV-cache). Estimativas para modelo 8B:

32K contexto: +~1 GB RAM durante inferência
64K contexto: +~2 GB RAM durante inferência
128K contexto: +~4 GB RAM durante inferência

⬇️ Baixando o Modelo

Com o modelo escolhido, basta um comando para baixar. O Ollama mostra o progresso por camada e o download é retomável se interrompido.

Processo de Download

$ ollama pull qwen3-coder:30b
pulling manifest
pulling 1234abcd...  45% ████████░░░░░░░░  9.2 GB/20.4 GB  4.2 MB/s 45m remaining
pulling 5678efgh...  100% ████████████████  512 MB
verifying sha256 digest
writing manifest
success

• Download em camadas — cada camada é verificada com SHA256
• Se interrompido, retoma de onde parou na próxima execução do comando
• Modelos ficam em ~/.ollama/models/ (Linux/Mac) ou C:\Users\..\.ollama (Windows)

Variantes (Tags)

ollama pull qwen3-coder        # latest (padrão)
ollama pull qwen3-coder:30b    # 30B
ollama pull qwen3-coder:7b     # 7B menor
ollama pull qwen3-coder:30b-q8 # qualidade alta

Gerenciar Espaço

ollama list         # ver tudo instalado
ollama rm qwen3-coder:7b # remover específico
# Modelos ficam em ~/.ollama/models

🧪 Testando Localmente

Antes de conectar ao Claude Code, teste o modelo direto pelo CLI para validar qualidade e velocidade. Se a resposta for boa no terminal, vai ser boa no Claude Code também.

🧪 Testes Recomendados

Teste 1 — Hello World (verificar básico):

ollama run qwen3-coder
>>> escreva um hello world em Python com type hints

Teste 2 — Refatoração (verificar compreensão):

>>> refatore esta função para usar async/await:
def get_data(url): return requests.get(url).json()

Teste 3 — Contexto longo (verificar capacidade):

>>> [cole um arquivo de código de ~200 linhas]
explique o que essa classe faz

📈 Interpretando os Resultados

• Velocidade aceitável: 10+ tokens/segundo para uso interativo
• Sinal de problema: menos de 3 tok/s — considere modelo menor
• /bye para sair do chat interativo
• Ollama mostra eval rate no final de cada resposta

📋 Resumo do Módulo

✓

Tamanho define memória necessária — 7B=8GB, 14B=16GB, 30B=32GB (quantizado q4)

✓

Apple Silicon tem vantagem — memória unificada permite modelos maiores com boa velocidade

✓

Top pick 2026: qwen3-coder:30b — melhor qualidade para código, 128K contexto

✓

Contexto mínimo: 64K — verificar com ollama show [modelo] --modelfile

✓

Teste antes de conectar ao CC — validar velocidade e qualidade com ollama run

Próximo Módulo:

3.3 — Configurando Claude Code + Ollama: os 3 métodos de conexão

← Módulo Anterior Próximo Módulo →