📊 Tamanhos de Modelos
O número de parâmetros (7B, 14B, 30B...) define capacidade e requisitos de hardware. Mais parâmetros = mais inteligente, mas mais memória necessária. A quantização permite reduzir o tamanho com perda mínima de qualidade.
📊 O que significa "7B", "14B", "30B"
- • B = Bilhões de parâmetros (pesos) do modelo neural
- • Cada parâmetro ocupa 2-4 bytes (dependendo da quantização)
- • Modelo 7B com quantização q4 ≈ 4-5 GB em disco/RAM
- • Modelo 30B com quantização q4 ≈ 17-20 GB em disco/RAM
Impacto do Tamanho
| Tamanho | RAM (q4_K_M) | Tokens/seg (CPU) | Tokens/seg (GPU) | Qualidade para Código |
|---|---|---|---|---|
| 7B – 9B | 4-6 GB | 8-15 tok/s | 40-80 tok/s | Boa para tarefas simples |
| 14B – 20B | 9-14 GB | 4-8 tok/s | 20-45 tok/s | Muito boa, multi-arquivo |
| 30B+ | 18-22 GB | 1-4 tok/s | 15-30 tok/s | Excelente, raciocínio complexo |
🖥️ Tabela RAM/VRAM
Use esta tabela como referência rápida para saber qual modelo cabe no seu hardware antes de iniciar um download de vários GB.
Guia Rápido: Memória → Modelo
| Memória Disponível | Tipo | Modelo Recomendado | Nota |
|---|---|---|---|
| 8 GB RAM | CPU | granite3.3:8b, glm-4.7-flash:9b | Lento, funcional |
| 16 GB RAM | CPU | devstral-2-small (quantizado) | Aceitável para uso diário |
| 32 GB RAM | CPU | qwen3-coder:30b | Boa qualidade, velocidade média |
| Apple Silicon 16 GB | Memória Unificada | granite3.3:8b, glm-4.7-flash:9b | Rápido (GPU integrada) |
| Apple Silicon 24 GB | Memória Unificada | devstral-2-small:24b | Excelente custo-benefício |
| Apple Silicon 48 GB+ | Memória Unificada | qwen3-coder:30b | Performance de topo |
| GPU 8 GB VRAM | NVIDIA/AMD | granite3.3:8b | Muito rápido |
| GPU 16 GB VRAM | NVIDIA/AMD | 14B-20B quantizado | Muito rápido |
| GPU 24 GB VRAM | NVIDIA/AMD | qwen3-coder:30b | Excelente |
🏆 Modelos Recomendados 2026
Lista curada dos melhores modelos open-source para uso com Claude Code em 2026. Priorizamos modelos com contexto longo (128K+), especialização em código e boa performance por tamanho.
🥇 qwen3-coder:30b
Melhor geral para código
Modelo da Alibaba especializado em codificação. Melhor SWE-bench entre modelos open-source de 30B em 2026.
ollama pull qwen3-coder:30b
🥈 devstral-2-small:24b
Especializado em agentes de código
Da Mistral AI, otimizado para agentes de software. Excelente para Claude Code por ser treinado para tasks multi-step.
ollama pull devstral-2-small:24b
🥉 granite3.3:8b
Melhor para hardware limitado
Da IBM. Eficiente para código, ótimo custo-benefício de hardware. Roda bem em máquinas com 8GB.
ollama pull granite3.3:8b
⚡ glm-4.7-flash:9b
Rápido, contexto longo, 8GB
Da Zhipu AI. Muito rápido e com 128K de contexto nativo. Ótima opção quando velocidade é prioridade.
ollama pull glm-4.7-flash:9b
📐 Janela de Contexto
A janela de contexto define quantos tokens (aproximadamente palavras) o modelo consegue "ver" de uma vez. Para Claude Code, que analisa arquivos inteiros de código, contexto longo é requisito, não luxo.
📐 Por que Contexto Importa para Claude Code
- • Claude Code envia o contexto completo da conversa + arquivos relevantes a cada requisição
- • Um arquivo TypeScript médio tem 500-2000 tokens; um componente complexo pode ter 10K+
- • Contexto mínimo recomendado: 64K tokens para uso básico
- • Contexto ideal: 128K+ para projetos maiores
🔍 Como Verificar o Contexto
Use o comando abaixo para ver os parâmetros internos do modelo, incluindo num_ctx:
ollama show qwen3-coder --modelfile
# Procure por:
# PARAMETER num_ctx 131072 ← 128K contexto
# PARAMETER num_ctx 32768 ← 32K contexto (mínimo aceitável)
📊 Contexto vs Consumo de RAM
Atenção: contexto maior consome RAM adicional durante inferência (KV-cache). Estimativas para modelo 8B:
- 32K contexto: +~1 GB RAM durante inferência
- 64K contexto: +~2 GB RAM durante inferência
- 128K contexto: +~4 GB RAM durante inferência
⬇️ Baixando o Modelo
Com o modelo escolhido, basta um comando para baixar. O Ollama mostra o progresso por camada e o download é retomável se interrompido.
Processo de Download
$ ollama pull qwen3-coder:30b
pulling manifest
pulling 1234abcd... 45% ████████░░░░░░░░ 9.2 GB/20.4 GB 4.2 MB/s 45m remaining
pulling 5678efgh... 100% ████████████████ 512 MB
verifying sha256 digest
writing manifest
success
- • Download em camadas — cada camada é verificada com SHA256
- • Se interrompido, retoma de onde parou na próxima execução do comando
-
•
Modelos ficam em
~/.ollama/models/(Linux/Mac) ouC:\Users\..\.ollama(Windows)
Variantes (Tags)
ollama pull qwen3-coder # latest (padrão)
ollama pull qwen3-coder:30b # 30B
ollama pull qwen3-coder:7b # 7B menor
ollama pull qwen3-coder:30b-q8 # qualidade alta
Gerenciar Espaço
ollama list # ver tudo instalado
ollama rm qwen3-coder:7b # remover específico
# Modelos ficam em ~/.ollama/models
🧪 Testando Localmente
Antes de conectar ao Claude Code, teste o modelo direto pelo CLI para validar qualidade e velocidade. Se a resposta for boa no terminal, vai ser boa no Claude Code também.
🧪 Testes Recomendados
Teste 1 — Hello World (verificar básico):
ollama run qwen3-coder
>>> escreva um hello world em Python com type hints
Teste 2 — Refatoração (verificar compreensão):
>>> refatore esta função para usar async/await:
def get_data(url): return requests.get(url).json()
Teste 3 — Contexto longo (verificar capacidade):
>>> [cole um arquivo de código de ~200 linhas]
explique o que essa classe faz
📈 Interpretando os Resultados
- • Velocidade aceitável: 10+ tokens/segundo para uso interativo
- • Sinal de problema: menos de 3 tok/s — considere modelo menor
- • /bye para sair do chat interativo
- • Ollama mostra eval rate no final de cada resposta
📋 Resumo do Módulo
Próximo Módulo:
3.3 — Configurando Claude Code + Ollama: os 3 métodos de conexão