MODULO 2.4

๐ŸชŸ O modelo do agente: Qwen 3 Coder 64k

O modelo que serve para conversar nem sempre serve para agir. Um agente precisa lembrar de muita coisa ao mesmo tempo โ€” e isso pede uma janela de contexto maior. Neste modulo voce vai pegar o Qwen 3 Coder e, com um arquivo de tres linhas, criar uma versao com 64k de contexto pronta para alimentar o Hermes.

6
Topicos
~25
Minutos
Pratico
Nivel
Hands-on
Tipo
1

โ“ Por que o agente exige outro modelo

No modulo 2.3 voce baixou um modelo "rapido" e conversou com ele. Para bater papo, ele e perfeito. Mas o Hermes nao quer so conversar โ€” ele quer agir: ler arquivos, rodar comandos, lembrar do que ja fez e planejar os proximos passos. Tudo isso ocupa a janela de contexto. Por isso o agente precisa de um modelo com 64k de contexto, e nao do modelo padrao.

Lembrete: "janela de contexto" e a memoria de trabalho do modelo โ€” quanto texto ele consegue manter em mente de uma vez. Vimos isso na Trilha 1 (modulo 1.4). 64k tokens equivalem, grosso modo, a 25-30 mil palavras de espaco de trabalho.

โœ“ Modelo do AGENTE (64k)

  • โœ“Cabe o historico da tarefa inteira.
  • โœ“Sobra espaco para descricoes de ferramentas.
  • โœ“Le arquivos grandes sem "esquecer" o comeco.
  • โœ“Sustenta varios passos de raciocinio.

โœ— Modelo de chat padrao

  • โœ—Contexto curto estoura rapido com ferramentas.
  • โœ—"Esquece" instrucoes do inicio da tarefa.
  • โœ—Perde o fio em tarefas multi-passo.
  • โœ—Otimo para conversa, fraco para automacao.

Conceitos-chave

Agir vs conversar

Agente usa ferramentas; chat so responde texto.

Contexto ocupado

Historico + ferramentas comem a janela.

64k tokens

A folga minima que o agente confortavelmente pede.

Modelo dedicado

Um modelo so para o trabalho do agente.

2

๐Ÿ”Ž O que e o Qwen 3 Coder

O Qwen 3 Coder e um modelo aberto da familia Qwen, treinado com foco em codigo e tarefas de agente: ler arquivos, seguir instrucoes tecnicas, escrever e corrigir programas. Ele e exatamente o tipo de modelo que um SO de IA quer por baixo, porque a maior parte do trabalho do agente e "mexer em arquivos e rodar coisas".

๐Ÿ“Š Por que ele e a base do agente

  • โ€ขOpen weights: baixa uma vez, roda local, sem mensalidade.
  • โ€ขTreino para codigo: bom em ler, escrever e editar arquivos.
  • โ€ขTamanho 30B: roda em maquinas com RAM generosa (ver modulo 2.2).
  • โ€ขBase flexivel: da para derivar uma versao com mais contexto โ€” e e o que faremos.

Novo aqui? "Coder" no nome nao significa que ele so serve para programar โ€” significa que foi treinado nesse tipo de tarefa estruturada. Como o trabalho de um agente parece muito com programar (passos, ferramentas, arquivos), esse perfil cai como uma luva.

Conceitos-chave

Qwen 3 Coder

Modelo aberto focado em codigo e agentes.

Open weights

Os pesos sao publicos; voce roda local.

Tag 30b

Variante de ~30 bilhoes de parametros.

Modelo base

A partir dele criamos uma versao 64k.

3

๐Ÿงฉ O truque do num_ctx (o Modelfile)

Aqui esta a sacada: voce nao precisa de outro download para ter mais contexto. Voce pega o modelo que ja existe e cria uma "receita" que diz ao Ollama: use este modelo, mas com a janela aberta em 64k. Essa receita e um arquivo chamado Modelfile.

Novo aqui? Um Modelfile e um arquivo de texto com instrucoes para o Ollama montar um modelo. Pense numa receita: a linha FROM diz qual modelo e a base; PARAMETER ajusta um comportamento. Aqui mexemos so no num_ctx (numero de tokens de contexto).

๐ŸŽฏ Objetivo

Criar um arquivo de texto chamado Modelfile (sem extensao) numa pasta a sua escolha, com exatamente estas duas linhas. A primeira aponta o modelo base; a segunda abre a janela para 65536 tokens (= 64k).

Conteudo do arquivo Modelfile:

FROM qwen3-coder:30b
PARAMETER num_ctx 65536

Como verificar: o arquivo deve ter so essas 2 linhas, em texto puro. Confira com cat Modelfile (Mac/Linux) ou abrindo no bloco de notas. 65536 = 64 ร— 1024; e o numero que o video mostra (context_length: 65536).

Variavel: <qwen3-coder:30b> e o modelo base โ€” troque so se voce usa outra tag/modelo. O resto fica igual.

Conceitos-chave

Modelfile

A receita de texto que define um modelo derivado.

FROM

Aponta o modelo base (aqui, qwen3-coder:30b).

PARAMETER num_ctx

Define o tamanho da janela de contexto.

65536

64k em tokens (64 ร— 1024).

4

๐Ÿ—๏ธ Criar o modelo derivado

Com o Modelfile salvo, um unico comando monta o novo modelo. O Ollama le a receita, reaproveita os pesos que ja estao no seu disco (nao baixa de novo) e registra um modelo novo chamado qwen3-coder-64k.

๐ŸŽฏ Objetivo

Rode este comando na mesma pasta onde o arquivo Modelfile esta. O -f Modelfile diz qual receita usar; qwen3-coder-64k e o nome que o seu novo modelo vai ter.

ollama create qwen3-coder-64k -f Modelfile

Como verificar: o terminal mostra linhas de progresso e termina com success. E rapido โ€” ele nao re-baixa o modelo, so cria a nova configuracao em cima do que ja existe.

Variavel: o nome qwen3-coder-64k e escolha sua โ€” use qualquer rotulo que ajude a lembrar "este e o do agente, com 64k".

Tela do video mostrando o Modelfile com PARAMETER num_ctx 65536 e a conversa sobre o modelo qwen3-coder-64k de 64k de contexto
Frame do video: repare no PARAMETER num_ctx 65536 e no nome do modelo derivado (qwen3-coder-64k). E essa versao, e nao o modelo padrao, que o agente vai usar โ€” porque ela tem a janela de 64k aberta.

Conceitos-chave

ollama create

Monta um modelo a partir de um Modelfile.

-f Modelfile

Aponta o arquivo de receita a usar.

Reuso de pesos

Nao re-baixa; aproveita o modelo no disco.

qwen3-coder-64k

O nome do novo modelo derivado.

5

โœ… Conferir que deu certo

Antes de plugar no Hermes, vale provar que o modelo existe e que ele realmente esta com 64k. Dois comandos resolvem: um lista os modelos, o outro mostra os detalhes โ€” incluindo o context length.

๐ŸŽฏ Objetivo

Confirmar que qwen3-coder-64k aparece na lista e inspecionar o contexto dele.

ollama list
ollama show qwen3-coder-64k

Como verificar: em ollama list o nome qwen3-coder-64k deve aparecer na tabela. Em ollama show procure context_length: 65536 (ou o parametro num_ctx 65536). Se vir 65536, esta pronto.

qwen3-coder:30b modelo base contexto padrao Modelfile FROM qwen3-coder:30b num_ctx 65536 qwen3-coder-64k janela de 64k aberta pronto pro agente โœ“ o modelo base nao e re-baixado โ€” so ganha uma janela maior

A receita (Modelfile) pega o modelo base e abre a janela para 64k, produzindo o qwen3-coder-64k. Repare: nao ha download novo no meio โ€” o ganho de contexto e configuracao, nao re-instalacao.

Conceitos-chave

ollama list

Tabela dos modelos instalados.

ollama show

Detalhes de um modelo, incluindo contexto.

context_length

Deve ler 65536 = 64k confirmado.

Verificar antes

Provar o 64k antes de conectar ao Hermes.

6

โš–๏ธ 64k custa memoria

Nao ha almoco gratis: abrir a janela para 64k consome mais RAM. Quanto maior o contexto, mais memoria o Ollama reserva para guardar tudo o que o modelo esta "lendo" ao mesmo tempo. Por isso a regra do headroom (modulo 2.2) volta a valer aqui.

โš ๏ธ O erro a evitar

Forcar 64k numa maquina justa de RAM pode deixar o modelo lento ou fazer o sistema usar disco como memoria (swap). Se travar, reduza o num_ctx (ex.: 32768) ou use um modelo base menor. Contexto e potencia, mas peso tambem.

๐Ÿ’ก Dica pratica

Deixe folga: o agente precisa do modelo carregado E do contexto cheio ao mesmo tempo. Se sua maquina e enxuta, teste primeiro com o modelo padrao e suba o num_ctx aos poucos. Baixar, testar e apagar continua barato.

Conceitos-chave

Contexto pesa RAM

Janela maior = mais memoria reservada.

Headroom

Deixe folga de RAM para o contexto cheio.

Swap = lento

Sem RAM, o sistema usa disco e arrasta.

Ajuste o num_ctx

Reduza para 32768 se faltar memoria.

Auto-checagem (opcional): por que criamos o qwen3-coder-64k em vez de usar o modelo de chat padrao?

๐ŸŽฏ Resumo do modulo

โœ“
O agente pede 64k โ€” historico + ferramentas ocupam a janela; o modelo de chat e curto demais.
โœ“
Qwen 3 Coder e a base โ€” modelo aberto focado em codigo/agentes, otimo por baixo do Hermes.
โœ“
Modelfile de 2 linhas โ€” FROM + PARAMETER num_ctx 65536, depois ollama create qwen3-coder-64k -f Modelfile.
โœ“
Conferir e pesar โ€” ollama show mostra 65536; lembre que 64k custa mais RAM.

Proximo modulo:

2.5 โ€” Conectar o modelo local ao Agente Hermes