MODULO 1.4

🪟 Janela de contexto e parametros

Ao escolher um modelo, voce vai cruzar com DOIS numeros: os parametros (o "B" do modulo 1.3) e a janela de contexto. Eles medem coisas diferentes e nao da pra confundir. Este modulo separa os dois, explica por que o agente exige uma janela de 64k e como isso conversa com a memoria do seu computador.

Topicos

~30

Minutos

Basico

Nivel

Teoria

Tipo

🪟 O que e janela de contexto

A janela de contexto e a memoria de trabalho do modelo: tudo o que ele consegue "ter na cabeca" ao mesmo tempo para gerar a proxima resposta. Inclui a sua pergunta, as instrucoes, o historico da conversa e qualquer material que voce colou. Se algo nao cabe na janela, o modelo simplesmente nao ve aquilo.

Novo aqui? Pense numa mesa de trabalho. Tudo que esta EM CIMA da mesa o modelo consegue olhar de uma vez; o que nao coube fica no chao, fora de vista. A janela de contexto e o tamanho dessa mesa. Nao confunda com a memoria persistente do modulo 1.2 (o que o SO LEMBRA entre conversas): a janela e so o que cabe AGORA, nesta resposta.

A caixa verde e a janela: instrucoes, historico, pergunta e o que voce colou dividem o mesmo espaco. O que transborda (caixa cinza a direita) o modelo nao ve — por isso o TAMANHO da janela importa.

Conceitos-chave

Janela de contexto

Memoria de trabalho: o que cabe na resposta atual.

A "mesa"

O que esta em cima o modelo ve; o resto fica de fora.

O que entra

Instrucoes, historico, pergunta e material colado.

≠ memoria do SO

Janela e o "agora"; memoria e o que lembra depois.

🔤 O que e um token

A janela nao se mede em palavras nem letras, e sim em tokens. Um token e o pedacinho de texto que o modelo manipula (lembra do modulo 1.2? e o que ele preve por vez). Em portugues/ingles, vale uma regra de bolso: 1 token ≈ 3/4 de uma palavra.

Novo aqui? Token e a "moeda" do texto para o modelo. Pode ser uma palavra inteira ("casa"), um pedaco de palavra ("in" + "feliz" + "mente") ou ate um sinal de pontuacao. Como tudo e contado em tokens, e em tokens que se mede o tamanho da janela.

📊 Convertendo tokens em algo concreto

•Regra de bolso: 1 token ≈ 3/4 de palavra (≈ 4 caracteres).
•1.000 tokens ≈ 750 palavras ≈ 1,5 pagina de texto.
•64k (65.536) tokens ≈ 25.000 a 30.000 palavras — um livrinho.

Esse "64k" e justamente o numero que vamos perseguir para o agente. Antes de explicar por que, fica a intuicao: 64k de janela e espaco para o modelo ler dezenas de paginas de uma vez — bem mais do que uma conversa curta precisa.

Conceitos-chave

Token

O pedacinho de texto que o modelo manipula e conta.

≈ 3/4 de palavra

A regra de bolso para estimar tokens.

64k tokens

≈ 25-30 mil palavras; o alvo do agente.

Unidade da janela

A janela se mede em tokens, nao em palavras.

📏 Por que o agente precisa de 64k

Para um chat simples, uma janela pequena basta. Mas um agente e outra historia. Lembre do modulo 1.2: agente = LLM + ferramentas. Cada peca disso OCUPA contexto, e tudo precisa caber na mesma janela ao mesmo tempo.

🧾

Instrucoes do sistema

Como o agente deve agir, suas regras e personas — isso fica na janela o tempo todo.

🛠️

Descricao das ferramentas

Cada ferramenta (buscar, rodar, editar) tem instrucoes que tambem ocupam tokens.

📥

Resultados das ferramentas

O que cada ferramenta devolve (o conteudo de um arquivo, uma busca) volta para a janela.

🔁

Historico dos passos

O agente encadeia varios passos; ele precisa lembrar o que ja fez, e isso se acumula.

🧠 Janela pequena = agente "amnesico"

Se a janela for curta, o agente esquece os primeiros passos no meio do caminho, perde o contexto das ferramentas e trava tarefas multi-etapa. Por isso o curso usa 64k: e o espaco que da folga para o agente trabalhar de verdade, sem esquecer onde estava.

Conceitos-chave

Tudo na mesma janela

Instrucoes + ferramentas + historico dividem o espaco.

Ferramentas custam tokens

Descricoes e resultados ocupam contexto.

64k = folga

Espaco para o agente nao esquecer os passos.

Janela curta trava

Pouco contexto = agente perdido em tarefas longas.

🔢 Parametros vs contexto: dois numeros diferentes

Eis a confusao mais comum de iniciante, e o coracao deste modulo: parametros e janela de contexto sao numeros independentes. Um nao depende do outro. Voce precisa aprender a ler os DOIS ao olhar um modelo.

🔢 Parametros (o "B")

•Mede o TAMANHO do cerebro (quanto ele "sabe").
•Fixo no modelo: 32B e sempre 32B.
•Define capacidade e peso na memoria.

🪟 Janela de contexto

•Mede QUANTO ele le de uma vez (a "mesa").
•Pode ser ajustada (vamos esticar para 64k na T2).
•Define quanta informacao cabe no "agora".

Analogia: imagine uma pessoa lendo. Os parametros sao a inteligencia e o repertorio dela (o que ela ja sabe); a janela de contexto e quantas paginas ela consegue manter abertas na frente ao mesmo tempo. Uma pessoa muito inteligente com poucas paginas abertas perde o fio; uma com a mesa cheia mas pouco repertorio le tudo e entende pouco. O agente precisa de bom repertorio E mesa grande.

Conceitos-chave

Independentes

Os dois numeros nao dependem um do outro.

Parametros = repertorio

O quanto o modelo "sabe"; fixo.

Contexto = a mesa

O quanto ele le de uma vez; ajustavel.

Ler os dois

Ao escolher, olhe o "B" E a janela.

⚖️ Tamanho do modelo vs RAM (precisa de folga)

Tudo isso desemboca no seu hardware. Para um modelo rodar, ele tem que caber na memoria — e nao basta caber justinho: precisa sobrar folga. Tanto os parametros quanto a janela de contexto consomem RAM, e os dois somam.

Novo aqui? RAM (memoria de trabalho do computador) e onde o modelo fica enquanto roda. Em Macs com chip Apple, ela e "unificada" e compartilhada com o resto do sistema. Regra simples: o modelo + a janela de contexto + o que o sistema ja usa tem que caber na sua RAM, com sobra — senao trava ou fica lentissimo.

✓ Com folga de RAM

✓O modelo carrega e responde fluido.
✓Sobra para o sistema e outros apps.
✓Da pra abrir uma janela de contexto maior.

✗ Sem folga (no limite)

✗O modelo trava ou nem carrega.
✗Fica lentissimo (o sistema vai pro disco).
✗Contexto grande piora tudo, porque tambem pesa.

📊 O contexto tambem pesa

Cuidado: esticar a janela para 64k nao e de graca. Quanto maior o contexto, mais RAM ele reserva enquanto roda. Por isso a escolha pratica (na Trilha 2) e sempre um equilibrio: parametros que cabem + a janela que voce realmente precisa, deixando folga para o sistema.

Conceitos-chave

RAM

Memoria de trabalho onde o modelo roda.

Precisa de folga

Caber justo nao basta; sobra evita travar.

Contexto pesa

Janela maior consome mais RAM enquanto roda.

Parametros + janela

Os dois somam na conta da memoria.

🎯 Escolher o contexto por tarefa

A conclusao pratica: voce nao precisa de UM modelo so. Da pra ter um modelo rapido de janela modesta para conversas do dia a dia, e um modelo do agente com janela de 64k para quando o trabalho exige memoria longa e ferramentas. Cada tarefa pede um ajuste de contexto.

🏃 Modelo rapido (chat)

•Janela menor basta: perguntas curtas, respostas diretas.
•Leve na RAM, responde rapido.
•Ideal para o uso casual da Trilha 2.

🤖 Modelo do agente (64k)

•Janela grande: instrucoes + ferramentas + historico.
•Pesa mais, mas aguenta tarefas multi-etapa.
•E o que vamos preparar no modulo 2.4.

Spoiler da Trilha 2: no modulo 2.4 voce vai criar exatamente esse "modelo do agente" — pegando um modelo de codigo e dizendo a ele para usar 64k de contexto, via um pequeno arquivo de configuracao (Modelfile). Por enquanto, basta entender o PORQUE: o agente precisa da mesa grande.

Conceitos-chave

Contexto por tarefa

Ajuste a janela ao que a tarefa exige.

Modelo rapido

Janela modesta para o dia a dia, leve e veloz.

Modelo do agente

64k de janela para tarefas longas com ferramentas.

Mais de um modelo

Da pra ter varios e usar o certo por tarefa.

Auto-checagem (opcional): qual afirmacao esta correta sobre parametros e janela de contexto?

🎯 Resumo do modulo

✓

Janela de contexto — a memoria de trabalho: o que o modelo enxerga de uma vez; medida em tokens.

✓

Token — ≈ 3/4 de palavra; 64k ≈ 25-30 mil palavras.

✓

64k no agente — instrucoes, ferramentas e historico dividem a janela; precisa de folga.

✓

Parametros ≠ contexto + RAM — dois numeros independentes; os dois pesam na memoria, escolha por tarefa.

Proximo modulo:

1.5 — O trade-off: privacidade, performance e preco

← Voltar para a Trilha Proximo modulo →