๐ช Janela de contexto e parametros
Ao escolher um modelo, voce vai cruzar com DOIS numeros: os parametros (o "B" do modulo 1.3) e a janela de contexto. Eles medem coisas diferentes e nao da pra confundir. Este modulo separa os dois, explica por que o agente exige uma janela de 64k e como isso conversa com a memoria do seu computador.
๐ช O que e janela de contexto
A janela de contexto e a memoria de trabalho do modelo: tudo o que ele consegue "ter na cabeca" ao mesmo tempo para gerar a proxima resposta. Inclui a sua pergunta, as instrucoes, o historico da conversa e qualquer material que voce colou. Se algo nao cabe na janela, o modelo simplesmente nao ve aquilo.
Novo aqui? Pense numa mesa de trabalho. Tudo que esta EM CIMA da mesa o modelo consegue olhar de uma vez; o que nao coube fica no chao, fora de vista. A janela de contexto e o tamanho dessa mesa. Nao confunda com a memoria persistente do modulo 1.2 (o que o SO LEMBRA entre conversas): a janela e so o que cabe AGORA, nesta resposta.
A caixa verde e a janela: instrucoes, historico, pergunta e o que voce colou dividem o mesmo espaco. O que transborda (caixa cinza a direita) o modelo nao ve โ por isso o TAMANHO da janela importa.
Conceitos-chave
Memoria de trabalho: o que cabe na resposta atual.
O que esta em cima o modelo ve; o resto fica de fora.
Instrucoes, historico, pergunta e material colado.
Janela e o "agora"; memoria e o que lembra depois.
๐ค O que e um token
A janela nao se mede em palavras nem letras, e sim em tokens. Um token e o pedacinho de texto que o modelo manipula (lembra do modulo 1.2? e o que ele preve por vez). Em portugues/ingles, vale uma regra de bolso: 1 token โ 3/4 de uma palavra.
Novo aqui? Token e a "moeda" do texto para o modelo. Pode ser uma palavra inteira ("casa"), um pedaco de palavra ("in" + "feliz" + "mente") ou ate um sinal de pontuacao. Como tudo e contado em tokens, e em tokens que se mede o tamanho da janela.
๐ Convertendo tokens em algo concreto
- โขRegra de bolso: 1 token โ 3/4 de palavra (โ 4 caracteres).
- โข1.000 tokens โ 750 palavras โ 1,5 pagina de texto.
- โข64k (65.536) tokens โ 25.000 a 30.000 palavras โ um livrinho.
Esse "64k" e justamente o numero que vamos perseguir para o agente. Antes de explicar por que, fica a intuicao: 64k de janela e espaco para o modelo ler dezenas de paginas de uma vez โ bem mais do que uma conversa curta precisa.
Conceitos-chave
O pedacinho de texto que o modelo manipula e conta.
A regra de bolso para estimar tokens.
โ 25-30 mil palavras; o alvo do agente.
A janela se mede em tokens, nao em palavras.
๐ Por que o agente precisa de 64k
Para um chat simples, uma janela pequena basta. Mas um agente e outra historia. Lembre do modulo 1.2: agente = LLM + ferramentas. Cada peca disso OCUPA contexto, e tudo precisa caber na mesma janela ao mesmo tempo.
Instrucoes do sistema
Como o agente deve agir, suas regras e personas โ isso fica na janela o tempo todo.
Descricao das ferramentas
Cada ferramenta (buscar, rodar, editar) tem instrucoes que tambem ocupam tokens.
Resultados das ferramentas
O que cada ferramenta devolve (o conteudo de um arquivo, uma busca) volta para a janela.
Historico dos passos
O agente encadeia varios passos; ele precisa lembrar o que ja fez, e isso se acumula.
๐ง Janela pequena = agente "amnesico"
Se a janela for curta, o agente esquece os primeiros passos no meio do caminho, perde o contexto das ferramentas e trava tarefas multi-etapa. Por isso o curso usa 64k: e o espaco que da folga para o agente trabalhar de verdade, sem esquecer onde estava.
Conceitos-chave
Instrucoes + ferramentas + historico dividem o espaco.
Descricoes e resultados ocupam contexto.
Espaco para o agente nao esquecer os passos.
Pouco contexto = agente perdido em tarefas longas.
๐ข Parametros vs contexto: dois numeros diferentes
Eis a confusao mais comum de iniciante, e o coracao deste modulo: parametros e janela de contexto sao numeros independentes. Um nao depende do outro. Voce precisa aprender a ler os DOIS ao olhar um modelo.
๐ข Parametros (o "B")
- โขMede o TAMANHO do cerebro (quanto ele "sabe").
- โขFixo no modelo: 32B e sempre 32B.
- โขDefine capacidade e peso na memoria.
๐ช Janela de contexto
- โขMede QUANTO ele le de uma vez (a "mesa").
- โขPode ser ajustada (vamos esticar para 64k na T2).
- โขDefine quanta informacao cabe no "agora".
Analogia: imagine uma pessoa lendo. Os parametros sao a inteligencia e o repertorio dela (o que ela ja sabe); a janela de contexto e quantas paginas ela consegue manter abertas na frente ao mesmo tempo. Uma pessoa muito inteligente com poucas paginas abertas perde o fio; uma com a mesa cheia mas pouco repertorio le tudo e entende pouco. O agente precisa de bom repertorio E mesa grande.
Conceitos-chave
Os dois numeros nao dependem um do outro.
O quanto o modelo "sabe"; fixo.
O quanto ele le de uma vez; ajustavel.
Ao escolher, olhe o "B" E a janela.
โ๏ธ Tamanho do modelo vs RAM (precisa de folga)
Tudo isso desemboca no seu hardware. Para um modelo rodar, ele tem que caber na memoria โ e nao basta caber justinho: precisa sobrar folga. Tanto os parametros quanto a janela de contexto consomem RAM, e os dois somam.
Novo aqui? RAM (memoria de trabalho do computador) e onde o modelo fica enquanto roda. Em Macs com chip Apple, ela e "unificada" e compartilhada com o resto do sistema. Regra simples: o modelo + a janela de contexto + o que o sistema ja usa tem que caber na sua RAM, com sobra โ senao trava ou fica lentissimo.
โ Com folga de RAM
- โO modelo carrega e responde fluido.
- โSobra para o sistema e outros apps.
- โDa pra abrir uma janela de contexto maior.
โ Sem folga (no limite)
- โO modelo trava ou nem carrega.
- โFica lentissimo (o sistema vai pro disco).
- โContexto grande piora tudo, porque tambem pesa.
๐ O contexto tambem pesa
Cuidado: esticar a janela para 64k nao e de graca. Quanto maior o contexto, mais RAM ele reserva enquanto roda. Por isso a escolha pratica (na Trilha 2) e sempre um equilibrio: parametros que cabem + a janela que voce realmente precisa, deixando folga para o sistema.
Conceitos-chave
Memoria de trabalho onde o modelo roda.
Caber justo nao basta; sobra evita travar.
Janela maior consome mais RAM enquanto roda.
Os dois somam na conta da memoria.
๐ฏ Escolher o contexto por tarefa
A conclusao pratica: voce nao precisa de UM modelo so. Da pra ter um modelo rapido de janela modesta para conversas do dia a dia, e um modelo do agente com janela de 64k para quando o trabalho exige memoria longa e ferramentas. Cada tarefa pede um ajuste de contexto.
๐ Modelo rapido (chat)
- โขJanela menor basta: perguntas curtas, respostas diretas.
- โขLeve na RAM, responde rapido.
- โขIdeal para o uso casual da Trilha 2.
๐ค Modelo do agente (64k)
- โขJanela grande: instrucoes + ferramentas + historico.
- โขPesa mais, mas aguenta tarefas multi-etapa.
- โขE o que vamos preparar no modulo 2.4.
Spoiler da Trilha 2: no modulo 2.4 voce vai criar exatamente esse "modelo do agente" โ pegando um modelo de codigo e dizendo a ele para usar 64k de contexto, via um pequeno arquivo de configuracao (Modelfile). Por enquanto, basta entender o PORQUE: o agente precisa da mesa grande.
Conceitos-chave
Ajuste a janela ao que a tarefa exige.
Janela modesta para o dia a dia, leve e veloz.
64k de janela para tarefas longas com ferramentas.
Da pra ter varios e usar o certo por tarefa.
Auto-checagem (opcional): qual afirmacao esta correta sobre parametros e janela de contexto?
๐ฏ Resumo do modulo
Proximo modulo:
1.5 โ O trade-off: privacidade, performance e preco