π§ Fundamentos
Antes de instalar qualquer coisa: por que rodar IA localmente, o vocabulario que voce vai usar o curso inteiro (LLM, agente, "SO de IA"), o que e o Ollama, o que e janela de contexto β e os tres modos de operar entre privado e nuvem.
Leia da esquerda pra direita: o que ia para a nuvem passa a ficar na sua maquina, que alimenta memoria, agente e modelo β resultando em custo zero, offline e privado.
Mapa da trilha
π Por que local e o futuro
A nuvem foi o passado
π£οΈ O vocabulario
LLM, agente, SO de IA
π¦ O que e o Ollama
A chave dos modelos abertos
πͺ Contexto e parametros
Por que 64k importa
βοΈ O trade-off
Privacidade, performance, preco
ποΈ Os tres modos
Vault, Connected, Cloud
Conteudo detalhado
π Por que IA local e o futuro
A direcao de viagem da industria: da nuvem para o local. Ownership, custo zero, offline e os casos onde isso muda o jogo.
A industria moveu tudo para a nuvem; agora o movimento e de volta para a maquina do usuario β o local.
Entender a "direcao de viagem" te coloca a frente: a habilidade de rodar local sera tao basica quanto usar um computador.
Nuvemβlocal, ownership, supercomputador pessoal (a analogia do Jensen Huang).
Voce possui fisicamente o modelo e os dados; nada vai para OpenAI ou Anthropic.
Parar de "alugar inteligencia" muda o jogo de custo, privacidade e controle.
Posse, dados em casa, sem vigilancia, sem vendor lock-in.
Depois de baixar o modelo, cada uso e gratuito β nao ha cobranca por token nem mensalidade.
Background agents podem rodar 24/7 sem te dar um susto na fatura.
CAPEX vs OPEX, $0/token, sem rate limit.
Como o modelo roda na sua maquina, ele funciona sem rede β no aviao, off-grid, onde for.
Sua produtividade nao depende mais de conexao nem de um servico estar no ar.
Disponibilidade, resiliencia, independencia de rede.
Dados de cliente, saude, IP proprietario e ambientes regulados (SOC 2, GDPR, ISO 27001).
Para muitas empresas, o local nao e luxo β e o unico jeito legal de usar IA com certos dados.
Compliance, soberania de dados, "cerebro privado" do time.
Local nao e religiao: voce traz o melhor pro trabalho e troca quando deixa de ser o melhor.
Evita o erro de forcar local onde a nuvem entrega muito mais β e vice-versa.
Pragmatismo, "siga o que funciona", divisao por % de trabalho.
π£οΈ O vocabulario: LLM, agente e SO de IA
As palavras que voltam o curso inteiro, definidas do zero: LLM, agente, ferramentas, memoria, persona, skill e o que e um "sistema operacional de IA".
Um LLM e o modelo de IA do tipo que roda atras do ChatGPT β preve a proxima palavra a partir do texto.
E a peca que voce vai baixar e rodar; saber o que ele e desmistifica o resto.
Modelo, previsao de tokens, pesos.
Um agente e um LLM que usa "ferramentas": buscar na web, rodar codigo, editar arquivos β sozinho.
O Hermes e um agente; entender ferramentas explica por que ele faz coisas, nao so responde.
Ferramentas (tools), acao, loop de raciocinio.
Um lugar unico que reune memoria, skills, conexoes e agentes do seu mundo de IA.
E o que voce vai montar na Trilha 3 β o "SO Hermes" rodando local.
Orquestracao, um lar para tudo, configuravel.
Memoria = o que ele lembra; persona = como ele age; skill = uma capacidade que voce pluga.
Sao os blocos que voce configura para o agente virar SEU agente.
Memoria persistente, comportamento, capacidades plugaveis.
Integracoes que dao ao agente acesso a fontes β repositorios, arquivos, ferramentas.
Conexoes transformam o agente de "conversador" em "operador" do seu trabalho.
Integracoes, contexto externo, acoes no mundo real.
Local = roda na sua maquina; nuvem = roda na infraestrutura de uma empresa.
E a distincao que organiza o curso inteiro e os tres modos do modulo 1.6.
Infra propria vs alugada, onde os dados ficam.
π¦ O que e o Ollama e os modelos abertos
O programa que destrava os modelos abertos (Qwen, DeepSeek, Gemma, Mistral) na sua maquina β baixar uma vez e rodar de graca pra sempre.
Um programa que baixa, gerencia e roda modelos de IA na sua maquina, com app e terminal.
E a base de tudo: sem ele, nao ha modelo local para o agente usar.
Runtime local, gerenciador de modelos, simples de usar.
Modelos liberados publicamente que voce pode baixar e rodar sem pedir licenca a ninguem.
A competicao do open-source e o que torna o local viavel e cada vez melhor.
Open weights, familias de modelos, escolha por tarefa.
O modelo fica no seu disco; depois do download, a internet so e necessaria para baixar outros.
Explica o "offline" e o "$0/token" na pratica.
Download unico, execucao local, cache no disco.
Ele sobe um servico local que recebe seu texto e devolve a resposta do modelo.
E assim que o Agente Hermes vai "falar" com o modelo na Trilha 2.
Servidor local, endpoint, modelo carregado em memoria.
O "30B" no nome quer dizer 30 bilhoes de parametros β o tamanho do modelo.
Mais parametros = mais capaz, porem mais pesado pra sua maquina.
Parametros, tamanho vs capacidade, custo de hardware.
Com a nuvem voce usa a infra deles; com o Ollama, tudo roda e fica no seu computador.
Deixa claro o que voce ganha (privacidade/custo) e o que cede (potencia bruta).
Metered vs local, controle, trade-off.
πͺ Janela de contexto e parametros
O que e janela de contexto, o que e um token, por que o Agente Hermes exige 64k β e como o tamanho do modelo conversa com a sua RAM.
Quanto texto o modelo consegue "segurar na cabeca" de uma vez ao responder.
E o que limita (ou libera) tarefas longas, como um agente com memoria.
Contexto, limite de entrada+saida, memoria de trabalho.
A unidade que o modelo le/gera β um token e ~3/4 de uma palavra em ingles.
Janela de contexto e medida em tokens; 64k tokens β 25-30 mil palavras.
Token, tokenizacao, tokens β palavras.
O Agente Hermes pede um modelo com pelo menos 64.000 tokens de contexto por causa da memoria e das ferramentas.
E por isso que voce baixa o Qwen 3 Coder 64k na Trilha 2, e nao qualquer modelo.
Requisito de contexto, memoria do agente, ferramentas ocupam contexto.
Parametros = o tamanho do "cerebro"; contexto = quanto ele le de uma vez. Sao independentes.
Um modelo de 30B pode ter contexto pequeno; voce precisa olhar os dois numeros.
Tamanho β contexto, ler a ficha do modelo.
O modelo precisa caber na memoria com folga; grande demais deixa a maquina lenta.
Evita o erro de baixar um modelo que trava o seu computador.
RAM/VRAM, headroom, baixarβtestarβapagar.
Para conversas curtas, um modelo menor e mais rapido basta; o 64k e para o agente.
Voce pode ter mais de um modelo e usar o certo pra cada coisa.
Modelo rapido vs modelo do agente, multiplos modelos.
βοΈ O trade-off: privacidade, performance e preco
A verdade honesta: o melhor modelo local esta ~1 ano atras da fronteira. O que voce troca, o que os benchmarks dizem e como dividir o seu trabalho.
Com local, o dado nunca sai da maquina β nenhuma empresa ve o que voce escreve.
E o lado mais forte do local e o motivo numero 1 de muitos casos de uso.
Confidencialidade, soberania de dados.
O melhor modelo local hoje equivale ao melhor da fronteira de ~12 meses atras.
Calibra a expectativa: e muito bom, mas nao e o topo absoluto.
Defasagem de ~1 ano, ritmo do open-source.
Depois do hardware que voce ja tem, o uso e gratuito β sem assinatura.
Muda a economia de rodar agentes o dia inteiro.
$0/token, sem mensalidade, custo so de energia/hardware.
Numeros comparando modelos (ex.: ~88,6 do Opus 4.8 vs ~74 do Qwen que voce roda).
Te ajuda a ler comparacoes com olho critico, sem virar refem de benchmark.
Benchmark, leitura critica, "otimizar benchmark".
A velocidade da resposta depende do seu computador; modelos grandes ficam lentos.
Voce escolhe entre rapidez e qualidade conforme o que precisa na hora.
Latencia, hardware, tamanho do modelo.
Imagine 100% do seu trabalho: uma fatia pede privacidade total, outra pede qualidade maxima.
E o raciocinio que leva direto aos tres modos do modulo 1.6.
Particionar tarefas, melhor ferramenta por fatia.
ποΈ Os tres modos: Vault, Connected e Cloud
Como operar entre o totalmente privado e a melhor qualidade: Vault (privado), Connected (performance) e Cloud (qualidade) β e quando usar cada um.
Modo cofre: o agente so usa o modelo local, nada sai da maquina.
E o modo de dados sensiveis e de quando voce esta offline.
Vault mode, isolamento, privacidade total.
Modo conectado, que traz mais potencia quando voce precisa de um empurrao.
E o meio-termo entre privacidade total e qualidade maxima.
Performance mode, equilibrio.
Modo nuvem, para quando a qualidade bruta importa mais que a privacidade.
Saber quando ligar a nuvem evita perder tempo com local em tarefas dificeis.
Cloud mode, qualidade > privacidade, web fresca.
Dados de cliente, financas, notas de saude, codigo proprietario, ou simplesmente sem internet.
E a regra pratica que te diz em qual modo ficar.
Criterio de sensibilidade, regra de decisao.
Voce pode pedir ao Hermes para mandar uma tarefa pro modelo privado e outra pra nuvem.
E o coracao do Projeto 6 da Trilha 3.
Roteamento dinamico, "manda pro privado".
Como o local e gratuito, da pra deixar agentes trabalhando o dia todo sem custo por uso.
E uma das maiores vantagens praticas do Vault mode.
Agentes em segundo plano, custo zero, automacao.