📂 Cria e organiza arquivos no desktop
Como o Hermes roda na sua máquina (Trilha 1), ele tem acesso ao sistema de arquivos: cria, edita, move e organiza arquivos no desktop. Vai muito além de "responder uma pergunta" — produz artefatos reais que ficam salvos no seu computador.
💡 Dica prática
Agir no PC vale para tarefas que você faria à mão: organizar uma pasta de downloads, gerar um arquivo a partir de uma conversa, renomear lotes. Comece por tarefas reversíveis.
🌐 Browser vision — DevTools nativo
O Hermes navega usando Chrome DevTools nativo e leitura visual da tela. Ele "vê" a página como você vê — não depende só do HTML cru, entende o layout renderizado. É o que permite agir em sites que não têm API.
› hermes: abrindo navegador (browser vision)…
› lendo tela: identifiquei o campo "buscar"
› digitando: "passagem Dubai → Toronto"
› clicando no botão "filtrar por preço" 🖱️
✓ 3 opções encontradas, abrindo a mais barata
📊 Por que "vision" e não só HTML
- Funciona mesmo em sites pesados de JavaScript
- Entende botões e menus que o HTML cru não revela
- Aproxima o agente do comportamento humano de navegar
⌨️ Bash — terminal de verdade
O Hermes executa comandos no terminal (bash). Isso dá poder de automação real: instalar coisas, mover arquivos em lote, rodar scripts. É a mesma porta que você usa para guardar API keys no env (módulo 2.3).
Exemplo de uso de bash (ilustrativo)
# "organize meus downloads por tipo"
mkdir -p ~/Downloads/{imagens,pdfs,zips}
mv ~/Downloads/*.png ~/Downloads/imagens/
mv ~/Downloads/*.pdf ~/Downloads/pdfs/
mv ~/Downloads/*.zip ~/Downloads/zips/
⚠️ Erro comum
Pedir uma ação destrutiva sem revisar (ex.: rm -rf). Bash não tem "desfazer". Prefira que o agente mostre o comando antes de executar, especialmente quando apaga ou sobrescreve.
🖱️ Cursor real — não só screenshot
A diferença que muita ferramenta não tem: o Hermes move o cursor de verdade e clica — agência real, não só tirar um print da tela. Combinado com browser vision e bash ("fused"), ele opera qualquer app, mesmo sem API.
✗ Só screenshot
- ✗Vê a tela, mas não consegue clicar
- ✗Depende de você executar a ação
- ✗"Te diz como fazer", não faz
✓ Cursor real (fused)
- ✓Vê E clica E digita
- ✓Conclui a tarefa sozinho
- ✓É um agente, não um conselheiro
💡 Conecta com a Trilha 1
Esse é exatamente o conceito "agente, não chatbot": o cursor real é a prova física de que o Hermes faz, não só fala.
🏃 Exemplo: a caminho da academia
Cenário real: você saiu de casa, está a caminho da academia e lembra que esqueceu de fazer algo no computador. Manda uma mensagem pelo celular — e o Hermes executa no seu PC, mesmo você estando longe.
Você (no celular)
"Esqueci de salvar aquele relatório na pasta do cliente. Faz isso pra mim?"
Hermes (no seu PC)
Localiza o arquivo, cria/abre a pasta certa, move e confirma — usando bash + visão.
Resultado
"Feito. Movido para Clientes/Acme/Relatórios." Você nem parou de andar.
📊 Por que isso é poderoso
Junta "um cérebro, 22 bocas" (você fala pelo celular) com "ações no computador" (ele executa no PC). O canal de entrada e o local de ação são desacoplados.
⚠️ Habilitar com responsabilidade
Ações no computador se habilitam nas tools do Hermes. É uma feature poderosa — e poder pede cuidado. O princípio do menor acesso (Trilha 3, módulo 3.1) vale aqui: dê só o que for necessário.
✓ Uso responsável
- ✓Começar por ações reversíveis
- ✓Revisar comandos destrutivos antes
- ✓Habilitar só as tools que vai usar
✗ Sinais de risco
- ✗Liberar tudo "pra facilitar"
- ✗Deixar agir sem nenhuma revisão
- ✗Misturar com envio de email automático
💡 Regra de bolso
"Com grandes poderes vêm grandes responsabilidades." Quanto mais o agente pode fazer no seu PC, mais importante é o menor acesso. A Trilha 3 aprofunda segurança.
📌 Resumo do Módulo
Próximo Módulo:
2.5 — MCPs: o manual de instruções