MÓDULO 2.4

🖥️ Ações no Computador

"Browser, bash, cursor real." Como vive no seu PC, o Hermes não só responde — ele age: cria arquivos, navega com visão de tela, executa comandos e move o cursor de verdade. Poder real, que pede responsabilidade.

6
Tópicos
22
Minutos
Interm.
Nível
Prática
Tipo
1

📂 Cria e organiza arquivos no desktop

Como o Hermes roda na sua máquina (Trilha 1), ele tem acesso ao sistema de arquivos: cria, edita, move e organiza arquivos no desktop. Vai muito além de "responder uma pergunta" — produz artefatos reais que ficam salvos no seu computador.

🖥️ Hermes no seu PC 📂 criar arquivo 🌐 abrir browser ⌨️ rodar bash 🖱️ mover cursor tarefa feita

💡 Dica prática

Agir no PC vale para tarefas que você faria à mão: organizar uma pasta de downloads, gerar um arquivo a partir de uma conversa, renomear lotes. Comece por tarefas reversíveis.

2

🌐 Browser vision — DevTools nativo

O Hermes navega usando Chrome DevTools nativo e leitura visual da tela. Ele "vê" a página como você vê — não depende só do HTML cru, entende o layout renderizado. É o que permite agir em sites que não têm API.

recriação ilustrativa — não é screenshot real

› hermes: abrindo navegador (browser vision)…

› lendo tela: identifiquei o campo "buscar"

› digitando: "passagem Dubai → Toronto"

› clicando no botão "filtrar por preço" 🖱️

✓ 3 opções encontradas, abrindo a mais barata

📊 Por que "vision" e não só HTML

  • Funciona mesmo em sites pesados de JavaScript
  • Entende botões e menus que o HTML cru não revela
  • Aproxima o agente do comportamento humano de navegar
3

⌨️ Bash — terminal de verdade

O Hermes executa comandos no terminal (bash). Isso dá poder de automação real: instalar coisas, mover arquivos em lote, rodar scripts. É a mesma porta que você usa para guardar API keys no env (módulo 2.3).

Exemplo de uso de bash (ilustrativo)

# "organize meus downloads por tipo"
mkdir -p ~/Downloads/{imagens,pdfs,zips}
mv ~/Downloads/*.png ~/Downloads/imagens/
mv ~/Downloads/*.pdf ~/Downloads/pdfs/
mv ~/Downloads/*.zip ~/Downloads/zips/

⚠️ Erro comum

Pedir uma ação destrutiva sem revisar (ex.: rm -rf). Bash não tem "desfazer". Prefira que o agente mostre o comando antes de executar, especialmente quando apaga ou sobrescreve.

4

🖱️ Cursor real — não só screenshot

A diferença que muita ferramenta não tem: o Hermes move o cursor de verdade e clica — agência real, não só tirar um print da tela. Combinado com browser vision e bash ("fused"), ele opera qualquer app, mesmo sem API.

✗ Só screenshot

  • Vê a tela, mas não consegue clicar
  • Depende de você executar a ação
  • "Te diz como fazer", não faz

✓ Cursor real (fused)

  • Vê E clica E digita
  • Conclui a tarefa sozinho
  • É um agente, não um conselheiro

💡 Conecta com a Trilha 1

Esse é exatamente o conceito "agente, não chatbot": o cursor real é a prova física de que o Hermes faz, não só fala.

5

🏃 Exemplo: a caminho da academia

Cenário real: você saiu de casa, está a caminho da academia e lembra que esqueceu de fazer algo no computador. Manda uma mensagem pelo celular — e o Hermes executa no seu PC, mesmo você estando longe.

1

Você (no celular)

"Esqueci de salvar aquele relatório na pasta do cliente. Faz isso pra mim?"

2

Hermes (no seu PC)

Localiza o arquivo, cria/abre a pasta certa, move e confirma — usando bash + visão.

3

Resultado

"Feito. Movido para Clientes/Acme/Relatórios." Você nem parou de andar.

📊 Por que isso é poderoso

Junta "um cérebro, 22 bocas" (você fala pelo celular) com "ações no computador" (ele executa no PC). O canal de entrada e o local de ação são desacoplados.

6

⚠️ Habilitar com responsabilidade

Ações no computador se habilitam nas tools do Hermes. É uma feature poderosa — e poder pede cuidado. O princípio do menor acesso (Trilha 3, módulo 3.1) vale aqui: dê só o que for necessário.

✓ Uso responsável

  • Começar por ações reversíveis
  • Revisar comandos destrutivos antes
  • Habilitar só as tools que vai usar

✗ Sinais de risco

  • Liberar tudo "pra facilitar"
  • Deixar agir sem nenhuma revisão
  • Misturar com envio de email automático

💡 Regra de bolso

"Com grandes poderes vêm grandes responsabilidades." Quanto mais o agente pode fazer no seu PC, mais importante é o menor acesso. A Trilha 3 aprofunda segurança.

📌 Resumo do Módulo

Arquivos — cria e organiza no desktop, com acesso ao sistema.
Browser vision — DevTools nativo + leitura visual da tela.
Bash — automação real; cuidado com comandos destrutivos.
Cursor real — move e clica de verdade (fused), não só print.
Responsabilidade — habilite nas tools com menor acesso (ver 3.1).

Próximo Módulo:

2.5 — MCPs: o manual de instruções