MÓDULO 4.3 Prático

🕹️ agent-browser (Playwright)

O "olho" do loop de design. Automatiza interações de navegador — navegar, preencher formulários, tirar screenshots, testar apps web e extrair dados — sendo o elo crítico que fecha o ciclo entre gerar uma página e validar visualmente o resultado.

6
Tópicos
25
Minutos
Prático
Nível
Apoio
Categoria
localhost:3000/design [ componente ] agent-browser Playwright
1

🧩 O que é / o que faz

🕹️

Definição precisa

agent-browser é um skill do Claude Code que automatiza interações de navegador via Playwright. Ele expõe a ferramenta Bash(agent-browser:*) permitindo ao Claude navegar em URLs, tirar screenshots, preencher formulários, testar apps web e extrair dados de páginas — tudo a partir do terminal, sem intervenção humana.

O skill funciona como uma CLI completa de automação. Cada subcomando (open, snapshot, screenshot, fill, click…) mapeia para uma ação real no browser. O fluxo central é: navegar → snapshot → interagir → re-snapshot. Referências de elementos (@e1, @e2…) são extraídas do snapshot e usadas nos comandos seguintes.

USAR QUANDO

  • Validar visualmente uma página recém-criada
  • Testar formulários e fluxos de autenticação
  • Extrair dados de sites sem API
  • Tirar screenshots para documentação ou review
  • Gravar vídeo de interações para demonstração

NÃO USAR QUANDO

  • A tarefa é só análise de código estático
  • Há uma API REST disponível para o mesmo dado
  • O site bloqueia headless browsers (bot protection)
  • Você quer scraping massivo (use scrapers dedicados)
Playwright
Engine de automação
Snapshot
Árvore de acessibilidade
@refs
Refs de elementos
Headless
Sem interface visual
2

🎣 Quando dispara

Gatilho da description

O Claude aciona agent-browser quando o pedido envolve "navegar websites", "interagir com páginas web", "preencher formulários", "tirar screenshots", "testar apps web" ou "extrair informações de páginas web" — exatamente os verbos da description do skill.

Cenários que ativam o skill

Validação visual pós-build

"Abra a página que acabei de criar e tire um screenshot" → abre localhost, captura, retorna imagem.

Teste de formulário

"Preencha o formulário de contato com dados de teste e veja se envia" → fill + click + wait.

Extração de dados

"Acesse essa página e me diga quais são os títulos dos artigos" → snapshot + get text.

Loop de design iterativo (chave!)

"Crie a página, abra e veja se o layout ficou certo, ajuste o que estiver errado" → frontend-design gera + agent-browser abre + impeccable itera.

Navegar
open URL
Preencher
fill / type
Testar
check state
Capturar
screenshot
3

🚀 Como melhora suas páginas

O agent-browser é o olho fechando o loop de design. Sem ele, o Claude gera HTML às cegas — entrega código que pode estar quebrado no browser real. Com ele, a verificação visual entra no próprio ciclo de trabalho.

📊 O ciclo fechado com agent-browser

1. Gerar

frontend-design / web-artifacts-builder cria a página HTML

2. Ver

agent-browser abre e tira screenshot — Claude "vê" o resultado real

3. Corrigir

impeccable itera sobre o que o screenshot revelou de errado

Por que isso importa no design

HTML é texto — bugs visuais (sobreposição, texto cortado, cor errada) são invisíveis no código. O screenshot devolve informação que só existe no browser renderizado. Isso transforma o Claude de "escritor de HTML" em "designer com olho no resultado".

✓ COM agent-browser

  • Layout validado pixel a pixel
  • Interações testadas antes de entregar
  • Erros de responsividade detectados no ato
  • Screenshot como evidência para revisão

✗ SEM agent-browser

  • Bugs visuais só descobertos pelo usuário
  • Formulários entregues sem teste
  • Mobile-first nunca verificado
  • Loop de revisão é humano + lento
Loop fechado
gerar → ver → corrigir
Visual ground truth
screenshot = realidade
Validação automática
sem abrir browser manual
Evidência
screenshot como prova
4

⚙️ Como funciona por dentro

Stack real do skill

Ferramenta exposta
Bash(agent-browser:*)

allowed-tools: apenas comandos agent-browser

Engine
Playwright

Microsoft — automação cross-browser

Saída
--json / imagem

machine-readable ou PNG/PDF

Comandos reais do SKILL.md agent-browser CLI
# Navegação
agent-browser open <url>          # Abrir URL
agent-browser back                  # Voltar
agent-browser reload                # Recarregar

# Snapshot (análise da página)
agent-browser snapshot              # Árvore de acessibilidade completa
agent-browser snapshot -i           # Apenas elementos interativos (recomendado)
agent-browser snapshot -c           # Saída compacta
agent-browser snapshot -s "#main"  # Escopo por seletor CSS

# Interações (usar @refs do snapshot)
agent-browser click @e1             # Clique
agent-browser fill @e2 "texto"     # Limpar e digitar
agent-browser type @e2 "texto"     # Digitar sem limpar
agent-browser press Enter           # Teclar
agent-browser select @e1 "valor"  # Dropdown
agent-browser scroll down 500      # Scroll
agent-browser drag @e1 @e2        # Drag & drop
agent-browser upload @e1 file.pdf # Upload

# Screenshots e PDF
agent-browser screenshot            # Captura full page
agent-browser pdf                   # Exportar PDF

# Gravação de vídeo
agent-browser video start           # Iniciar gravação
agent-browser video stop            # Parar e salvar

# Wait / sincronização
agent-browser wait --url "**/done"  # Aguardar URL
agent-browser wait --text "Sucesso" # Aguardar texto

# Sessões paralelas
agent-browser --session test1 open site-a.com
agent-browser --session test2 open site-b.com
agent-browser session list

# JSON machine-readable
agent-browser snapshot -i --json
agent-browser get text @e1 --json

# Estado salvo (autenticação)
agent-browser state save auth.json
agent-browser state load auth.json

⚠️ Atenção: re-snapshot obrigatório

Após qualquer navegação ou mudança significativa no DOM, os @refs ficam inválidos. Execute agent-browser snapshot -i novamente antes de interagir com novos elementos.

allowed-tools
Bash(agent-browser:*)
Sessions
Browsers paralelos
State save/load
Auth persistida
Video record
Gravação de interações
5

💬 Exemplo prático + PROMPT pronto

Cenário: criar uma landing e validar visualmente

Fluxo completo: frontend-design cria o HTML → agent-browser abre e tira screenshot → Claude vê o resultado → impeccable corrige o que estiver fora do esperado.

PROMPT PRONTO — cole no Claude Code
Crie uma landing page para o produto "DesignBot" usando frontend-design.
Depois abra a página no browser com agent-browser, tire um screenshot
e me diga se o layout está correto — verifica se hero, CTA e footer
aparecem sem sobreposição. Se tiver algo errado, corrija com impeccable
e tire outro screenshot para confirmar.

Exemplo real: form submission (do SKILL.md)

bash — agent-browser form submission
# 1. Abrir a página
agent-browser open https://app.exemplo.com/contato

# 2. Snapshot dos elementos interativos
agent-browser snapshot -i
# retorna: @e1 (input nome), @e2 (input email), @e3 (btn enviar)

# 3. Preencher e enviar
agent-browser fill @e1 "Maria Silva"
agent-browser fill @e2 "maria@exemplo.com"
agent-browser click @e3

# 4. Aguardar confirmação
agent-browser wait --text "Mensagem enviada"

# 5. Screenshot como evidência
agent-browser screenshot

Exemplo real: autenticação salva (do SKILL.md)

bash — state save / load
# Login uma vez
agent-browser open https://app.exemplo.com/login
agent-browser snapshot -i
agent-browser fill @e1 "usuario"
agent-browser fill @e2 "senha"
agent-browser click @e3
agent-browser wait --url "**/dashboard"
agent-browser state save auth.json

# Sessões futuras: carregar estado salvo
agent-browser state load auth.json
agent-browser open https://app.exemplo.com/dashboard
Prompt loop
criar → ver → corrigir
Form test
fill + click + wait
State persist
auth.json reutilizável
Screenshot prova
evidência visual
6

🧬 Combina com / limites

O triângulo do loop de design

✨ impeccable
Trilha 1 — Construir

O skill que itera sobre o design com foco em qualidade visual. Ele usa o agent-browser para ver o estado atual, identificar falhas e corrigir — formando o olho + mão do loop.

impeccable → agent-browser → impeccable
⚛️ frontend-design
Trilha 1 — Construir

Gera a página React/HTML com Tailwind e shadcn. Após geração, agent-browser abre e valida o que foi criado — fechando o ciclo sem sair do terminal.

frontend-design → agent-browser
🔭 website-intelligence
Trilha 4 — Apoio

O próximo módulo. Usa Firecrawl para análise profunda de sites externos. Combina com agent-browser para o que Firecrawl não alcança: páginas que precisam de interação (login, SPA, lazy-load).

agent-browser + website-intelligence

Outras combinações úteis

📊
beautiful-mermaid + agent-browser

Gera diagrama → abre no browser → screenshot para embed em documentação.

🎯
design-designer + agent-browser

Design system gerado → agent-browser valida responsividade em diferentes viewports.

🎞️
agent-browser video + animation-designer

animation-designer cria as animações CSS → agent-browser grava o video da animação rodando no browser.

⚠️ Limites reais

Bot protection (Cloudflare, hCaptcha) — muitos sites bloqueiam Playwright headless. Nesses casos, website-intelligence com Firecrawl é melhor.
Scraping massivo — agent-browser é interativo, não bulk. Para coletar centenas de páginas, use ferramentas dedicadas.
Análise de código-fonte — se você quer entender o HTML/CSS de um site, Read + Grep são mais eficientes que snapshot.
Sem servidor rodando — para validar uma página local, o servidor dev precisa estar ativo (localhost:PORT).
impeccable
mão do loop
frontend-design
gera a página
website-intelligence
análise de sites externos
Bot limits
não é invencível

📋 Resumo do Módulo 4.3

agent-browser automatiza Playwright via Bash(agent-browser:*)
Fluxo core: open → snapshot -i → usar @refs → interagir → re-snapshot
É o "olho" do loop de design: gerar → ver → corrigir
Dispara quando pedido envolve navegar, preencher, testar, screenshot, extrair dados
Suporta sessões paralelas, state save/load, JSON output e gravação de vídeo
Combina com impeccable (itera) e website-intelligence (análise profunda)
Próximo módulo
🔭
4.4 — website-intelligence
Análise profunda de sites com Firecrawl — inteligência sobre design, estrutura e conteúdo de qualquer site da web.