MÓDULO 4.3 Prático

🕹️ agent-browser (Playwright)

O "olho" do loop de design. Automatiza interações de navegador — navegar, preencher formulários, tirar screenshots, testar apps web e extrair dados — sendo o elo crítico que fecha o ciclo entre gerar uma página e validar visualmente o resultado.

Tópicos

Minutos

Prático

Nível

Apoio

Categoria

🧩 O que é / o que faz

🕹️

Definição precisa

agent-browser é um skill do Claude Code que automatiza interações de navegador via Playwright. Ele expõe a ferramenta Bash(agent-browser:*) permitindo ao Claude navegar em URLs, tirar screenshots, preencher formulários, testar apps web e extrair dados de páginas — tudo a partir do terminal, sem intervenção humana.

O skill funciona como uma CLI completa de automação. Cada subcomando (open, snapshot, screenshot, fill, click…) mapeia para uma ação real no browser. O fluxo central é: navegar → snapshot → interagir → re-snapshot. Referências de elementos (@e1, @e2…) são extraídas do snapshot e usadas nos comandos seguintes.

✓ USAR QUANDO

✓ Validar visualmente uma página recém-criada
✓ Testar formulários e fluxos de autenticação
✓ Extrair dados de sites sem API
✓ Tirar screenshots para documentação ou review
✓ Gravar vídeo de interações para demonstração

✗ NÃO USAR QUANDO

✗ A tarefa é só análise de código estático
✗ Há uma API REST disponível para o mesmo dado
✗ O site bloqueia headless browsers (bot protection)
✗ Você quer scraping massivo (use scrapers dedicados)

Playwright

Engine de automação

Snapshot

Árvore de acessibilidade

@refs

Refs de elementos

Headless

Sem interface visual

🎣 Quando dispara

Gatilho da description

O Claude aciona agent-browser quando o pedido envolve "navegar websites", "interagir com páginas web", "preencher formulários", "tirar screenshots", "testar apps web" ou "extrair informações de páginas web" — exatamente os verbos da description do skill.

Cenários que ativam o skill

Validação visual pós-build

"Abra a página que acabei de criar e tire um screenshot" → abre localhost, captura, retorna imagem.

Teste de formulário

"Preencha o formulário de contato com dados de teste e veja se envia" → fill + click + wait.

Extração de dados

"Acesse essa página e me diga quais são os títulos dos artigos" → snapshot + get text.

Loop de design iterativo (chave!)

"Crie a página, abra e veja se o layout ficou certo, ajuste o que estiver errado" → frontend-design gera + agent-browser abre + impeccable itera.

Navegar

open URL

Preencher

fill / type

Testar

check state

Capturar

screenshot

🚀 Como melhora suas páginas

O agent-browser é o olho fechando o loop de design. Sem ele, o Claude gera HTML às cegas — entrega código que pode estar quebrado no browser real. Com ele, a verificação visual entra no próprio ciclo de trabalho.

📊 O ciclo fechado com agent-browser

1. Gerar

frontend-design / web-artifacts-builder cria a página HTML

2. Ver

agent-browser abre e tira screenshot — Claude "vê" o resultado real

3. Corrigir

impeccable itera sobre o que o screenshot revelou de errado

Por que isso importa no design

HTML é texto — bugs visuais (sobreposição, texto cortado, cor errada) são invisíveis no código. O screenshot devolve informação que só existe no browser renderizado. Isso transforma o Claude de "escritor de HTML" em "designer com olho no resultado".

✓ COM agent-browser

✓ Layout validado pixel a pixel
✓ Interações testadas antes de entregar
✓ Erros de responsividade detectados no ato
✓ Screenshot como evidência para revisão

✗ SEM agent-browser

✗ Bugs visuais só descobertos pelo usuário
✗ Formulários entregues sem teste
✗ Mobile-first nunca verificado
✗ Loop de revisão é humano + lento

Loop fechado

gerar → ver → corrigir

Visual ground truth

screenshot = realidade

Validação automática

sem abrir browser manual

Evidência

screenshot como prova

⚙️ Como funciona por dentro

Stack real do skill

Ferramenta exposta

Bash(agent-browser:*)

allowed-tools: apenas comandos agent-browser

Engine

Playwright

Microsoft — automação cross-browser

Saída

--json / imagem

machine-readable ou PNG/PDF

Comandos reais do SKILL.md agent-browser CLI

# Navegação
agent-browser open <url>          # Abrir URL
agent-browser back                  # Voltar
agent-browser reload                # Recarregar

# Snapshot (análise da página)
agent-browser snapshot              # Árvore de acessibilidade completa
agent-browser snapshot -i           # Apenas elementos interativos (recomendado)
agent-browser snapshot -c           # Saída compacta
agent-browser snapshot -s "#main"  # Escopo por seletor CSS

# Interações (usar @refs do snapshot)
agent-browser click @e1             # Clique
agent-browser fill @e2 "texto"     # Limpar e digitar
agent-browser type @e2 "texto"     # Digitar sem limpar
agent-browser press Enter           # Teclar
agent-browser select @e1 "valor"  # Dropdown
agent-browser scroll down 500      # Scroll
agent-browser drag @e1 @e2        # Drag & drop
agent-browser upload @e1 file.pdf # Upload

# Screenshots e PDF
agent-browser screenshot            # Captura full page
agent-browser pdf                   # Exportar PDF

# Gravação de vídeo
agent-browser video start           # Iniciar gravação
agent-browser video stop            # Parar e salvar

# Wait / sincronização
agent-browser wait --url "**/done"  # Aguardar URL
agent-browser wait --text "Sucesso" # Aguardar texto

# Sessões paralelas
agent-browser --session test1 open site-a.com
agent-browser --session test2 open site-b.com
agent-browser session list

# JSON machine-readable
agent-browser snapshot -i --json
agent-browser get text @e1 --json

# Estado salvo (autenticação)
agent-browser state save auth.json
agent-browser state load auth.json

⚠️ Atenção: re-snapshot obrigatório

Após qualquer navegação ou mudança significativa no DOM, os @refs ficam inválidos. Execute agent-browser snapshot -i novamente antes de interagir com novos elementos.

allowed-tools

Bash(agent-browser:*)

Sessions

Browsers paralelos

State save/load

Auth persistida

Video record

Gravação de interações

💬 Exemplo prático + PROMPT pronto

Cenário: criar uma landing e validar visualmente

Fluxo completo: frontend-design cria o HTML → agent-browser abre e tira screenshot → Claude vê o resultado → impeccable corrige o que estiver fora do esperado.

PROMPT PRONTO — cole no Claude Code

Crie uma landing page para o produto "DesignBot" usando frontend-design.
Depois abra a página no browser com agent-browser, tire um screenshot
e me diga se o layout está correto — verifica se hero, CTA e footer
aparecem sem sobreposição. Se tiver algo errado, corrija com impeccable
e tire outro screenshot para confirmar.

Exemplo real: form submission (do SKILL.md)

bash — agent-browser form submission

# 1. Abrir a página
agent-browser open https://app.exemplo.com/contato

# 2. Snapshot dos elementos interativos
agent-browser snapshot -i
# retorna: @e1 (input nome), @e2 (input email), @e3 (btn enviar)

# 3. Preencher e enviar
agent-browser fill @e1 "Maria Silva"
agent-browser fill @e2 "maria@exemplo.com"
agent-browser click @e3

# 4. Aguardar confirmação
agent-browser wait --text "Mensagem enviada"

# 5. Screenshot como evidência
agent-browser screenshot

Exemplo real: autenticação salva (do SKILL.md)

bash — state save / load

# Login uma vez
agent-browser open https://app.exemplo.com/login
agent-browser snapshot -i
agent-browser fill @e1 "usuario"
agent-browser fill @e2 "senha"
agent-browser click @e3
agent-browser wait --url "**/dashboard"
agent-browser state save auth.json

# Sessões futuras: carregar estado salvo
agent-browser state load auth.json
agent-browser open https://app.exemplo.com/dashboard

Prompt loop

criar → ver → corrigir

Form test

fill + click + wait

State persist

auth.json reutilizável

Screenshot prova

evidência visual

🧬 Combina com / limites

O triângulo do loop de design

✨ impeccable

Trilha 1 — Construir

O skill que itera sobre o design com foco em qualidade visual. Ele usa o agent-browser para ver o estado atual, identificar falhas e corrigir — formando o olho + mão do loop.

impeccable → agent-browser → impeccable

⚛️ frontend-design

Trilha 1 — Construir

Gera a página React/HTML com Tailwind e shadcn. Após geração, agent-browser abre e valida o que foi criado — fechando o ciclo sem sair do terminal.

frontend-design → agent-browser

🔭 website-intelligence

Trilha 4 — Apoio

O próximo módulo. Usa Firecrawl para análise profunda de sites externos. Combina com agent-browser para o que Firecrawl não alcança: páginas que precisam de interação (login, SPA, lazy-load).

agent-browser + website-intelligence

Outras combinações úteis

📊

beautiful-mermaid + agent-browser

Gera diagrama → abre no browser → screenshot para embed em documentação.

🎯

design-designer + agent-browser

Design system gerado → agent-browser valida responsividade em diferentes viewports.

🎞️

agent-browser video + animation-designer

animation-designer cria as animações CSS → agent-browser grava o video da animação rodando no browser.

⚠️ Limites reais

✗

Bot protection (Cloudflare, hCaptcha) — muitos sites bloqueiam Playwright headless. Nesses casos, website-intelligence com Firecrawl é melhor.

✗

Scraping massivo — agent-browser é interativo, não bulk. Para coletar centenas de páginas, use ferramentas dedicadas.

✗

Análise de código-fonte — se você quer entender o HTML/CSS de um site, Read + Grep são mais eficientes que snapshot.

✗

Sem servidor rodando — para validar uma página local, o servidor dev precisa estar ativo (localhost:PORT).

impeccable

mão do loop

frontend-design

gera a página

website-intelligence

análise de sites externos

Bot limits

não é invencível

📋 Resumo do Módulo 4.3

✓ agent-browser automatiza Playwright via Bash(agent-browser:*)

✓ Fluxo core: open → snapshot -i → usar @refs → interagir → re-snapshot

✓ É o "olho" do loop de design: gerar → ver → corrigir

✓ Dispara quando pedido envolve navegar, preencher, testar, screenshot, extrair dados

✓ Suporta sessões paralelas, state save/load, JSON output e gravação de vídeo

✓ Combina com impeccable (itera) e website-intelligence (análise profunda)

Próximo módulo

🔭

4.4 — website-intelligence

Análise profunda de sites com Firecrawl — inteligência sobre design, estrutura e conteúdo de qualquer site da web.

← Voltar para Trilha 4 Próximo Módulo: 4.4 website-intelligence →