Módulo 2.3 · Uso de computador e agentes

🖱️ O que é "uso de computador"

O termo "computer use" (uso de computador) descreve a capacidade de um modelo de IA de interagir com uma interface de computador como um humano faria: clicar em botões, digitar texto, navegar em menus, abrir arquivos, preencher formulários, rolar páginas. Não é execução de código — é controle de interface visual.

🎯 Conceito Principal: o loop de percepção-ação

O modelo opera num ciclo contínuo: recebe uma captura de tela da tela atual, decide qual ação tomar, executa a ação, e recebe uma nova captura de tela para continuar. Diferente de um script automatizado, ele não precisa de uma API — opera pela camada visual, como um humano.

👁️

Percebe

Screenshot da tela

🧠

Decide

Próxima ação

🖱️

Age

Click, type, scroll

✓ Casos de uso viáveis

✓Automação de softwares legados sem API disponível
✓Testes de UI automatizados via linguagem natural
✓Extração de dados de interfaces visuais complexas
✓Workflows multi-aplicação que cruzam sistemas diferentes

✗ Limitações atuais

✗Latência alta — cada ação exige um ciclo completo de inferência
✗Erros propagam: um clique errado pode invalidar o restante do fluxo
✗Interfaces que mudam com frequência (A/B tests, redesigns) quebram o agente

🌐 OSWorld: 83,4%

O OSWorld é um benchmark que avalia modelos de IA em um ambiente de desktop completo — navegadores, editores de texto, planilhas, terminais — com tarefas em linguagem natural. O Opus 4.8 marca 83,4% aqui, o melhor resultado dentre os modelos comparados.

Claude Opus 4.8 83,4% 🥇

OSWorld · auto-reportado · 1º lugar

GPT-5.5 78,7%

OSWorld · −4,7 pp vs Opus 4.8

Gemini 3.1 Pro 76,2%

OSWorld · −7,2 pp vs Opus 4.8

📊 O que o OSWorld testa especificamente

O OSWorld simula um desktop Ubuntu com aplicações reais instaladas. O modelo recebe tarefas em linguagem natural ("salve este documento como PDF", "agende a reunião para terça às 14h", "extrai os dados desta planilha para um CSV") e precisa navegar pela interface visual para concluí-las. É o benchmark de desktop mais próximo de uso real disponível atualmente.

🌍 Online-Mind2Web: 84%

Enquanto o OSWorld foca em desktop, o Online-Mind2Web testa a capacidade de navegar e executar tarefas em sites reais da internet — e-commerce, formulários de governo, plataformas de conteúdo. O Opus 4.8 atinge 84%, o melhor score reportado neste benchmark.

🏆 Destaque: melhor resultado do benchmark

Online-Mind2Web · Opus 4.8 84%

A Anthropic não divulgou comparações com outros modelos neste benchmark especificamente — o 84% é o número absoluto reportado. Dados de concorrentes nesta métrica não estão disponíveis publicamente para comparação direta.

Web é mais difícil que desktop

Popups inesperados, redirecionamentos, formulários com validação em tempo real, CAPTCHAs, mudanças de estado assíncronas — a web é um ambiente muito mais imprevisível que o desktop. Um score alto aqui indica resiliência real a ambientes não controlados.

Implicação para automação de processos

Um agente que navega bem em sites reais pode automatizar processos que hoje exigem um humano em frente ao computador — desde preenchimento de formulários de RH até coleta de dados de portais governamentais.

💡 Dica para quem quer usar computer use

Tarefas web são hoje o caso de uso mais acessível de computer use: você não precisa de acesso a um desktop virtual. A API de computer use da Anthropic pode ser usada para automatizar fluxos web de forma mais simples que os fluxos de desktop completo.

⚔️ Comparação com concorrentes

Nos benchmarks de uso de computador, o Opus 4.8 lidera de forma consistente no OSWorld. A tabela abaixo consolida os dados disponíveis.

Modelo	OSWorld	Online-Mind2Web	Posição
Claude Opus 4.8	83,4%	84,0%	🥇 1º
GPT-5.5	78,7%	—	2º
Gemini 3.1 Pro	76,2%	—	3º

📊 Contexto da margem no OSWorld

A diferença de 4,7 pp sobre o GPT-5.5 pode parecer pequena em percentual, mas tem implicações práticas em fluxos complexos. Se um agente precisa completar uma sequência de 10 ações com sucesso, uma taxa individual de 83,4% vs 78,7% por passo resulta em taxas de conclusão total muito diferentes.

Exemplo simplificado: em 10 passos sequenciais, a taxa de conclusão do fluxo inteiro seria 0.834^10 ≈ 16% vs 0.787^10 ≈ 8% — o dobro de fluxos completos.

🤖 O que isso significa para agentes

Benchmarks de uso de computador são o sinal mais direto da viabilidade de agentes autônomos em produção. Um modelo em 83% no OSWorld está numa zona diferente de um modelo em 70% — mas ainda não na zona de autonomia total.

~50–60% Fase de demonstrações

Funciona em demos cuidadosamente preparados. Quebra em ambientes reais com qualquer variação. Não é utilizável em produção.

~70% Pilotos com supervisão intensa

Útil apenas com um humano revisando cada ação. Falha 3x em cada 10 tarefas — inaceitável para produção sem watchdog constante.

★

~83% (4.8) Zona de produção vigiada

Falha ~17% das tarefas individuais. Com supervisão espaçada e checkpoints, começa a criar valor real em workflows de baixo a médio risco. Este é o patamar atual do Opus 4.8.

>95% (futuro) Autonomia real

Agentes confiáveis sem supervisão contínua em fluxos de alto volume. Ainda não alcançado por nenhum modelo disponível comercialmente.

💡 Implicação de design para agentes

A arquitetura de qualquer agente baseado no Opus 4.8 deve incluir pontos de checagem humana explícitos, mecanismos de rollback quando algo dá errado, e alertas quando o modelo encontra situações não previstas. Não projete para autonomia total — projete para autonomia assistida.

⚠️ Ressalva: auto-reportado e contexto controlado

Os números de computer use compartilham o mesmo problema dos benchmarks de código: são auto-reportados pela Anthropic em condições controladas, sem auditoria independente em escala. Mas têm um problema adicional específico a este tipo de avaliação.

⚠️ Problemas específicos dos benchmarks de computer use

•Ambientes fixos: o OSWorld e o Mind2Web rodam em ambientes predefinidos e consistentes. O ambiente real que você usa tem mais variação, inconsistência e imprevisibilidade
•Seleção de tarefas: a Anthropic reporta os benchmarks onde seu modelo performa melhor. Não há como saber quais benchmarks foram descartados
•Comparações de primeira parte: os dados do GPT-5.5 e Gemini foram obtidos e reportados pela Anthropic, não pelos respectivos fabricantes ou por auditores neutros
•Único teste externo: a TrueFoundry testou 50 problemas — amostra pequena demais para validar os percentuais absolutos com confiança estatística

✓ Conclusões razoáveis

✓O 4.8 é provavelmente melhor em agência que o 4.7
✓A direção de liderança sobre concorrentes é plausível
✓Computer use em geral está avançando rápido no setor
✓Agentes já criam valor real em tarefas supervisionadas

✗ Não concluir sem teste próprio

✗Que 83,4% é o desempenho no seu ambiente específico
✗Que a margem exata sobre o GPT-5.5 é 4,7 pp no seu caso
✗Que agentes podem operar sem supervisão em produção

💡 Como validar no seu contexto

Monte 15–20 tarefas representativas do seu uso real de automação. Execute no Opus 4.8 e anote: taxa de conclusão sem erro, número de passos médio, casos em que o modelo travou. Se a taxa própria ficar abaixo de 70%, ainda não é hora de produtizar sem supervisão intensiva.

📌 Resumo do Módulo

✓

Computer use — controle de interface visual via loop percepção-ação, sem necessidade de API.

✓

OSWorld 83,4% — 1º lugar, vs GPT-5.5 (78,7%) e Gemini 3.1 Pro (76,2%).

✓

Online-Mind2Web 84% — melhor resultado reportado no benchmark de navegação web.

✓

Zona de produção vigiada — 83% é útil com supervisão, mas ainda falha ~17% das tarefas individualmente.

⚠

Auto-reportados — pela Anthropic, sem auditoria independente em escala. TrueFoundry (50 problemas) é o único teste externo disponível.

Próximo Módulo:

2.4 — Memória e contexto longo

← Módulo Anterior Próximo Módulo →