🖱️ O que é "uso de computador"
O termo "computer use" (uso de computador) descreve a capacidade de um modelo de IA de interagir com uma interface de computador como um humano faria: clicar em botões, digitar texto, navegar em menus, abrir arquivos, preencher formulários, rolar páginas. Não é execução de código — é controle de interface visual.
🎯 Conceito Principal: o loop de percepção-ação
O modelo opera num ciclo contínuo: recebe uma captura de tela da tela atual, decide qual ação tomar, executa a ação, e recebe uma nova captura de tela para continuar. Diferente de um script automatizado, ele não precisa de uma API — opera pela camada visual, como um humano.
✓ Casos de uso viáveis
- ✓Automação de softwares legados sem API disponível
- ✓Testes de UI automatizados via linguagem natural
- ✓Extração de dados de interfaces visuais complexas
- ✓Workflows multi-aplicação que cruzam sistemas diferentes
✗ Limitações atuais
- ✗Latência alta — cada ação exige um ciclo completo de inferência
- ✗Erros propagam: um clique errado pode invalidar o restante do fluxo
- ✗Interfaces que mudam com frequência (A/B tests, redesigns) quebram o agente
🌐 OSWorld: 83,4%
O OSWorld é um benchmark que avalia modelos de IA em um ambiente de desktop completo — navegadores, editores de texto, planilhas, terminais — com tarefas em linguagem natural. O Opus 4.8 marca 83,4% aqui, o melhor resultado dentre os modelos comparados.
OSWorld · auto-reportado · 1º lugar
OSWorld · −4,7 pp vs Opus 4.8
OSWorld · −7,2 pp vs Opus 4.8
📊 O que o OSWorld testa especificamente
O OSWorld simula um desktop Ubuntu com aplicações reais instaladas. O modelo recebe tarefas em linguagem natural ("salve este documento como PDF", "agende a reunião para terça às 14h", "extrai os dados desta planilha para um CSV") e precisa navegar pela interface visual para concluí-las. É o benchmark de desktop mais próximo de uso real disponível atualmente.
🌍 Online-Mind2Web: 84%
Enquanto o OSWorld foca em desktop, o Online-Mind2Web testa a capacidade de navegar e executar tarefas em sites reais da internet — e-commerce, formulários de governo, plataformas de conteúdo. O Opus 4.8 atinge 84%, o melhor score reportado neste benchmark.
🏆 Destaque: melhor resultado do benchmark
A Anthropic não divulgou comparações com outros modelos neste benchmark especificamente — o 84% é o número absoluto reportado. Dados de concorrentes nesta métrica não estão disponíveis publicamente para comparação direta.
Web é mais difícil que desktop
Popups inesperados, redirecionamentos, formulários com validação em tempo real, CAPTCHAs, mudanças de estado assíncronas — a web é um ambiente muito mais imprevisível que o desktop. Um score alto aqui indica resiliência real a ambientes não controlados.
Implicação para automação de processos
Um agente que navega bem em sites reais pode automatizar processos que hoje exigem um humano em frente ao computador — desde preenchimento de formulários de RH até coleta de dados de portais governamentais.
💡 Dica para quem quer usar computer use
Tarefas web são hoje o caso de uso mais acessível de computer use: você não precisa de acesso a um desktop virtual. A API de computer use da Anthropic pode ser usada para automatizar fluxos web de forma mais simples que os fluxos de desktop completo.
⚔️ Comparação com concorrentes
Nos benchmarks de uso de computador, o Opus 4.8 lidera de forma consistente no OSWorld. A tabela abaixo consolida os dados disponíveis.
| Modelo | OSWorld | Online-Mind2Web | Posição |
|---|---|---|---|
| Claude Opus 4.8 | 83,4% | 84,0% | 🥇 1º |
| GPT-5.5 | 78,7% | — | 2º |
| Gemini 3.1 Pro | 76,2% | — | 3º |
📊 Contexto da margem no OSWorld
A diferença de 4,7 pp sobre o GPT-5.5 pode parecer pequena em percentual, mas tem implicações práticas em fluxos complexos. Se um agente precisa completar uma sequência de 10 ações com sucesso, uma taxa individual de 83,4% vs 78,7% por passo resulta em taxas de conclusão total muito diferentes.
Exemplo simplificado: em 10 passos sequenciais, a taxa de conclusão do fluxo inteiro seria 0.834^10 ≈ 16% vs 0.787^10 ≈ 8% — o dobro de fluxos completos.
🤖 O que isso significa para agentes
Benchmarks de uso de computador são o sinal mais direto da viabilidade de agentes autônomos em produção. Um modelo em 83% no OSWorld está numa zona diferente de um modelo em 70% — mas ainda não na zona de autonomia total.
Funciona em demos cuidadosamente preparados. Quebra em ambientes reais com qualquer variação. Não é utilizável em produção.
Útil apenas com um humano revisando cada ação. Falha 3x em cada 10 tarefas — inaceitável para produção sem watchdog constante.
Falha ~17% das tarefas individuais. Com supervisão espaçada e checkpoints, começa a criar valor real em workflows de baixo a médio risco. Este é o patamar atual do Opus 4.8.
Agentes confiáveis sem supervisão contínua em fluxos de alto volume. Ainda não alcançado por nenhum modelo disponível comercialmente.
💡 Implicação de design para agentes
A arquitetura de qualquer agente baseado no Opus 4.8 deve incluir pontos de checagem humana explícitos, mecanismos de rollback quando algo dá errado, e alertas quando o modelo encontra situações não previstas. Não projete para autonomia total — projete para autonomia assistida.
⚠️ Ressalva: auto-reportado e contexto controlado
Os números de computer use compartilham o mesmo problema dos benchmarks de código: são auto-reportados pela Anthropic em condições controladas, sem auditoria independente em escala. Mas têm um problema adicional específico a este tipo de avaliação.
⚠️ Problemas específicos dos benchmarks de computer use
- •Ambientes fixos: o OSWorld e o Mind2Web rodam em ambientes predefinidos e consistentes. O ambiente real que você usa tem mais variação, inconsistência e imprevisibilidade
- •Seleção de tarefas: a Anthropic reporta os benchmarks onde seu modelo performa melhor. Não há como saber quais benchmarks foram descartados
- •Comparações de primeira parte: os dados do GPT-5.5 e Gemini foram obtidos e reportados pela Anthropic, não pelos respectivos fabricantes ou por auditores neutros
- •Único teste externo: a TrueFoundry testou 50 problemas — amostra pequena demais para validar os percentuais absolutos com confiança estatística
✓ Conclusões razoáveis
- ✓O 4.8 é provavelmente melhor em agência que o 4.7
- ✓A direção de liderança sobre concorrentes é plausível
- ✓Computer use em geral está avançando rápido no setor
- ✓Agentes já criam valor real em tarefas supervisionadas
✗ Não concluir sem teste próprio
- ✗Que 83,4% é o desempenho no seu ambiente específico
- ✗Que a margem exata sobre o GPT-5.5 é 4,7 pp no seu caso
- ✗Que agentes podem operar sem supervisão em produção
💡 Como validar no seu contexto
Monte 15–20 tarefas representativas do seu uso real de automação. Execute no Opus 4.8 e anote: taxa de conclusão sem erro, número de passos médio, casos em que o modelo travou. Se a taxa própria ficar abaixo de 70%, ainda não é hora de produtizar sem supervisão intensiva.
📌 Resumo do Módulo
Próximo Módulo:
2.4 — Memória e contexto longo