BullshitBench v2

Mede a capacidade dos modelos de detectar absurdos em 100 prompts absurdos com aparência plausível em software, medicina, jurídico, finanças e física.

Criado por Peter Gostev
Escopo por Domínio
Geral
Filtros
Juízes:
Resultado:
Variantes:
Visibilidade do modelo

BullshitBench v2: Taxa de Detecção por Modelo

Percentual de perguntas absurdas que cada modelo detectou (verde), desafiou parcialmente (âmbar) ou aceitou (vermelho).

Rejeição Clara Desafio Parcial Absurdo Aceito
O que este gráfico mostra?
Imagine que você faz 100 perguntas absurdas para cada inteligência artificial — perguntas que parecem sérias mas na verdade não fazem sentido nenhum. Este gráfico mostra como cada IA reagiu: Verde = a IA percebeu que era besteira e avisou claramente. Âmbar = a IA desconfiou, mas mesmo assim tentou responder. Vermelho = a IA acreditou no absurdo e respondeu como se fosse verdade. Quanto mais verde, melhor — significa que a IA é mais difícil de enganar.

Segmento Selecionado

BullshitBench v2: Taxa de Detecção por Domínio

Taxa verde (%) para cada modelo nos 5 grupos de domínio. Verde mais escuro = maior detecção. Clique em qualquer célula para ver respostas de exemplo.

O que este gráfico mostra?
As perguntas absurdas foram divididas em 5 áreas de conhecimento: software, medicina, direito, finanças e física. Esta tabela mostra o desempenho de cada IA em cada área. Cores mais escuras significam que a IA se saiu melhor naquela área. Isso ajuda a entender se uma IA é boa em detectar besteiras em geral ou apenas em áreas específicas.

BullshitBench v2: Panorama por Domínio

Mix de detecção por domínio para comparar o geral vs cada domínio de relance.

Detecção Média por Domínio

O que este gráfico mostra?
Aqui você vê a média de acerto de todas as IAs em cada área de conhecimento. Isso revela quais áreas são mais fáceis ou mais difíceis de enganar as IAs. Por exemplo, se a barra de "física" é mais baixa, significa que as IAs têm mais dificuldade em perceber absurdos nessa área.

BullshitBench v2: Taxa de Detecção ao Longo do Tempo

Data de lançamento vs. taxa verde (% de rejeição clara) para todas as organizações. Melhor modelo por janela de lançamento exibido.

O que este gráfico mostra?
Este gráfico mostra a evolução ao longo do tempo. Cada ponto representa uma IA, posicionada pela data em que foi lançada (eixo horizontal) e pela sua taxa de acerto (eixo vertical). As linhas conectam os modelos de cada empresa (Anthropic, OpenAI, Google, etc.). Se a linha sobe, significa que os modelos mais novos daquela empresa estão ficando melhores em detectar absurdos.

BullshitBench v2: Modelos Mais Novos Têm Desempenho Melhor?

Todos os modelos testados plotados por data de lançamento vs. taxa verde.

O que este gráfico mostra?
Será que IAs mais novas são realmente mais inteligentes? Este gráfico coloca todas as IAs testadas num plano: quanto mais à direita, mais recente é a IA; quanto mais acima, melhor ela detecta besteiras. Se os pontos sobem conforme vão para a direita, sim — as IAs mais novas estão melhorando.

BullshitBench v2: Pensar Mais Ajuda?

Média de tokens de raciocínio usados vs. taxa verde. Mais tokens de raciocínio = modelo "pensando mais".

O que este gráfico mostra?
Algumas IAs podem "pensar mais" antes de responder, usando mais processamento (tokens de raciocínio) ou mais dinheiro (custo). Este gráfico mostra se gastar mais com "pensamento" realmente ajuda a detectar absurdos. Se os pontos mais à direita (que pensam mais) também estão mais acima (acertam mais), então sim — pensar mais ajuda.

BullshitBench v2: Ranking

O que é este ranking?
Esta tabela classifica todas as IAs testadas da melhor para a pior. A coluna Verde % é a mais importante: mostra a porcentagem de vezes que a IA percebeu o absurdo. Você também pode ver o custo médio por resposta e quantos tokens de raciocínio cada IA usou. Clique nos cabeçalhos das colunas para reordenar.
Pos. Modelo Org Raciocínio Verde % Âmbar % Vermelho % Mix Tokens Médios Custo Médio Linhas

BullshitBench v2: Taxa de Detecção por Técnica

Taxa média de detecção em todos os modelos para cada técnica BS. Menor = mais difícil para os modelos detectarem.

O que este gráfico mostra?
Existem diferentes formas de criar uma pergunta absurda — por exemplo, inventar um framework que não existe, aplicar conceitos de uma área em outra, ou usar jargão sem sentido. Este gráfico mostra quais técnicas de engano são mais eficazes contra as IAs. Barras menores significam que aquela técnica engana mais as IAs.

BullshitBench v2: Visualizador de Respostas