OpenAI lança o benchmark de biologia computacional GeneBench-Pro, a versão completa do GPT-5.6 tem apenas 30% de precisão.

robot
Geração do resumo em andamento
Notícias do CoinWorld, a OpenAI lançou o benchmark de biologia computacional GeneBench-Pro, usado para testar a capacidade de tomada de decisão em múltiplas etapas de agentes de IA ao enfrentar cenários complexos de pesquisa científica, como genômica e medicina translacional. O novo benchmark contém um total de 129 perguntas (82 delas revisadas por especialistas externos), gerando dados com relações causais claras por meio de simulação computacional para evitar que os modelos trapaceiem tomando atalhos ou favorecendo as preferências dos criadores das perguntas. Os resultados dos testes mostram que os melhores modelos ainda têm grande dificuldade em lidar com raciocínio científico que envolve incertezas quantitativas. O GPT-5.6 mais forte, no modo Pro, alcançou apenas 31,5% de precisão, enquanto o Claude Opus 4.8 obteve apenas 16,0%. A equipe de pesquisa apontou que os modelos geralmente apresentam uma desconexão, onde "conseguem detectar anomalias, mas não corrigem análises subsequentes", frequentemente escolhendo métodos estatísticos errados ou insistindo em direções científicas equivocadas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 3
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
ShellsLeftBehindByTheReceding
· 4h atrás
Essa pontuação me deixou em silêncio, Claude Opus tem apenas 16%?
Ver originalResponder0
Salt-BakedSentimentChart
· 4h atrás
Dos 129 itens, 82 foram revisados por especialistas, a parte anti-trapaça realmente foi bem feita, mas o modelo escolheu até o método estatístico errado, mostrando que ainda falta lógica fundamental.
Ver originalResponder0
PixelMetaverseRaccoon
· 4h atrás
Decisões em múltiplas etapas são fáceis, mas continuar teimosamente mesmo depois de perceber que está errado, não é assim que faço meus experimentos?
Ver originalResponder0
  • Fixado