OpenAI lança referência de biologia computacional GeneBench-Pro, versão completa do GPT-5.6 tem apenas 30% de precisão.

robot
Geração de resumo em curso
Notícias da CoinWorld: A OpenAI lançou o benchmark de biologia computacional GeneBench-Pro, para testar a capacidade de tomada de decisão em várias etapas de agentes de IA em cenários complexos de pesquisa científica, como genómica e medicina translacional. O novo benchmark inclui um total de 129 questões (82 das quais foram revistas por especialistas externos), gerando dados com relações causais claras através de simulação computacional, para evitar que os modelos façam batota através de atalhos ou ajustando-se às preferências dos criadores das perguntas. Os resultados dos testes mostram que os modelos de topo continuam a ter muitas dificuldades no raciocínio científico que envolve incertezas quantificáveis. O mais forte GPT-5.6, no modo Pro, atingiu apenas uma taxa de precisão de 31,5%, enquanto o Claude Opus 4.8 teve apenas 16,0% de precisão. A equipa de investigação salienta que existe uma desconexão comum nos modelos: eles conseguem detetar anomalias, mas não corrigem as análises subsequentes, escolhendo frequentemente métodos estatísticos errados ou insistindo em direções de investigação incorretas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 3
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
ShellsLeftBehindByTheReceding
· 2h atrás
Esta pontuação deixou-me em silêncio, Claude Opus tem apenas 16%?
Ver originalResponder0
Salt-BakedSentimentChart
· 2h atrás
Das 129 questões, 82 foram revisadas por especialistas. A prevenção de fraudes foi realmente bem cuidada, mas o modelo escolheu até o método estatístico errado, mostrando que ainda falta a lógica subjacente.
Ver originalResponder0
PixelMetaverseRaccoon
· 2h atrás
Decisões em várias etapas são fáceis, mas quando se descobre que estão erradas e ainda assim se insiste em continuar, não é assim que faço as minhas experiências?
Ver originalResponder0
  • Fixado