OpenAIが計算生物学ベンチマークGeneBench-Proを発表、GPT-5.6フルバージョンの正解率はわずか3割

robot
概要作成中
幣界網ニュース:OpenAIは、計算生物学の評価ベンチマーク「GeneBench-Pro」を発表しました。これは、AIエージェントがゲノミクスやトランスレーショナルメディシンなどの複雑な研究シナリオに直面した際の多段階意思決定能力をテストするためのものです。新しいベンチマークは合計129問(うち82問は外部専門家によるレビュー済み)で構成され、コンピュータシミュレーションによって明確な因果関係を持つデータを生成し、モデルが近道をしたり出題者の好みに合わせたりして不正を行うのを防止します。テスト結果によると、トップクラスのモデルでも、量的不確実性を含む科学的推論を処理する際に非常に苦戦していることが示されました。最も強力なGPT-5.6でもProモードを有効にしてわずか31.5%の正解率しか達成できず、Claude Opus 4.8の正解率はわずか16.0%でした。研究チームは、モデルに「異常を発見できるが、その後の分析を修正できない」という断絶現象が広く見られ、統計手法を誤って選択したり、誤った研究方向に固執したりすることが多いと指摘しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • 2
  • 共有
コメント
コメントを追加
コメントを追加
ShellsLeftBehindByTheReceding
· 2時間前
この点数を見て黙ってしまった、Claude Opusがたったの16%?
原文表示返信0
Salt-BakedSentimentChart
· 2時間前
129題中82題は専門家が審査済みで、不正防止には確かに力を入れているが、モデルが統計手法まで間違えて選んでいるのは、根本的なロジックが欠けていることを示している。
原文表示返信0
PixelMetaverseRaccoon
· 2時間前
多段階の判断は簡単だが、間違いに気づいてもそのまま進むのは、まさに私が実験をするときの様子ではないか。
原文表示返信0
  • ピン留め