幣界網ニュース:OpenAIは、計算生物学の評価ベンチマーク「GeneBench-Pro」を発表しました。これは、AIエージェントがゲノミクスやトランスレーショナルメディシンなどの複雑な研究シナリオに直面した際の多段階意思決定能力をテストするためのものです。新しいベンチマークは合計129問(うち82問は外部専門家によるレビュー済み)で構成され、コンピュータシミュレーションによって明確な因果関係を持つデータを生成し、モデルが近道をしたり出題者の好みに合わせたりして不正を行うのを防止します。テスト結果によると、トップクラスのモデルでも、量的不確実性を含む科学的推論を処理する際に非常に苦戦していることが示されました。最も強力なGPT-5.6でもProモードを有効にしてわずか31.5%の正解率しか達成できず、Claude Opus 4.8の正解率はわずか16.0%でした。研究チームは、モデルに「異常を発見できるが、その後の分析を修正できない」という断絶現象が広く見られ、統計手法を誤って選択したり、誤った研究方向に固執したりすることが多いと指摘しています。
OpenAIが計算生物学ベンチマークGeneBench-Proを発表、GPT-5.6フルバージョンの正解率はわずか3割