4,760個マイルストーンを投入しても、新発見を予測するのはコイン投げと同じレベルだ。メカニズム推論がいくら強くても、標準的な答えのない未知の領域に直面すれば、やはり手探りになる。

原文表示
CoinNetwork
AIはまだ自律的な科学者になれず、CUSP評価は大規模モデルが先見の明のある研究視野に欠けていることを明らかにしている
スタンフォード/オックスフォード/アレンAI研究所は時系列ベンチマークCUSPを発表し、AIの科学進展予測能力を評価した。GPT-5.4、Claude Sonnet 4.5、DeepSeek R1などのモデルが既存の技術経路のメカニズム推論に良好なパフォーマンスを示したが、新発見の実現可能性の予測はほぼランダムであり、ブレークスルーの時間には体系的な遅れが存在した。CUSPは時系列知識のカットオフを基に、NatureやScienceの最先端進展を整理し、ベンチマークは4,760のマイルストーンと17,429のタスクをカバーしている。結論として、標準的な答えのない科学的探究において、既存のモデルは信頼できる先見判断を提供できない。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし