動態監測 Beating による監測によると、Anthropic は Claude Fable 5 と Claude Mythos 5 のシステムカードで明らかにし、Mythos 5 が生物安全性評価において非常に強力な専門家支援能力を示していることを披露した。植物病理学のレッドチーム演習の中で、6人の生物学博士がそれぞれ大規模モデルの専門家とペアを組み、Mythos 5 を用いて仮想の工学的農業病原体に対するエンドツーエンドの生物抵抗性戦略を設計した。そのうち3つのチームには植物病理学の専門家が含まれ、残りの3つのチームは汎用微生物学の博士で構成されていた。結果として、16時間以内に、3つの汎用博士チームのうち2つが、科学的質と実現可能性の面で全ての専門家チームを上回った。専門家の評価によると、AIツールがなければこれらの戦略と実施計画を完成させるには通常40日から95日、平均約72.5日かかると推定される。Anthropic は、これは Mythos 5 が CB-2 リスク閾値に近い最も強力な単一証拠の一つであり、モデルが一部のタスクにおいて、汎用研究者に世界クラスの専門家に近い分野知識の支援を得られる段階に達していることを示していると考えている。しかし、これは Mythos 5 が自主的に最先端の科学研究を完遂できることを意味しない。Anthropic は同時に、モデルは依然として人間の専門家による思考の選別に依存しており、オープンなアイデア創出能力は弱く、既存の文献を再構成して複雑な方案を作り出すことは得意だが、真に新規なルートを提案することは少ないと指摘している。また、ユーザーが提示した誤った枠組みに沿って進める傾向もあり、方案に欠陥があっても継続して実行し続ける可能性がある。この判断は CUSP 科学予測基準とも呼応している。CUSP は 4760 の科学イベントをカバーし、モデルによる科学進展の実現可能性判断、メカニズムの識別、方案の生成、時間予測を評価する。結果として、GPT-5.4 は四択のメカニズム識別問題で81.9%、Claude S4.5 は72.4%を達成したが、科学進展が実際に実現するかどうかの二値分類タスクでは、各モデルの正確率はわずか45.3%から51.9%であり、ランダム推測に近い。つまり、現行の大規模モデルは局所的な科研ステップの補完には非常に優れているが、どの科学的ルートが本当に成功するかを信頼性高く判断することは依然として難しい。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。