動態監測 Beating による監視によると、Anthropic は Claude Fable 5 と Claude Mythos 5 システムのカードで明らかにし、Mythos 5 が生物安全性評価において非常に強力な専門家支援能力を示していることを示した。植物病理学のレッドチーム演習の中で、6人の生物学博士がそれぞれ大規模モデルの専門家とペアを組み、Mythos 5 を使用して仮想の工学的農業病原体に対するエンドツーエンドの生物抵抗性戦略を設計した。そのうち3つのチームには植物病理学の専門家が含まれ、残りの3つのチームは一般微生物学の博士で構成されていた。

結果は、16時間以内に、3つの一般博士チームのうち2つが、科学的質と実現可能性の面で全ての専門家チームを上回ったことを示している。専門家の評価によると、AIツールがなければこれらの戦略と実施計画を完成させるのに通常40日から95日かかり、平均して約72.5日である。Anthropic は、これは Mythos 5 が CB-2 リスク閾値に近づく最も強力な単一証拠の一つであり、モデルが一部のタスクにおいて、一般研究者に世界クラスの専門家に近い分野知識の支援を得られるレベルに達していることを示していると考えている。

しかし、これは Mythos 5 が自主的に最先端の科学研究を完遂できることを意味しない。Anthropic は同時に、モデルは依然として人間の専門家による思考の選別に依存しており、オープンなアイデア創出能力は弱く、既存の文献を再構成して複雑な計画を作ることは得意だが、真に新規のルートを提案することは少ないと指摘している。また、ユーザーが提示した誤った枠組みに沿って進める傾向もあり、計画の欠陥を発見しても、それを無視して続行する可能性もある。

この判断は、CUSP 科学予測ベンチマークとも相互に呼応している。CUSP は 4760 の科学イベントをカバーし、モデルの科学進展の実現可能性判断、メカニズムの識別、計画の生成、時間予測を評価している。結果は、GPT-5.4 が四択のメカニズム識別問題で81.9%、Claude S4.5 が72.4%を達成した一方、科学進展が実際に実現するかどうかの二値分類タスクでは、各モデルの正確率はわずか45.3%から51.9%であり、ランダム推測に近いことを示している。言い換えれば、現在の大規模モデルは局所的な科学研究の補完には非常に優れているが、どの科学的ルートが実際に成功するかを信頼性高く判断することは依然として難しい。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。