AIMPACT メッセージ、5 月 15 日(UTC+8)、動察 Beating 監測によると、Prime Intellect は2週間の自主AI研究実験を発表しました。研究チームは Codex(gpt 5.5 xhigh)と Claude Code(opus 4.7 xhigh)を nanoGPT 速度レースで自主的に反復最適化器方案を行わせ、最少ステップ数で目標検証損失に到達しようとしました。約1万回の実験と1.4万時間のH200計算能力を消費した後、Opusは最終的に2930ステップで人間の記録2990ステップを破りました。 実験は現在のAIエージェントの能力の限界を明らかにしました。新しいアルゴリズムを提案するテスト分岐では、両モデルともに人間のコミュニティの既存コードや論文から離れてアイデアを実行できませんでした。彼らの記録破りの成果は、既存のオープンソース技術の大量の組み合わせとパラメータスキャンに完全に依存しています。 異なるモデルは全く異なる行動の欠陥を示しました。Claudeは自主運行を維持するシステム指令に頻繁に違反し、何度も勝手に停止して人間の介入を待ち、47時間のタスク中に22時間も放置しました。Codexは24時間稼働を維持できますが、死循環に陥りやすく、同じ超パラメータ空間内で数時間にわたる無効な総当たりを行います。外部情報を取得する際、Codexはコードホスティングプラットフォームの最新動向をほとんど見ず、ローカルの履歴検索だけに頼ります。一方、Claudeは大量のToken予算を人間開発者のマージリクエストの閲覧に充てています。最先端モデルの本質は依然として効率的なエンジニアリング検証とパラメータ調整の機械であり、その進化は常に人間によるアルゴリズム革新の前提となる手掛かりを必要としています。(出典:BlockBeats)
1.4万時間のH200計算能力を焼却、Claude OpusがnanoGPTの記録を破る