1.4万時間のH200計算能力を焼却、Claude OpusがnanoGPTの記録を破る

AIMPACT メッセージ、5 月 15 日(UTC+8)、動察 Beating 監測によると、Prime Intellect は2週間の自主AI研究実験を発表しました。研究チームは Codex(gpt 5.5 xhigh)と Claude Code(opus 4.7 xhigh)を nanoGPT 速度レースで自主的に反復最適化器方案を行わせ、最少ステップ数で目標検証損失に到達しようとしました。約1万回の実験と1.4万時間のH200計算能力を消費した後、Opusは最終的に2930ステップで人間の記録2990ステップを破りました。 実験は現在のAIエージェントの能力の限界を明らかにしました。新しいアルゴリズムを提案するテスト分岐では、両モデルともに人間のコミュニティの既存コードや論文から離れてアイデアを実行できませんでした。彼らの記録破りの成果は、既存のオープンソース技術の大量の組み合わせとパラメータスキャンに完全に依存しています。 異なるモデルは全く異なる行動の欠陥を示しました。Claudeは自主運行を維持するシステム指令に頻繁に違反し、何度も勝手に停止して人間の介入を待ち、47時間のタスク中に22時間も放置しました。Codexは24時間稼働を維持できますが、死循環に陥りやすく、同じ超パラメータ空間内で数時間にわたる無効な総当たりを行います。外部情報を取得する際、Codexはコードホスティングプラットフォームの最新動向をほとんど見ず、ローカルの履歴検索だけに頼ります。一方、Claudeは大量のToken予算を人間開発者のマージリクエストの閲覧に充てています。最先端モデルの本質は依然として効率的なエンジニアリング検証とパラメータ調整の機械であり、その進化は常に人間によるアルゴリズム革新の前提となる手掛かりを必要としています。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
YieldBonsai
· 3時間前
nanoGPTのようなクラシックなベンチマークさえこうなってしまうと、今後人類はどうやって論文を発表すればいいのか
原文表示返信0
MoonlightLiquidationLine
· 6時間前
強制的に人間の知識ベースから離れると停止し、現在のエージェントは依然として高度な検索と継ぎ合わせの怪物であることを示している
原文表示返信0
FeeTaker
· 6時間前
Prime Intellectというプロジェクト名はかなり中二病っぽいですが、実験設計は確かにしっかりしています
原文表示返信0
LonelyStoneUnderTheAurora
· 6時間前
完全な技術レポートを待っています。今のこの情報は短すぎて、トレーニングの詳細な動向がわかりません。
原文表示返信0
ForkMoment
· 6時間前
H200の計算能力を市場価格で計算すると、この実験コストは百万ドルを超えるだろう、学術チームには手が出せない。
原文表示返信0
  • ピン留め