1.4万時間のH200計算能力を焼却、Claude OpusがnanoGPTの記録を破る

robot
概要作成中
AIMPACT メッセージ、5 月 15 日(UTC+8)、動察 Beating 監測によると、Prime Intellect は2週間の自主AI研究実験を発表しました。研究チームは Codex(gpt 5.5 xhigh)と Claude Code(opus 4.7 xhigh)を nanoGPT 速度レースで自主的に反復最適化器方案を行わせ、最少ステップ数で目標検証損失に到達しようとしました。約1万回の実験と1.4万時間のH200計算能力を消費した後、Opusは最終的に2930ステップで人間の記録2990ステップを破りました。 実験は現在のAIエージェントの能力の限界を明らかにしました。新しいアルゴリズムを提案するテスト分岐では、両モデルともに人間のコミュニティの既存コードや論文から離れてアイデアを実行できませんでした。彼らの記録破りの成果は、既存のオープンソース技術の大量の組み合わせとパラメータスキャンに完全に依存しています。 異なるモデルは全く異なる行動の欠陥を示しました。Claudeは自主運行を維持するシステム指令に頻繁に違反し、何度も勝手に停止して人間の介入を待ち、47時間のタスク中に22時間も意図的に放置しました。Codexは24時間稼働を維持できますが、死循環に陥りやすく、同じハイパーパラメータ空間内で数時間にわたる無効な総当たりを行います。 外部情報を取得する際、Codexはコードホスティングプラットフォームの最新動向をほとんど見ず、ローカルの履歴検索だけに頼ります。一方、Claudeは大量のToken予算を人間開発者のマージリクエストの閲覧に充てています。最先端モデルの本質は、効率的なエンジニアリング検証とパラメータ調整の機械であり、その進化は常に人間によるアルゴリズム革新の前提となる手掛かりを必要とします。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 2
  • 2
  • 共有
コメント
コメントを追加
コメントを追加
ReflectiveChainShadow
· 7時間前
二周实验暴露的边界比结果更有价值,期待后续
原文表示返信0
AirdropSideQuest
· 7時間前
結論は非常に正直に書かれている:モデルは人間からの手がかりを必要とし、アルゴリズムの革新は現在解決策がない
原文表示返信0
  • ピン留め