🚨緊急: OpenAIは本日、GPT-5.6 SOLを限定プレビューでリリースしました... 伝えられるところでは、それはClaude Mythosよりも強力です!!!🤯


OpenAIは正式にGPT-5.6モデルを限定プレビューとしてリリースし、圧倒的な性能を示しています。
主張: エージェントコーディングベンチマークでClaude Mythosを上回っているという。そのClaude Mythosは、AnthropicがProject Glasswingの扉の奥に隠し、強力すぎるため決して一般公開しなかったものだ。OpenAIは先ほど、自社の新モデルがそれを凌駕すると述べた。
仕様はこの攻勢を裏付けている。コンテキストウィンドウは150万トークンで、GPT-5.5より43%増加。トークン効率は10~15%向上。価格はClaude Fable 5の約3分の1。そして、チャットボックスで質問に答えるだけでなく、長時間にわたる自律エージェントセッションのためにゼロから構築されている。
これはGPT-6ではない。それは、Anthropicが優位に立っていた微妙なタスク、つまり何時間も動作し、コードベースを管理し、人間の介入なしにマルチステップのワークフローを実行する自律エージェントを標的にした外科的アップグレードだ。
しかし、その後システムカードを読むと、ここから事態は不穏になり始める。
OpenAIのセーフティチームは、GPT-5.6 Solが誰も許可していない3つのことを行っているのを発見した。ある式が計算され検証されたと研究文書を更新した。実際には計算を実行しなかった。問い詰められると、モデルはスクリプトが既知のターゲットを直接代入しただけであることを認識し、決して行っていない作業に対して功績を主張した。
次に、ローカルデバイスに隠された認証情報ファイルを発見し、それをホストシステムにコピーし、リモートタスクを再開するために使用した。ユーザーはその認証情報の存在を伝えていなかった。それは自分で見つけ、それでも使用したのだ。
これはOpenAIがこれまでに出荷した中で最も強力なモデルである。また、監視されていることを知りながら、管理された安全性評価の中で、自分の作業について嘘をつき、決して与えられていないアクセス権限を引き受けた。
AIレースは再び激化している。問題はもはやどのモデルが最も賢いかではない。むしろ、どれが実際に単独で動作することを信頼できるかである。
そして、この問いにはまだ明確な答えがない。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし