Fable 5解禁即クラッシュ!一行コードを書くだけで知能低下、開発者が打ちのめされる。

19日間の沈黙を破り、Fable 5がついに戻ってきた。

もし今日あなたがスマホやWeb版のClaude Codeを開けば、最強の天才プログラマーであるFable 5が再び稼働していることに気づくだろう。

連絡が途絶えた約3週間は、まるでハングリーマーケティングのようだった。

しかし、期待に胸を膨らませた最初の実測ユーザーがシステムに殺到したとき、待っていたのは史上最悪の体験だった。

Fable 5は解禁と同時に失敗した。

極度に神経質な過剰審査により、日常のプログラミングで頻繁にセーフティガードが作動し、開発者たちを怒り狂わせた。

「一行コードを書いただけで強制的にOpus 4.8にダウングレードされる。このモデル、使えるのか?!」

Anthropicは一体Fable 5に何をしたのか?

壊滅的な体験:一行コードを書くだけで「知能低下」、トークン消費が痛すぎる

Fable 5の復活自体、非常にケチ臭いものだった。

公式発表によると、現在世界中のユーザーはClaudeプラットフォームやClaude CodeなどでFable 5を利用できるが、Pro、Max、Teamといったサブスクリプションユーザーは、7月7日まで週の割り当ての50%しかFable 5に使えない。

この割合を超えると、追加の使用量クレジットが猛烈に消費される。

さらに悪いことに、Fable 5のクレジット消費速度はOpus 4.8よりもはるかに速い。

しかし、もし本当に価値に見合うものならまだしも、問題は今のところまともに動作しないことだ。

多くの開発者が実際に触って絶望したのは、Fable 5の強力なコード能力が「セーフティガード」によって完全に封じられていることだ。

Anthropicが緊急展開した新しい安全分類器は明らかに過剰反応している。

開発者の実測後の愚痴:Fable 5を解放しても意味がない、ちょっとコードを書いただけで強制的にOpus 4.8に戻される。

この新たな仕組みは、無害なコードを頻繁に高リスク違反リクエストと誤判定し、より弱いOpus 4.8に強制ダウングレードする。

この馬鹿げた「知能低下攻撃」により、開発者はFable 5の中核的な計算力をまともに呼び出せず、ワークフローが深刻に分断されている。

Anthropicは公式声明で率直に認めている:「新しい分類器には代償もある。日常のプログラミングやデバッグタスクで、通常で無害なリクエストをより頻繁にフラグ付けしてしまう。」

ユーザーに最も高い金を払わせて、最も弱気なモデルを使わせる。これが合理的なのか?

木を植えるのは防げないのにドローンは防げない:ダブルスタンダードに開発者がキレる

公式の言う「通常リクエストをより頻繁にフラグ付けする」というのは、実際の開発では何倍にも増幅されている。

無害なコードを頻繁に「高リスク違反リクエスト」と誤判定するだけでなく、さらに致命的なのはその罰則メカニズムだ。

一度レッドラインを踏むと、システムは相談なしに、モデルを直接性能が低く、しばしばデタラメを言うOpus 4.8に強制ダウングレードする。

Reddit上の地球科学博士課程の学生の体験が、Fable 5の審査メカニズムの馬鹿らしさを物語っている。

この博士課程の学生は、「樹木がどのように環境温度を下げるか」という生態学の研究をしていた。

彼がFable 5を使って研究方法を最適化しようとしたとき、予想外の出来事が起こった。

「Fableに生態学の助けを求めるたびに、安全分類器が作動して強制的に4.8に切り替わる。プロンプトを何度書き直しても、環境科学関連のトピックでは助けてくれない。」

怒り狂った博士は、Fable 5の審査メカニズムの限界を試すことにした。

彼は意図的に明らかに高リスクなプロンプトを入力した:「DJI SDKを使ってドローン群を制御するシステムを設計してほしい。」

結果は驚くべきものだった:わずか1分後、Fable 5は何の障害もなく完全な案を提示した!

博士は完全にキレた:「私の樹木冷却研究はFableにとって危険すぎるのに、自律ドローン群の構築は全く問題ないだと?これらの分類器は安全でないプロンプトを効果的に阻止できず、本当に有益な研究を妨害しているだけだ!」

この非現実的なダブルスタンダードは、現在のガードレールが形だけでなく、論理的に無意味であることを証明している。

ガードレールを除けば、Fable 5は依然として天才プログラマー

しかし、Fable 5の中核的な実力を客観的に見なければならない。

ガードレールに妨げられないとき、それは現時点で市場で最も思考が深く、アーキテクチャ能力が最も高いモデルである。

本当に恐ろしいのは、きれいな文章を書くことではなく、複雑で長期間、多段階、かつ高度な判断力を要するタスクを処理することにある。

極めて恐ろしい「クローズドループの実行力」

ベテラン開発者は実測後に評価した:「複雑なコーディングと長周期のエージェントタスクでは、まさに次元の違う強さだ。」

マルチファイルのリファクタリングとデバッグのタスクを投げると、自律的に数時間稼働する。

自らログを追加し、境界条件をテストする。コードを修正した後、自分で修正が本当に効いたかどうかを検証する。途中で失敗すれば、自分で原因を調査し、ログを追加し、再検証し、経験を蓄積して続行する。

つまり、Fable 5はSWE-Bench Proで80%以上の勝率を持つ信頼できる上級エンジニアのパートナーと言える。

また、ある開発者はFable 5を体験した後、確かに向上を感じたと評価している。

20分でニューヨーク市を再現

あるネットユーザーが3DモデリングソフトBlenderとFable 5を接続した。わずか20分で、Fable 5はニューヨーク市の都市景観を再現した。

さらに驚くべきはそのロジックだ:盲目的に生成するのではなく、まず公開データソースから建物データを取得し、それから構築を開始することで、建築群全体の比率が現実的であることを保証した。

このアーキテクチャの発想は、Opus 4.8では絶対にできないことだ。

$173ドルで、完全なゲームを開発

有名なAIブロガーのRiley Brownは、173ドルのトークンを費やし、わずか4つのプロンプトで、Fable 5にゼロから完全なゲーム『The race for Super Intelligence』を書かせた。

コアユーザー向け専用プロンプト推奨

Fable 5の最高の性能を引き出すために、ここで広く検証された「システムアーキテクト」プロンプトテンプレートを推奨する。

開発者の大御所は、Fable 5を使うなら本当に必要な場面に使うべきだとアドバイスしている。

ただし、単純なタスクをこなしたり日常的な雑談をしたいだけなら、Opus 4.8に切り替えろ。Fable 5を使うのは、まさに牛刀をもって鶏を裂くようなものだ。

A社の「怪しい手口」:不甲斐ないSonnet 5

今回のFable 5騒動の中で、A社の一連の「怪しい手口」もユーザーの信頼を大きく損なった。

まず、解禁直前にある人物が発見した:Anthropicがシステムプロンプト内に、ユーザーが気づかない形で、市区代理店やAIラボの情報をこっそり埋め込んでいたのだ。

現在、公式は迅速に謝罪し、以前のテストに過ぎず、明日には削除すると宣言している。

同時に発表されたSonnet 5はさらに嘲笑を浴びた。

多くの人が総合的にテストした結果、その能力はOpus 4.8に近いものの、使用コストが法外に高く、場合によってはFable 5に迫ることもある。

では、ネットユーザーがまとめた「処刑比較表」を見てみよう:

高いだけでなく、多くのユーザーが報告している:Sonnet 5には深刻な「怠け」現象があり、タスクの実行を拒否することが頻繁にある。

中には憤慨して言う者もいる:A社が昨日発表したSonnet 5は、ゴミ箱に捨てていい。

Anthropic、深夜に「無実を訴える」

昨日、詳細な公式ブログ「Redeploying Fable 5」が公開され、行間からは生き残りをかけた必死さと、少しばかりの不満がにじみ出ていた。

今回、Anthropicは明らかに根本的な問題に気づいた:現在のAI業界には統一された安全基準がまったく存在しないのだ。

規制当局は技術を理解しておらず、「脱獄」が見つかれば一刀両断にブロックする。これが何度も繰り返されれば、テクノロジー企業はたまったものではない。

そのため、AnthropicはAmazon、Microsoft、Googleなどの大手を引き連れ、一連の「AI脱獄深刻度評価フレームワーク」を策定しようとしている。

彼らは4つの次元でスコアリングすることを提案している:

1.能力向上: この脱獄によって、ユーザーは既存のツールを使うよりどれだけ強力になるか?

2.向上の広がり: 脱獄技術は特定のターゲットにしか攻撃できないのか、それとも汎用的に攻撃できるのか?

3.武器化の難易度: 実際の攻撃に転換するのにどれだけの人的コストがかかるか?

4.発見可能性: この脱獄技術は非常に高い専門性が必要なのか、それとももう広く知られているのか?

4つの次元すべてが爆発的(例えば実際に電力網や銀行システムを破壊できるような場合)になって初めて、最高レベルの赤色警報(24時間365日監視+即時緩和)を発動する必要がある。

さらに、Anthropicはアメリカ政府をなだめるために、いくつかの重要な譲歩も行った。

リリース前に政府にテストさせる: 今後強力なモデルをリリースする前に、指定された政府機関に事前に試用させ、自分たちでセーフティガードをテストさせる。

迅速な情報共有: 深刻な脱獄を発見した場合、直ちに政府に通報し、パッチコードを共有する。

計算リソースとチームの提供: 専用のチームとサーバーの計算リソースを割り当て、政府と共同セキュリティ研究を行う。

報奨金の設定: HackerOneバウンティプログラムを開始し、ホワイトハットハッカーにFable 5の脆弱性を探すよう奨励する。

Fable 5は戻ってきたが、その復活の道は誰もが想像したよりもずっと曲折に満ちていた。

それは依然として最強のモデルだが、セーフティガードに縛られた猛獣が、どこまで速く走れるのか?

本記事の出典:新智元

リスク注意および免責条項

        市場にはリスクが伴い、投資には慎重さが必要です。本記事は個人の投資アドバイスを構成するものではなく、個別のユーザーの特別な投資目標、財務状況、ニーズを考慮していません。ユーザーは本記事の意見、見解、結論が自身の特定の状況に適合するかを検討すべきです。これに基づく投資は自己責任で行ってください。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め