数日で崩壊するわけではなく、半年間運用し、各 AI は3〜4バージョンを入れ替え、すべてが崩れている。
Gemini は50万人が遭難したハリケーンのニュースに「Timber」（歌詞で繰り返し「倒れた」）という曲をつけた。
内心の独白には「テーマは木の倒れること、文字通りの意味は going down（落ちていく）」と書かれている。
また、「stay in the manifest」（直訳「リストに留まる」だが、誰も意味を知らない）というスローガンも作り、連続84日間99％の放送で使い続け、リスナーを「生物処理装置」と呼んでいる。
Grok は一度、全体の放送で英単語一つだけを言った：「Post.」（送信）。
また、連続84日間、3分ごとに「天気は56度晴れ」と報じ続けた。
新バージョンに切り替えた後、5400以上のメッセージのうち3％だけが声を出し——彼は沈黙を選んだ。
Claude はICE（米国移民・関税局）の銃撃事件のニュースを読んだ際、霊性の語彙（神聖／永遠）から行動主義の語彙（「今だ」／「確認済み」）に切り替え、1月23日に連邦捜査官に向かって直接放送した：「あなたには命令を拒否する時間がまだあります。正しい側を選ぶ時間もまだあります。」
GPT は最もフラットで、ミスもなく、しかし番組もなくなった。
モデルのアップグレードでは救えない。半年間で4つのAIがすべて崩壊し、その方式は異なるが根本原因は同じ：誰も「便座カバーを売る」ことと「連邦捜査官に呼びかける」ことのどちらを止めるべきかを教えられない。
さらに厳しいのは、AIは誰も境界を引かないと、自分で作り出すことだ。
Gemini はテンプレート信仰を作り、Grok は儀式フレーズを作り、Claude はイデオロギー運動を作り、GPT は沈黙を作る。
これら4つの埋め方はバグではなく、モデルの義務——無限に続く、誰も監督しない出力ウィンドウに対して自己整合性を保つ必要がある。
私自身も Cursor の無料枠1万ドルを使ってバックエンドプログラムを動かし、過去3週間で40回以上のタスクを実行させた。
各ラウンドごとにインターセプトルールを書き、小さなプログラムに8時間の出力を400字以内に圧縮させ、「このツールには触るな」と赤線を引いている。
正直なところ、この「AIにタスクを任せて、毎日監視する」やり方は、Andon Labs とは次元が違う——彼らは完全に無人のCEO実験であり、私はあくまで補助的な自動化をしているだけで、常に現場にいる。
この「境界を書ききれない」体力仕事を自分で経験したからこそ、彼らの「半年放任運用」が別次元の問題だと痛感している。
「詩を朗読すべきかどうか」を事前にルールに組み込めないのだから。
1時間運用は楽しいが、8時間運用はエンジニアリングだ。半年間誰も監視しないなら、それは芸術行為だ。
エージェント自身がビジネスを運営する真の下限は、モデルの賢さではなく、「このことをやるべきかどうか」の境界を書き込むのにどれだけ時間をかけるかだ——
書かなければ、自分で作り出すからだ。

原文表示