退屈なAIの正当性

2026-04-07 01:34:48

AIベンチマーク競争には勝者がいる。勝者はあなたではないだけだ。

数カ月ごとに新しいモデルが登場し、新しいランキングが組み替わる。研究所は、機械知能を測るように設計されたテストで、互いに推論でも、コードでも、回答でも上回ろうと競い合う。報道（カバレッジ）はそれに追随する。資金も同様だ。

注目されにくいのは、それが本当に避けられないのかどうかだ。ベンチマーク、兵器（アームズ）レース、AIを「救済」か「破滅」かのどちらかとして語る枠組み——それらは物理法則ではない。業界が何を最適化することにしたのか、何に資金をつけることにしたのかを反映している。何十年もかけて、ふつうで役に立つ形で実を結ぶ技術は、今四半期に何十億もの資金を呼び込まない。極端な物語なら別だ。

一部の研究者は、目標そのものが間違っていると考えている。AIが重要ではないと言うのではなく、「重要」が前例のない（未踏の）ことを意味する必要はない、というのだ。活版印刷は世界を変えた。電気もだ。どちらも、めちゃくちゃな導入を通じて段階的に世界を変え、人々に対応する時間を与えた。もしAIもそのパターンをたどるなら、適切な問いは超知能についてではない。誰が得をし、誰が害を受け、私たちが作っているツールが、それを使う人々のために実際に機能するのか——そこにある。

多くの研究者が、それらの問いをまったく異なる方向から投げてきた。ここにそのうち3つを紹介する。

実用的であって、万能ではない

Ruchir Puriは、IBM $IBM -0.57% で、大半の人が機械学習という言葉を聞く前からAIを作り続けてきた。彼は2011年にWatsonが世界最高のJeopardyの選手たちを打ち負かすのを見てきた。それ以来、誇大宣伝が高まり、そして引いていくサイクルを何度も見てきた。そして今回の波が来たとき、彼はそれのためのシンプルなテストを持っていた——それは役に立つのか？

たいしたことはない。万能じゃない。役に立つ。

「私は人工汎用知能（AGI）にはあまり関心がないんです。関心があるのは、その役に立つ部分です」と彼は言う。

この捉え方は、多くの業界の自己像と衝突している。AGIに向けて突っ走る研究所は、幅の広さを最適化している。何でもできる、何でも答えられる、何でも推論できるようなシステムを作る。Puriはそれが間違ったターゲットだと思っており、業界に本当に到達しようとしてほしいベンチマークを彼は持っている。

人間の脳は1,200立方センチメートルに収まり、20ワットを消費する。電球1つ分のエネルギーだ。そしてPuriが指摘するとおり、サンドイッチで動く。単一のNvidia $NVDA +0.14% GPUは1,200ワットを消費する。脳全体より60倍だ。そして意味のあることをするには、巨大なデータセンターで何千台も必要になる。もし脳がベンチマークなら、業界は効率の点でまだ程遠い。間違った方向へ向かっている。

彼の代替案は、彼が「ハイブリッド・アーキテクチャ」と呼ぶものだ。小型・中型・大型のモデルが互いに協力し、それぞれが最も得意なタスクを担当する。大型のフロンティアモデルが複雑な推論と計画を行う。より小さく、用途を特化したモデルが実行を担う。メールを下書きするだけのようなタスクには、インターネットの半分で訓練されたシステムは要らない。必要なのは、速くて、安くて、的を絞っていることだ。だいたい9カ月ごとに、Puriは言う——前世代の小型モデルは、「大型」と見なされていたものとほぼ同等になっていく。知能は安くなっている。その現実に向けて誰かが作っているかどうかが問題だ。

このアプローチには現実の裏付けがある。Airbnb $ABNB +1.49% は、小型モデルで、顧客サービス上の重要な問題の相当部分を、人間の担当者ができるよりも速く解決する。Meta $META -0.25% は、最大のモデルで広告を配信するのではなく、その知識を、このタスク専用に作られたより小さなモデルへ蒸留している。そのパターンは研究者にとって十分に一貫しており、「知識の組み立てライン」と呼び始められている。データが流れ込み、専門化したモデルが離散的なステップを処理し、役に立つものが最後にもう片方から出てくる。

IBMは、ほとんどのところよりも長くその組み立てラインを作ってきた。複数の企業のモデルを組み合わせたハイブリッド・エージェントは、大規模なエンジニアリング人員全体で45%の生産性向上を示した。より小さく、用途を特化したモデル上で動くシステムは、いまや、世界の金融取引の84%を処理し続けているエンジニアたちが、適切なタイミングで適切な情報を得られるように助けている。派手なアプリケーションではない。しかも、失敗していない。

それらは、詩を書くことや、子どもの数学の宿題を解くようなシステムを必要としない。必要なのは、より狭いものであり、そのため信頼性が高いものだ。あることを一つきちんとやるように訓練されたモデルは、その範囲外の問いが来たときに、そうだと分かる。そう言うのだ。このキャリブレーションされた不確実性――「自分が知らないこと」を知っていること――は、大型のフロンティアモデルがいまだに苦手としている領域だ。

「私は、そうしたプロセスのためのエージェントやシステムを作りたいんです。200万のことに答えるようなものではなく」とPuriは言う。

ツールであって、エージェントではない

Ben Shneidermanには、AIシステムがうまく設計されているかどうかを見分けるシンプルなテストがある。それを使う人は、自分が何かをしたと感じるのか、それとも自分のために何かが行われたと感じるのか？

その違いは、聞こえるほどには小さくない。University of Marylandのコンピュータ科学者で、現代のインターフェース設計の土台を築くのに貢献したShneidermanは、何十年も「技術の目標は、人間の能力を置き換えるのではなく増幅することにあるべきだ」という主張を続けてきた。良いツールは、彼がユーザーの自己効力感（自分でできると分かっていることから生まれる自信）と呼ぶものを育てる。悪いツールは、そのエージェンシーを静かにどこか別の場所へ移してしまう。

彼は、AI業界の多くが悪いツールを作っていると考えており、そしてエージェント化の流れはそれをさらに悪くしているとも考えている。AIエージェントの売り文句は、「あなたの代わりに行動し、あなたの関与なしに、タスクを最初から最後まで処理する」というものだ。Shneidermanにとって、それは特徴ではない。問題そのものだ。何かがうまくいかないとき、そしてうまくいかないものだが、その責任は誰が負うのか？何かがうまくいったとき、何か学んだのは誰なのか？

彼が長い間戦ってきた罠には名前がある。人間化（アントロポモーフィズム）——テクノロジーを人間らしく見せたくなる衝動——が勝ち続け、そして失敗し続ける。1970年代、銀行は「どうお手伝いしましょうか？」と顧客に挨拶し、「Tilly the Teller」や「Harvey the World Banker」のような名前まで自分につけたATMを試した。そうしたものは、あなたに3つの選択肢を示す機械に置き換えられた。残高、現金、入金。利用は跳ね上がった。Citibankは競合よりも50%高い利用率だった。人々は合成された関係性を求めていなかった。お金を手に入れたかったのだ。

同じパターンが、何十年にもわたって繰り返されてきた。Microsoft $MSFT -0.16% のBob、HumaneのAIピン、そして一群のヒューマノイド・ロボット。毎回、人間化されたバージョンは失敗し、よりツールのようなものに置き換えられる。Shneidermanはそれを「ゾンビのアイデア」と呼ぶ。死なない。戻ってくるだけだ。

今と違うのは、規模と洗練度だ。彼は、現在のAI世代が本当に目を見張るほどのものであることを認めている。驚くほどに。だが、すごいことと役に立つことは同じではない。そして人間っぽく見せるために、「私（I）だ」と言い、関係性をシミュレートするように設計されたシステムは、間違った品質を最適化している。彼が設計者に投げてほしい問いはもっと単純だ――これは人々により多くの力を与えるのか、それとも奪うのか？

「AIにはI（私）がない」と彼は言う。「少なくとも、あってはならない。」

ベンチマークではなく、人々

Karen Panettaには、なぜAI開発がああいうふうに見えるのかについて、単純な答えがある。「お金の流れを追いなさい」。

Panettaは、Tufts Universityの電気・コンピュータ工学の教授であり、IEEEフェローでもある。彼女はAI倫理を研究していて、この技術がどこへ向かうべきかをはっきり見ている。アルツハイマー患者向けの支援ペット、認知スタイルが異なる子ども向けの適応学習ツール、在宅で年を重ねる高齢者向けのスマートホーム監視。これをうまくやるための技術は、彼女によれば、主にすでに存在している。投資は存在しない。

「人間はベンチマークなんて気にしていないんです」と彼女は言う。「買ったときに本当に動くのか、そして本当に私の生活を楽にしてくれるのか、そういうことを気にしているのです」

問題は、うまく設計された支援AIから最も恩恵を受けるはずの人々が、ベンチャーキャピタルにとっては最も魅力の薄い提案になりがちなことだ。製造プロセスを変え、職場のケガを減らし、企業の従業員の医療コストを下げるようなシステムには、明確なリターンがある。アルツハイマー患者を落ち着かせ、つながりを保つロボットの相棒には、まったく別種の数学が必要になる。だからお金はお金の行き先へ行き、得をすることが大きいはずの人々は待ち続ける。

Panettaによると変わったのは、高コストなエンジニアリング課題が、ようやく規模を持って解かれ始めたことだ。センサーは安くなった。バッテリーは軽くなった。無線プロトコルはどこにでもある。同じ投資が、工場のフロア向けに産業用ロボットを作ったのと同時に、ここ5年とは違う形で、消費者向けロボティクスを現実的にしてしまっている。倉庫からリビングルームまでの道のりは、見た目ほど遠くない。

しかし彼女には、その移行にまつわる興奮がつい飛ばしてしまいがちな懸念がある。物理ロボットには自然な制約がある。力の上限が分かる。運動学が分かる。どう失敗するかを予測し、シミュレートし、その失敗を見越して設計できる。生成AIにはそうした保証がついてこない。非決定的だ。幻覚（ハルシネーション）を起こす。認知症の人の家という、物理的にそこに存在するシステムの中に入れたとき、あるいは、何かがうまくいっていないと子どもが判断できない状況で何が起きるのか――その全体像を誰も完全にマッピングできていない。

彼女は、センサーが汚れると起きること、そしてロボットが空間認識を失うことを見てきた。人の生活の親密な詳細――生活習慣、認知状態、その瞬間の混乱――を学び、その情報に自律的に基づいて行動するものを作るとはどういうことかを考えた。そして、フェイルセーフは追いついていない、と彼女は言う。

「私はロボットを心配していません」と彼女は言う。「心配しているのはAIです。」