退屈なAIの正当性

2026-04-08 02:31:38

AIベンチマーク競争の勝者が決まった。ただし、それはあなたではない。

数か月ごとに新しいモデルが登場し、新しいランキングが組み替えられる。研究機関は、機械知能を測るために設計されたテストで、互いを出し抜くために、推論でも、コーディングでも、回答でも競い合う。報道はそれに追随する。資金も同様だ。

注目されにくいのは、こうしたことが本質的に避けられないのかどうかだ。ベンチマーク、兵器のような競争、AIを救済か破滅かのどちらかに見立てる枠組み――これらは物理法則ではない。これらは、業界が何を最適化することに決め、何に資金を投じることに決めたかを映し出している。通常の、役に立つ形で成熟するまで数十年かかる技術は、今四半期に何十億もの資金を呼び込まない。極端な物語は呼び込む。

一部の研究者は、目的そのものが間違っていると考えている。AIが重要でないという意味ではない。重要だからといって、前例のないことを意味する必要はないということだ。活版印刷は世界を変えた。電気もそうだ。どちらも、拙さのある導入を通じて、段階的に変えていった。社会が対応するための猶予があったのだ。もしAIもそのパターンをたどるなら、適切な問いは超知能についてではない。誰が得をし、誰が害を受け、そして私たちが作っているツールが、それを使う人々のために本当に機能するのか――そこにある。

多くの研究者が、実に異なる方向からそうした問いを投げてきた。ここではそのうち3人を紹介する。

実用的であって、汎用的ではない

Ruchir Puri は、IBM $IBM -0.68% で、多くの人が機械学習を耳にする前からAIを作り続けてきた。彼は2011年に Watson が世界最高のジェパディ・プレイヤーたちに勝つのを見た。その後も、過熱した期待が頂点に達しては引いていくサイクルをいくつも見てきた。今回の波が来たとき、彼には単純なテストがあった。それは「役に立つのか？」ということだ。

すごくない。汎用的じゃない。役に立つ。

「私は人工汎用知能には、あまり関心がありません」と彼は言う。「私は、その役に立つ部分に関心があるんです。」

こうした捉え方は、業界の多くの自己イメージと彼を対立させている。AGIに向けて突き進む研究所は、幅広さのために最適化している。何でもできる、何でも答えられる、何でも推論できるようなシステムを作っている。Puri はそれが間違った狙いだと考えていて、業界に本当に到達を試みてほしいベンチマークを持っている。

人間の脳は 1,200立方センチメートルで、20ワットを消費する。電球のエネルギーに相当し、Puri が指摘するように、サンドイッチで動く。単一の Nvidia $NVDA +0.26% GPU は 1,200ワット、つまり脳全体の60倍を消費し、何か意味のあることをするには巨大なデータセンターで何千台も必要になる。脳がベンチマークなら、業界は効率の面でまだ程遠い。むしろ逆方向に進んでいる。

彼の代替案は、彼が「ハイブリッド・アーキテクチャ」と呼ぶものだ。小・中・大のモデルが協力し、それぞれが最も得意なタスクを担当する。大きなフロンティアモデルが、複雑な推論と計画を担う。より小さく、用途に特化したモデルが実行を担当する。メール作成のような単純なタスクには、インターネットの半分で訓練されたシステムは必要ない。速くて、安くて、的を絞ったものが必要だ。およそ9か月ごとに、Puri は言うが、前の世代の小型モデルは「大規模」とみなされていたものにおおむね相当するようになる。知能は安くなっている。その現実に合わせて誰かが作っているのかどうかが問題だ。

そのアプローチには現実世界の裏付けがある。Airbnb $ABNB -1.45% は、小型モデルを使って、カスタマーサービスの課題の大部分を、人間の担当者よりも速く解決している。Meta $META +0.35% は、最大級のモデルを使って広告を配信するのではなく、その知識を、そのタスク専用に作られた小型モデルへ蒸留している。研究者たちが「知識の組み立てライン」と呼び始めたほど、パターンは一貫している。データが流れ込み、専門化されたモデルが離散的なステップを処理し、何か役に立つものが最後に出てくる。

IBM は、その組み立てラインを、ほとんどの企業より長く構築してきた。複数の企業のモデルを組み合わせたハイブリッド・エージェントは、大規模なエンジニアリング部隊全体で生産性を 45% 改善したことが示されている。小型で用途特化したモデル上で動くシステムは、世界の金融取引の 84% を処理するエンジニアが、適切なタイミングで適切な情報を得られるよう支援している。派手なアプリケーションではない。だが、失敗もしていない。

それらは、詩を書くことや、子どもの数学の宿題を解くことができるシステムを必要としない。より狭い能力が必要で、そのため信頼性が高い。1つのことをうまくやるよう訓練されたモデルは、自分の守備範囲から外れた質問だときちんと分かる。そう言うのだ。自分が知らないことを理解したうえでの、この調整された不確実性――それは、大規模なフロンティアモデルでもまだ苦手としている。

「私は、そうしたプロセスのためのエージェントやシステムを作りたいんです」と Puri は言う。「200万ものことに答えるものではありません。」

ツールであって、エージェントではない

Ben Shneiderman には、AIシステムが適切に設計されているかどうかを見分けるための単純なテストがある。使っている人は、自分が何かをしたと感じるのか。それとも、誰かが自分のために何かをしてくれたと感じるのか？

この違いは、聞こえる以上に重要だ。現代のインターフェース設計の基礎を築くのを手伝ったメリーランド大学のコンピュータ科学者である Shneiderman は、何十年も「技術の目標は、人間の能力を増幅することであり、置き換えることではない」という主張を続けてきた。良いツールは、彼がいう「ユーザーの自己効力感」、つまり自分なら何かができると分かることで得られる自信を育てる。悪いツールは、その代理権をこっそりどこか別の場所へ移してしまう。

彼は、AI業界の多くが悪いツールを作っていると考えており、そしてエージェント化の流れはそれをさらに悪くすると考えている。AIエージェントの売り文句は、あなたの代わりに行動し、あなたの関与なしにタスクをエンドツーエンドで処理するということだ。Shneiderman にとって、それは特徴ではない。問題だ。何かがうまくいかなかったとき――それは起きる――誰が責任を負うのか？うまくいったとき――何かを学んだのは誰なのか？

彼が長い間戦ってきた罠には名前がある。擬人化、つまり技術を人間らしく見せようとする衝動。それが勝ち続け、そして失敗し続けるものだ。1970年代、銀行は「どうお手伝いしましょうか？」と顧客に迎え入れ、チリー・ザ・テラーやハーヴィー・ザ・ワールド・バンカーのように自分たちに名前をつけるATMを試した。それらは、選択肢を3つ提示する機械に置き換えられた。残高、現金、入金。利用は急増した。シティバンクは競合よりも利用率が 50% 高かった。人々は合成された関係性を求めていなかった。お金を手に入れたいだけだったのだ。

同じパターンは、何十年にもわたって繰り返されてきた。Microsoft $MSFT -0.16% のボブ、Humane のAIピン、人型ロボットの波。毎回、擬人化したバージョンは失敗し、よりツールのようなものに置き換わる。Shneiderman はそれを「ゾンビのようなアイデア」と呼ぶ。死なない。ただ繰り返し戻ってくる。

今違うのは、規模と洗緯された度合いだ。現在の世代のAIは、確かに本当に印象的だと彼は認めている。驚くほどに。だが、印象的であることと、役に立つことは同じではない。人間のように見せるよう設計されたシステム、つまり「私」と言い、関係性をシミュレートするものは、間違った質に最適化している。彼が設計者に問いかけてほしいのは、もっと単純だ。これによって人々により多くの力が与えられるのか、それとも減るのか？

「AIには “I” がない」と彼は言う。「少なくともそうあるべきではない。」

ベンチマークではなく、人々

Karen Panetta には、なぜAI開発がこのような形に見えるのかについての単純な答えがある。金の流れを追えばいい。

Panetta は、タフツ大学の電気・コンピュータ工学の教授で、IEEE フェローでもあり、AI倫理を研究している。テクノロジーがどこへ向かうべきかについて、見通しは明確だ。アルツハイマー病患者のための支援用ペット、認知スタイルが異なる子ども向けの適応学習ツール、在宅で年齢を重ねていく高齢者のためのスマートホームの見守り。こうしたことをうまく行うための技術は、彼女によれば、概ねすでに存在している。しかし投資はしていない。

「人間はベンチマークに関心がないんです」と彼女は言う。「関心があるのは、私がそれを買ったときに本当に使えるのか。そして本当に生活を楽にしてくれるのか、ということです。」

問題は、よく設計された支援用AIの恩恵を最も受ける人々ほど、ベンチャーキャピタリストにとっての売り込みとしては最も魅力に欠ける点だ。製造プロセスを変え、職場でのけがを減らし、ある会社の従業員の医療費を下げるようなシステムには、わかりやすい回収がある。アルツハイマー病患者を落ち着かせ、つながりを保つロボットの伴侶には、まったく別種の数学が必要になる。だから金は金の行き先へ行き、得をする可能性が最も大きい人々は、その順番待ちを続ける。

Panetta が言うところの変化は、費用のかかるエンジニアリング課題が、ついに大規模に解かれ始めたことだ。センサーは安くなった。バッテリーは軽くなった。無線プロトコルはどこにでもある。同じ投資で、工場の床向けに産業用ロボットが作られたことが、ここ数年では「以前の5年前には実現できなかった形」で、家庭用ロボティクスを現実のものにすることに、ひそかに繋がっている。倉庫からリビングルームへの道のりは、見た目より短い。

ただし、彼女には懸念がある。その移行にまつわる熱狂が、しばしばそこを飛ばしてしまうことだ。物理ロボットには自然な制約がある。力の上限が分かる。運動学が分かる。どう失敗するかを予測し、シミュレートし、失敗の仕方に合わせて設計できる。生成AIにはそうした保証が付いてこない。非決定的だ。幻覚を見せる。認知症の人の自宅のように物理的に存在するシステム内に入れたとき、あるいは「何かがおかしい」ことを認識できない子どもに使われたときに何が起きるのか、誰も完全にはマッピングできていない。

センサーが汚れてロボットが空間認識を失うと何が起きるかは、彼女は見てきた。人の生活、日課、認知状態、混乱の瞬間といった親密な詳細を学び、それに基づいて自律的に行動するようなものを作ることが意味するものも考えてきた。フェイルセーフは、その歩みに追いついていない、と彼女は言う。

「私はロボットのことは心配していません」と彼女は言う。「心配しているのはAIです。」