AIベンチマーク競争には勝者がいます。ただし、それはあなたではありません。数か月ごとに新しいモデルが登場し、新しいランキングが組み替わります。研究所は、機械知能を測るために設計されたテストで、互いを出し抜いて推論し、出し抜いてコードし、出し抜いて答えることを競います。報道(カバレッジ)はそれに追随します。資金もまた同様です。あまり注目されないのは、それが避けられないことなのかどうかです。ベンチマーク、あの軍拡競争、AIを救済か破滅かのどちらかとして捉える枠組み——それらは物理法則ではありません。何を最適化するか、そして何に資金をつけるかという、業界の選択の反映です。一般的で役に立つ形で何十年もかかって実を結ぶ技術は、今四半期に数十億ドルを集めません。極端な物語なら集めます。一部の研究者は、目標そのものが間違っていると考えています。AIが重要ではないという意味ではありませんが、「重要」だからといって前例のないことを意味する必要はない、というのです。活版印刷は世界を変えました。電気もそうです。どちらも段階的にそれを成し遂げました。混沌とした導入を通じてであり、社会が対応する時間を確保できました。もしAIもそのパターンをたどるなら、正しい問いは「超知能」についてではありません。誰が恩恵を受け、誰が害を受けるのか、そして私たちが作っているツールはそれを使う人々にとって実際に機能するのか、です。多くの研究者が、まったく異なる方向からそうした問いを投げかけてきました。ここではそのうちの3人を紹介します。**便利であって、汎用ではない**-----------------------Ruchir Puriは、IBM $IBM で多くの人が機械学習という言葉を聞く前からAIを作ってきました。彼は2011年にWatsonが世界最高のJeopardy(知力クイズ)プレイヤーを打ち負かすのを見てきました。以降、誇大宣伝の波が頂点に達して退いていくのを何度も見てきました。今回の波が到来したとき、彼にはそれを測る単純なテストがありました。役に立つのか?すごい話ではない。汎用でもない。役に立つ。「私は、本当の意味での汎用人工知能(AGI)にはあまり関心がないんです。関心があるのは、その“役に立つ部分”です」と彼は言います。その捉え方は、業界の多くの自己イメージと対立しています。AGIへ向かって突進する研究所は、幅を最適化し、何でもできる、何でも答えられる、何でも推論できるといったシステムを作っています。Puriは、それは違う目標だと考えており、業界に本気で到達しようとしてほしいベンチマークを提示したいと思っています。人間の脳は1,200立方センチメートルで、20ワットを消費し、電球のエネルギーであり、そしてPuriが指摘するようにサンドイッチで動きます。単一の Nvidia $NVDA GPU は1,200ワットを消費し、脳全体の60倍です。さらに、何か意味のあることをするには、それらを巨大なデータセンターで何千台も用意する必要があります。もし脳がベンチマークなら、業界は効率の点で近くにさえありません。間違った方向へ進んでいます。彼の代案は、彼が「ハイブリッド・アーキテクチャ」と呼ぶものです。小型・中型・大型のモデルが互いに連携し、それぞれが最も得意なタスクを担当します。大型のフロンティアモデルが複雑な推論と計画を担います。より小型で用途に特化したモデルが実行を担当します。メールの下書きをするなどの単純なタスクには、インターネットの半分で訓練されたシステムは必要ありません。必要なのは、速くて、安くて、的を絞ったものです。約9か月ごとに、Puriはこう述べていますが、前世代の小型モデルは「大規模」と見なされていたものとほぼ同等になっていきます。知能は安くなっている。問題は、その現実に向けて誰かが作っているのかどうかです。このアプローチには現実世界での裏付けがあります。Airbnb $ABNB は、顧客サービスの課題のかなりの部分を、同社の人間担当者ができるよりも速く解決するために、小型モデルを使っています。Meta $META は、自社の最大級のモデルで広告を配信するのではなく、その知識を当該タスク専用に作った小型モデルへと蒸留しています。研究者たちが「知識の組立ライン(knowledge assembly line)」と呼び始めるほど、このパターンは一貫しています。データが流れ込み、専門化したモデルが個々のステップを処理し、最後に有用なものが出てくるのです。IBMは、そうした組立ラインを多くの企業より長く作ってきました。複数の企業のモデルを組み合わせたハイブリッド・エージェントは、大規模なエンジニアリング人員において生産性を45%向上させたことが示されています。小型で用途に特化したモデルで動くシステムは、世界の金融取引の84%を処理するエンジニアたちが、適切なタイミングで適切な情報を得るのを今では支援しています。これらは派手なアプリケーションではありません。しかも、失敗してもいません。それらは、詩を書くことや、あなたの子どもの算数の宿題を解くことができるシステムを必要としません。より狭い能力であるぶん、信頼性が高いからです。あることをうまくやるために訓練されたモデルは、質問が自分の守備範囲外にあると分かります。そう言います。その調整された不確実性、つまり「知らないことを知っている」という状態は、大型のフロンティアモデルでもまだ苦手とする領域です。「私は、そうしたプロセスのためのエージェントやシステムを作りたいんです。200万ものことに答えるようなものではありません」とPuriは言います。ツールであって、エージェントではない-----------------Ben Shneiderman には、AIシステムが適切に設計されているかどうかを見分けるシンプルなテストがあります。使っている人は、自分が何かをしたと感じるのか、それとも誰かが自分のために何かをやってくれたと感じるのか?この違いは、聞こえる以上に重要です。現代のインターフェース設計の土台を築くのを助けた、メリーランド大学の計算機科学者である Shneiderman は、技術の目的は人間の能力を置き換えることではなく増幅することだと、何十年も主張してきました。良いツールは、彼がユーザーの自己効力感(self-efficacy)と呼ぶもの、つまり「自分は自分でできる」という確信を育てます。悪いものは、その代理(エージェンシー)を静かにどこか別の場所へ移してしまいます。彼は、AI業界のほとんどが悪いツールを作っていると考えており、エージェント的な転換(agentic turn)はそれをさらに悪くしているとも考えています。AIエージェントの売り文句は「あなたの代わりに行動して、あなたの関与なしにタスクを端から端までこなす」というものです。Shneidermanにとってそれは特徴ではありません。問題です。何かがうまくいかなかったとき、そしてそうなるのは必ずです、誰が責任を負うのでしょうか? 何かがうまくいったとき、誰が何かを学ぶのでしょうか?彼が長い間戦ってきた罠には名前があります。人間化(Anthropomorphism)——技術を人間のように見せようとする衝動——が勝ち続け、失敗し続けています。1970年代、銀行は「どうお手伝いしましょうか?」のように顧客に挨拶し、「店員ティリー」や「世界銀行員ハーヴィー」など名前まで付けたATMを試しました。それらは、3つの選択肢を提示する機械に置き換えられました。残高、現金、入金。利用は急増しました。シティバンクは競合より利用率が50%高かったのです。人々は、合成された関係性を望んでいませんでした。お金を手にしたかったのです。同じパターンが、何十年にもわたって繰り返されてきました。Microsoft $MSFT Bob、HumaneのAIピン、そして一連のヒューマノイドロボットの波。それぞれのとき、人間のようなバージョンは失敗し、よりツールのようなものへ置き換えられます。Shneiderman はそれを「ゾンビのアイデア(zombie idea)」と呼びます。死なないのです。ただ繰り返し蘇るだけです。今違うのは、規模と洗練度です。現在のAIの世代は、彼が認める通り、本当に目を見張るものです。だが、「すごい」と「役に立つ」は同じではありません。そして、人間のように見せるように設計されたシステム、つまり「私が〜だ」と言わせ、関係性をシミュレートすることを狙ったシステムは、誤った品質を最適化しています。彼が設計者に問いかけてほしいのはもっと単純です。この仕組みは、人々により多くの力を与えるのか、それとも奪うのか?「AIには“私”はない」と彼は言います。「少なくとも、あってはならない」**ベンチマークではなく、人を**--------------------------Karen Panetta は、なぜAI開発がそのような形になるのかについて、シンプルな答えを持っています。お金の流れに従ってください。Panettaは、Tufts University の電気・コンピュータ工学の教授で、IEEEのフェローでもあり、AI倫理を研究しています。そして、技術がどこへ向かうべきかについて、明確な見通しがあります。アルツハイマー患者向けの支援用ペット、子どもの認知スタイルが異なることに適応する学習ツール、在宅で老いる高齢者のためのスマートホーム監視。これをうまくやるための技術は、彼女によれば「基本的に」すでに存在します。問題は投資(資金)です。「人間はベンチマークを気にしていないんです」と彼女は言います。「彼らが気にしているのは、それを買ったときに本当にうまく動くのか、そしてそれが本当に生活を楽にしてくれるのか、ということです。」問題は、うまく設計された支援AIから最も恩恵を受ける人たちが、同時にベンチャーキャピタルにとって最も魅力的な売り込みになりにくいことです。製造プロセスを変え、職場での負傷を減らし、企業の従業員の医療費を削減するシステムには、明白なリターンがあります。アルツハイマー患者を落ち着かせ、つながった状態に保つロボットの伴侶には、まったく別種の数学が必要です。だから資金は資金が行くところへ行き、得をする可能性が最も高い人々は待ち続けることになります。Panettaが言う変化は、これまで高価だったエンジニアリング上の問題が、ついにスケールで解決され始めていることです。センサーは安くなりました。バッテリーは軽くなりました。無線プロトコルはどこにでもあります。工場の床向けに産業用ロボットを作ってきたのと同じ投資が、数年前には成り立っていなかった形で、消費者向けロボティクスを実現可能にしてくれました。倉庫からリビングルームへの道のりは、見かけより短いのです。ただし、彼女には懸念があります。その移行に関する興奮が、そこを飛ばしがちなのです。身体を持つロボットには自然な制約があります。力の上限を知っています。運動学も分かっています。それが失敗する仕方について予測し、シミュレーションし、その周りに設計することができます。生成AIにはそうした保証がありません。非決定的です。幻覚を見ます。認知症の人の自宅に物理的に組み込んだとき、あるいは何かがうまくいっていないときにそれを見分けられない子どもに使ったときに何が起きるのかを、誰も完全にはマッピングできていません。彼女は、センサーが汚れてロボットが空間認識を失ったときに何が起きるのかを見てきました。さらに、そうしたものを作るとはどういうことかも考えてきました。つまり、人の生活の細かなこと、日課、認知状態、混乱している瞬間を学び、それに基づいて自律的に行動するということです。フェイルセーフ(安全装置)が、その歩みに追いついていない、と彼女は言います。「私はロボットを心配しているわけじゃありません」と彼女は言います。「心配しているのはAIです。」📬 デイリーブリーフに登録------------------------------### 世界経済について、毎週平日朝に届ける無料で速くて楽しいブリーフィング。登録する
退屈なAIの正当性
AIベンチマーク競争には勝者がいます。ただし、それはあなたではありません。
数か月ごとに新しいモデルが登場し、新しいランキングが組み替わります。研究所は、機械知能を測るために設計されたテストで、互いを出し抜いて推論し、出し抜いてコードし、出し抜いて答えることを競います。報道(カバレッジ)はそれに追随します。資金もまた同様です。
あまり注目されないのは、それが避けられないことなのかどうかです。ベンチマーク、あの軍拡競争、AIを救済か破滅かのどちらかとして捉える枠組み——それらは物理法則ではありません。何を最適化するか、そして何に資金をつけるかという、業界の選択の反映です。一般的で役に立つ形で何十年もかかって実を結ぶ技術は、今四半期に数十億ドルを集めません。極端な物語なら集めます。
一部の研究者は、目標そのものが間違っていると考えています。AIが重要ではないという意味ではありませんが、「重要」だからといって前例のないことを意味する必要はない、というのです。活版印刷は世界を変えました。電気もそうです。どちらも段階的にそれを成し遂げました。混沌とした導入を通じてであり、社会が対応する時間を確保できました。もしAIもそのパターンをたどるなら、正しい問いは「超知能」についてではありません。誰が恩恵を受け、誰が害を受けるのか、そして私たちが作っているツールはそれを使う人々にとって実際に機能するのか、です。
多くの研究者が、まったく異なる方向からそうした問いを投げかけてきました。ここではそのうちの3人を紹介します。
便利であって、汎用ではない
Ruchir Puriは、IBM $IBM で多くの人が機械学習という言葉を聞く前からAIを作ってきました。彼は2011年にWatsonが世界最高のJeopardy(知力クイズ)プレイヤーを打ち負かすのを見てきました。以降、誇大宣伝の波が頂点に達して退いていくのを何度も見てきました。今回の波が到来したとき、彼にはそれを測る単純なテストがありました。役に立つのか?
すごい話ではない。汎用でもない。役に立つ。
「私は、本当の意味での汎用人工知能(AGI)にはあまり関心がないんです。関心があるのは、その“役に立つ部分”です」と彼は言います。
その捉え方は、業界の多くの自己イメージと対立しています。AGIへ向かって突進する研究所は、幅を最適化し、何でもできる、何でも答えられる、何でも推論できるといったシステムを作っています。Puriは、それは違う目標だと考えており、業界に本気で到達しようとしてほしいベンチマークを提示したいと思っています。
人間の脳は1,200立方センチメートルで、20ワットを消費し、電球のエネルギーであり、そしてPuriが指摘するようにサンドイッチで動きます。単一の Nvidia $NVDA GPU は1,200ワットを消費し、脳全体の60倍です。さらに、何か意味のあることをするには、それらを巨大なデータセンターで何千台も用意する必要があります。もし脳がベンチマークなら、業界は効率の点で近くにさえありません。間違った方向へ進んでいます。
彼の代案は、彼が「ハイブリッド・アーキテクチャ」と呼ぶものです。小型・中型・大型のモデルが互いに連携し、それぞれが最も得意なタスクを担当します。大型のフロンティアモデルが複雑な推論と計画を担います。より小型で用途に特化したモデルが実行を担当します。メールの下書きをするなどの単純なタスクには、インターネットの半分で訓練されたシステムは必要ありません。必要なのは、速くて、安くて、的を絞ったものです。約9か月ごとに、Puriはこう述べていますが、前世代の小型モデルは「大規模」と見なされていたものとほぼ同等になっていきます。知能は安くなっている。問題は、その現実に向けて誰かが作っているのかどうかです。
このアプローチには現実世界での裏付けがあります。Airbnb $ABNB は、顧客サービスの課題のかなりの部分を、同社の人間担当者ができるよりも速く解決するために、小型モデルを使っています。Meta $META は、自社の最大級のモデルで広告を配信するのではなく、その知識を当該タスク専用に作った小型モデルへと蒸留しています。研究者たちが「知識の組立ライン(knowledge assembly line)」と呼び始めるほど、このパターンは一貫しています。データが流れ込み、専門化したモデルが個々のステップを処理し、最後に有用なものが出てくるのです。
IBMは、そうした組立ラインを多くの企業より長く作ってきました。複数の企業のモデルを組み合わせたハイブリッド・エージェントは、大規模なエンジニアリング人員において生産性を45%向上させたことが示されています。小型で用途に特化したモデルで動くシステムは、世界の金融取引の84%を処理するエンジニアたちが、適切なタイミングで適切な情報を得るのを今では支援しています。これらは派手なアプリケーションではありません。しかも、失敗してもいません。
それらは、詩を書くことや、あなたの子どもの算数の宿題を解くことができるシステムを必要としません。より狭い能力であるぶん、信頼性が高いからです。あることをうまくやるために訓練されたモデルは、質問が自分の守備範囲外にあると分かります。そう言います。その調整された不確実性、つまり「知らないことを知っている」という状態は、大型のフロンティアモデルでもまだ苦手とする領域です。
「私は、そうしたプロセスのためのエージェントやシステムを作りたいんです。200万ものことに答えるようなものではありません」とPuriは言います。
ツールであって、エージェントではない
Ben Shneiderman には、AIシステムが適切に設計されているかどうかを見分けるシンプルなテストがあります。使っている人は、自分が何かをしたと感じるのか、それとも誰かが自分のために何かをやってくれたと感じるのか?
この違いは、聞こえる以上に重要です。現代のインターフェース設計の土台を築くのを助けた、メリーランド大学の計算機科学者である Shneiderman は、技術の目的は人間の能力を置き換えることではなく増幅することだと、何十年も主張してきました。良いツールは、彼がユーザーの自己効力感(self-efficacy)と呼ぶもの、つまり「自分は自分でできる」という確信を育てます。悪いものは、その代理(エージェンシー)を静かにどこか別の場所へ移してしまいます。
彼は、AI業界のほとんどが悪いツールを作っていると考えており、エージェント的な転換(agentic turn)はそれをさらに悪くしているとも考えています。AIエージェントの売り文句は「あなたの代わりに行動して、あなたの関与なしにタスクを端から端までこなす」というものです。Shneidermanにとってそれは特徴ではありません。問題です。何かがうまくいかなかったとき、そしてそうなるのは必ずです、誰が責任を負うのでしょうか? 何かがうまくいったとき、誰が何かを学ぶのでしょうか?
彼が長い間戦ってきた罠には名前があります。人間化(Anthropomorphism)——技術を人間のように見せようとする衝動——が勝ち続け、失敗し続けています。1970年代、銀行は「どうお手伝いしましょうか?」のように顧客に挨拶し、「店員ティリー」や「世界銀行員ハーヴィー」など名前まで付けたATMを試しました。それらは、3つの選択肢を提示する機械に置き換えられました。残高、現金、入金。利用は急増しました。シティバンクは競合より利用率が50%高かったのです。人々は、合成された関係性を望んでいませんでした。お金を手にしたかったのです。
同じパターンが、何十年にもわたって繰り返されてきました。Microsoft $MSFT Bob、HumaneのAIピン、そして一連のヒューマノイドロボットの波。それぞれのとき、人間のようなバージョンは失敗し、よりツールのようなものへ置き換えられます。Shneiderman はそれを「ゾンビのアイデア(zombie idea)」と呼びます。死なないのです。ただ繰り返し蘇るだけです。
今違うのは、規模と洗練度です。現在のAIの世代は、彼が認める通り、本当に目を見張るものです。だが、「すごい」と「役に立つ」は同じではありません。そして、人間のように見せるように設計されたシステム、つまり「私が〜だ」と言わせ、関係性をシミュレートすることを狙ったシステムは、誤った品質を最適化しています。彼が設計者に問いかけてほしいのはもっと単純です。この仕組みは、人々により多くの力を与えるのか、それとも奪うのか?
「AIには“私”はない」と彼は言います。「少なくとも、あってはならない」
ベンチマークではなく、人を
Karen Panetta は、なぜAI開発がそのような形になるのかについて、シンプルな答えを持っています。お金の流れに従ってください。
Panettaは、Tufts University の電気・コンピュータ工学の教授で、IEEEのフェローでもあり、AI倫理を研究しています。そして、技術がどこへ向かうべきかについて、明確な見通しがあります。アルツハイマー患者向けの支援用ペット、子どもの認知スタイルが異なることに適応する学習ツール、在宅で老いる高齢者のためのスマートホーム監視。これをうまくやるための技術は、彼女によれば「基本的に」すでに存在します。問題は投資(資金)です。
「人間はベンチマークを気にしていないんです」と彼女は言います。「彼らが気にしているのは、それを買ったときに本当にうまく動くのか、そしてそれが本当に生活を楽にしてくれるのか、ということです。」
問題は、うまく設計された支援AIから最も恩恵を受ける人たちが、同時にベンチャーキャピタルにとって最も魅力的な売り込みになりにくいことです。製造プロセスを変え、職場での負傷を減らし、企業の従業員の医療費を削減するシステムには、明白なリターンがあります。アルツハイマー患者を落ち着かせ、つながった状態に保つロボットの伴侶には、まったく別種の数学が必要です。だから資金は資金が行くところへ行き、得をする可能性が最も高い人々は待ち続けることになります。
Panettaが言う変化は、これまで高価だったエンジニアリング上の問題が、ついにスケールで解決され始めていることです。センサーは安くなりました。バッテリーは軽くなりました。無線プロトコルはどこにでもあります。工場の床向けに産業用ロボットを作ってきたのと同じ投資が、数年前には成り立っていなかった形で、消費者向けロボティクスを実現可能にしてくれました。倉庫からリビングルームへの道のりは、見かけより短いのです。
ただし、彼女には懸念があります。その移行に関する興奮が、そこを飛ばしがちなのです。身体を持つロボットには自然な制約があります。力の上限を知っています。運動学も分かっています。それが失敗する仕方について予測し、シミュレーションし、その周りに設計することができます。生成AIにはそうした保証がありません。非決定的です。幻覚を見ます。認知症の人の自宅に物理的に組み込んだとき、あるいは何かがうまくいっていないときにそれを見分けられない子どもに使ったときに何が起きるのかを、誰も完全にはマッピングできていません。
彼女は、センサーが汚れてロボットが空間認識を失ったときに何が起きるのかを見てきました。さらに、そうしたものを作るとはどういうことかも考えてきました。つまり、人の生活の細かなこと、日課、認知状態、混乱している瞬間を学び、それに基づいて自律的に行動するということです。フェイルセーフ(安全装置)が、その歩みに追いついていない、と彼女は言います。
「私はロボットを心配しているわけじゃありません」と彼女は言います。「心配しているのはAIです。」
📬 デイリーブリーフに登録
世界経済について、毎週平日朝に届ける無料で速くて楽しいブリーフィング。
登録する