AIがすべてを飲み込んだ後、まだ訓練できないものは何ですか?

原文タイトル:The Untrainable
原文著者:Sarah Guo,Conviction
翻訳:Peggy,BlockBeats

編者のコメント:AIの能力が絶えず進化し続ける中、投資界では新たな悲観的見方が生まれている:もしモデルがますます強力になれば、すべての応用企業はAnthropic、OpenAI、Nvidiaのようなモデルと計算力の層に飲み込まれ、市場には最先端のモデル、計算力、少数のインフラだけが残るだろうと。しかしSarah Guoは、この判断は半分だけ正しいと考えている。いわゆる「thin wrapper」(薄いラッパー、つまり単純にモデルを包むだけの応用)は確かに吸収されるだろうが、ベンチマーク(基準テスト)で測定でき、公開データで訓練され、低コストで検証可能なタスクは、次第に商品化されていく。

真の問題は:AIがあらゆる訓練可能なものを飲み込んだ後に、何が依然として訓練できないのか?

この問いに対する答えは、実際の組織内部に存在し、外部から簡単にコピーできない価値:企業の私有データ、複雑なワークフロー、ユーザーの信頼、システムの権限、業界の判断、コンプライアンス責任、そして長期運用で蓄積された経験である。モデルはより賢くなることはできても、銀行の生産システムに自動的に入ることはできない;医療の答えを生成できても、医師の信頼や病院の意思決定プロセスを直接得ることはできない;法律文書を書けても、経験豊富な弁護士の責任を代行したり、何が適格な法律作業かを空から定義したりはできない。

したがって、将来の真の護城河を持つAI企業は、単に汎用モデルより賢いだけではなく、特定の業界に深く入り込み、難しいが重要な「翻訳」作業を完遂することになる:顧客の私有現実、ツール、ワークフロー、判断基準を整理し、モデルが行動できるシステムに変換し、長期的なサービスを通じて「何が良い結果か」の定義を書き加えていく。AIが強くなるほど、測定・再現可能なタスクは価値を下げ、逆に歴史、関係性、権限、専門判断を帯びた「訓練できないもの」の価値は浮き彫りになる。これこそ、モデルが飲み込んだ後も残り得る真の価値である。

以下は原文:

2026年半ば、投資家の「AI精神錯乱」のバージョンは、もはや投資すべきものは何もないという絶望感だ:すべての資金をAnthropicやNvidiaに投じて、あとは寝て待つべきだと。しかし私はそんな感覚を持ったことは一度もない。過去のいくつかの小さなバージョンを経て、私はずっと確信してきた:モデルはすでに私より賢い。もし市場価格でAnthropicやNvidiaを買えるなら、それも喜んでやる。私の周りの最も賢い友人たちも、モデルの自己改善はすぐにでも本格的に進むと確信している——それでも私は絶望を感じていない。

この絶望は愚かではない。その論理はこうだ:もしモデルがすべてのことにおいて持続的に強化されるなら、モデルに基づくすべての企業は、ただ吸収される薄い外殻に過ぎなくなる。最終的に残る価値は、計算力と最先端モデルの重みだけだ。

ソフトウェアを例にとれば、これはこの絶望感に最も依存するケースだ。Devinは2024年にリリースしたとき、標準的なソフトウェアのベンチマークテストの13%のタスクしか解決できず、市場からはほぼ軽視された。一年半後、最強のエージェントは80%超の高得点を達成し、ゴールドマン・サックスや米陸軍の内部で実際の仕事を処理し始めた。ほぼすべての人が同じ誤った結論に至った:モデルはソフトウェアエンジニアリングを飲み込んだ。

しかし、モデルがソフトウェアエンジニアリングの最も測定しやすい部分を飲み込んだ後、私たちはまた、多くのチームがすでに知っていることを再認識している:エンジニアリングはもともと測定に抵抗してきたし、最も測定しやすい部分が必ずしも唯一重要な部分ではない。

MITのMert Demirerとその共同研究者たちは、ついにこれを定量化した:10万人以上の開発者の中で、最新のコーディングエージェントはコード作成量を約180%増加させたが、実際にリリースされたコードの量は約30%増にとどまった。コードを書くコストは下がったが、残る工程は依然として人間が関わり、その重要性も変わらない。当然、全体の純影響は依然として驚異的だ。

ベンチマークテストは、測定可能なものだ;そして、測定できるものはすべて訓練に使える。だからこそ、コーディングエージェントは最初に成熟した:コンパイラは無料の検証器であり、テストスイートも無料の検証器だ。答えがほぼコストゼロで自己検査できるなら、その検査信号を中心に絶えず磨き上げ、突き詰めることができる。

しかし、テストから得られる結果が、すでに10年以上運用されているコードベースにとって正しいことを意味するわけではない。そのモジュールが存在する背後には、誰も書いていない理由が三つあるかもしれない;デプロイのパイプラインは、誰も認めたくないcronジョブ一つでなんとか維持されている。

この正しさはランキングからは読み取れないし、実際のところ、何からも直接読み取れるわけではない。あなたは、この複雑なシステムを十分に長く実運用し続けて初めて、その有効性を知ることができる。そして、より賢いモデルは、現実世界の運用を速めるわけではない。Googleのような巨大システムに対して、単体テストを走らせて緑のチェックを見て安心することは誰もしない。信頼は、長年の実負荷に耐えた結果として築かれる。

この正しさは、私有のものであるだけでなく、時間をかけて形成される護城河でもある。資本はこの時間を直接短縮できない。楽観派でさえ、この時計は飛び越えられないと認めている。Noam Brownは最近こう書いた:エージェントの一年間のパフォーマンスを評価する唯一の信頼できる方法は、実際に一年間運用させることだ。

Gabe Pereyraは言う、真の自動化は単にモデルが強くなることだけではない。それは、製品、モデル、ワークフロー、企業組織が一緒に変化することだ。そして、その四つのうち、三つは組織のペースに合わせて進む。

人を動かすのは、どんなベンチマークテストも到達できない部分だ:懐疑的なパートナーに処理方法を変えさせ、チームが再構築の過程で結束を保つこと。だからこそ、私たちはCEO採用時に、その人の人間性や対人スキルを重視し、分析能力と同じくらい重要視している。モデルが賢くなることは、この重みを変えない。

このフィードバックは曖昧で、時間軸は年単位だ。そして、信頼は特定の人に属するものだ。私の知るどの会社も、すでにエンジニア全員に最先端のコーディングモデルを使わせているが、組織の変化はモデルの進歩速度に追いついていない。ツールの導入には一四半期もかからないが、その一四半期は、トークン増加の奇跡的な期間だった!しかし、真の再構築には数年かかる。

見える仕事は離れていきつつある。真に価値のある仕事は、構造的に見て読めないものだ:ランキングに載るものはすべて訓練可能であり、したがって商品化の道を歩む。測定可能なものはすべて商品化に向かって進んでいる。この過程には時間が必要で、決して完全には終わらないが、逆行することはない。

私の友人、RipplingのMatt MacInnisの言葉を借りれば、それを金銭的に言い換えると:トークンが一般的な質問に答えるだけなら、ほとんど価値はない。なぜなら、誰のモデルでも答えられるからだ。しかし、あなたの会社のデータに基づいて推論を行うトークンは、はるかに価値がある。なぜなら、それはあなたが本当に望むことをやっているからであり、単に合理的に見える答えを生成するだけではない。

読める仕事は二つの方向から飲み込まれる。

下から見ると、タスクは飽和する:低コストで検査できる仕事があれば、買い手はどのモデルがやったかには関心を持たず、いくらかの金額だけを気にする。そうなると、その仕事は今週最も安いオープンソースモデルや蒸留モデルに落ち着く。利益率が働けば、最終的には必ずそうなる。

上から見ると、研究所は自らの足場を飲み込もうとしている。検索やコストの安い呼び出しと高価な呼び出しのルーティング、ツールの使用、推論戦略——かつてモデルの外側にあったすべての装置が、モデルの重みに吸収され、「外殻」がモデルそのものに変わる。これが吸収の境界線だ。

利益圧力も別の方向から働く:汎用エージェントは常にあらゆることに対応できる必要があるためコストが高い。一方、特化型アプリケーションは、ワークフローを極限まで最適化し、少量のトークンだけを消費させることができる。そして、これらのアプリは、これらのトークンを販売する研究所とは異なり、企業は中間の差額を保持できる。

したがって、どんな仕事にも二つの問いを投げかけられる:その正確性は私有的で高価なものか?それは、ある企業のデータ内部にしか存在しない真実か?それは外部者がアクセスできないシステムに隔離されているのか?これらの問いと仕事の飽和度を合わせて考えると、2×2のマトリクスができあがる。

飽和し、答えが公開されている仕事は、商品化されたトークンの領域だ。オープンソースモデルがこれを占める。最先端だが答えが公開されている仕事、例えばコーディングのベンチマークは、実験室の勝ち筋だ。なぜなら、評価が無料であり、その価値はそれ自体にないからだ。

真の報酬は、最後の隅、すなわち「訓練できない」隅にある:最先端の仕事だが、その正確性は私有環境にのみ存在する。これを示す例は、AIネイティブの先駆者にサービスを提供する推論クラウドで見られる:ほとんどのトークンは、汎用オープンソースモデルではなく、カスタムモデルによって生成されている。

この最後の隅への壁は高低さがある。開発者の玩具的コードベースは移植性と標準化が進んでいるため、侵入は容易だ。しかし、銀行の生産システムは移植不可能で標準化もされていない。SWE-Bench Verifiedで賢くなったからといって、そのルート権限を得られるわけではない。

能力は多くのものを飲み込むが、より良いモデルは私有の現実的基準を公開基準に変えない。ライセンスを持たず、責任の署名もせず、企業のドキュメントも所有しない。答えが間違っていた場合、訴訟の対象にもならない。ここでのボトルネックは知性ではなく、権限と責任だ。あなたは、誰よりも賢いモデルを想像できるが、それでも入室を許可され、誰かがそのために責任を負わなければならない。

その扉には錠と門扉がある。

錠は環境だ:信頼を得たシステム内で、安全審査を経て、統合を完了し、結果に責任を伴う契約を結ばなければ、AIが本当に有用なことをしたかどうかを検証できない。

門扉はユーザーだ。今や、多くの米国の医師は毎日OpenEvidenceを開いている。これはどんな計算力でも買えるものではない。ある研究所は明日、完璧な医療モデルを訓練できるかもしれないが、それでも医師の習慣に入り込むことも、UCSFの意思決定プロセスに入ることもできない。信頼はゆっくりと築かれるものであり、関係やユーザーの黙認に頼るものであり、勾配降下だけでこれらを消し去ることはできない。

これこそが応用企業の仕事だ。AIネイティブの先駆者にサービスを提供するための推論クラウドの中で、これが見て取れる:ほとんどのトークンは、汎用のオープンソースモデルではなく、カスタムモデルによって生成されている。

この「不可訓練」な隅に位置するためには、地味だが重要な仕事が必要だ:企業の私有現実を整理し、モデルがそれに基づいて行動できるようにすること;行動ツールをモデルに渡すこと;顧客と共に、その労働力の実運用を変革していくこと。

この種の「翻訳」を完遂できる企業は模倣が難しく、その翻訳は決して終わらない。統合とメンテナンスは、顧客との関係とともに続いていく。勝者となるのは、専門的なエンジニアとツールを顧客のそばに置くチームだ。

例を挙げると、トップクラスの老舗法律事務所では、M&Aだけで年間千件近くの取引を扱う。何百人もの弁護士助手に顧客の書類をダウンロードさせて、一般的なエージェントに読ませることはできない。秘密保持のためにそれは不可能だし、他にも多くの問題がある。もしそれが可能だとしても、得られるのは断片だけだ:助手は一つずつ修正し、取引全体の流れを一目で理解できるわけではない。

本当に重要な信号は、取引の階層に存在する。一つの取引には独自の形がある:M&AならNDA、条項リスト、デューデリ、買収契約、付属書類、引き渡しリスト;知的財産訴訟なら動議、証拠開示、現行技術、追加動議。各分野には固有の構造があり、弁護士やツールは無作為に入れ替えられない。

そして、その法律事務所が本当に解決すべき問題は、さらに上のレベルにある:各分野を同時に運用しながら、トップパートナーが数百の案件を並行管理し、新たな案件源を引き込み、助手弁護士を育成すること。こうした企業の変革は、単一の評価タスクを作ることではできない。まるで「データ野球」のように、曖昧な中間目標、未完成のフィードバック、長い周期、そして環境の絶え間ない変化を扱う必要がある。

残念ながら、読めない価値は売りにくい。商品化しにくい理由と同じだ:外部から、その企業の運営をAIがどの程度改善できるかを判断できないからだ。だからこそ、最も強い企業は、外部で証明しようとせず、まず内部に入り込み、結果に基づいて価格をつける。

Sierraは、顧客の問題を解決したときだけ料金を取る;もし問題が人間に引き継がれたら、料金は発生しない。だから、価格自体が評価の仕組みとなる。そして、その仕組みが成り立つのは、Sierraが「解決済み」の定義権を持っているからだ。CognitionのDevinも、ソフトウェア分野で同じことを行い、「性能保証」を導入した。信頼されてシステム内部に入ったときだけ、結果に対して保証を提供できる。

トークンサービスのレイヤー——すなわち、多くの人が純粋な商品と呼ぶ層——においても、そのパフォーマンスは商品そのもののようには見えない。最良のAIネイティブ企業は、サービスを一、二のサプライヤーに集中させる:例えばBasetenやFireworksだ。なぜなら、トークンコストは時間とともに商品化に向かうが、実際のトラフィックの信頼性や希少な計算資源の安定供給は商品化されないからだ。推論サービスの提供場所と、どのモデルを使うかは、別の選択だ。推論の中で唯一商品らしいのは、価格だけだ。

よくある反論はこうだ:研究所はあなたのサプライヤーだが、なぜ自社の一方的な第一方製品をコスト以下で売りさばき、あなたを追い詰めるのか?あるいは、APIアクセスを取り消し、市場を奪い取るのか?これこそ絶望感の本当のバージョンだ。しかし、それはモデル層が一人遊びのときだけ成立する。

明らかに、そうではない。モデル層は、三つ半のプレイヤーによる死の競争のようなもので、隣には訓練進捗が約半年遅れている国際的プレイヤー群と、昨年の五倍の規模の開発連合がいる。顧客は自社のサプライヤー間に競争を望み、研究所は市場シェアを追い求め、特定のアプリを殺すことは目的としていない。

このことは、研究所が正面から競争している市場でよく見られる。消費者向けチャットのシナリオでは、最良のモデルがすべての市場を単純に制覇することはほとんどない。ChatGPTは長年の競争を経て常にリードを保ち、今失ったシェアはGeminiに流れた。その理由はAndroidや検索の配信能力であり、モデルの優劣ではない。Anthropicは、予測市場やインターネットの雰囲気の中で最良のモデルと考えられているが、消費者向けチャットではほとんど主要プレイヤーではなく、企業やコーディングの場面で独自の事業を築いている。

もし、より良いモデルが最もコアな応用分野で競合他社のユーザーを奪えないのなら、それはまた、統合して病院の電子カルテシステムや銀行の責任体系を飲み込むことも容易ではない。今日、一般の人が製品を選ぶ基準は、単なるコーディング能力だけではない。最先端モデル層が依然として混雑しているなら、その上の応用層には価値がある。

もし、ある仕事が外部から評価できないなら、その内部には誰かが「良い答え」の定義を決める必要がある。そして、その決定こそがゲームの本質だ。十分な数のこうした決定が記録されると、それはベンチマークテストになる。Harveyは法律分野のベンチマークを公開し、Sierraは音声エージェントのベンチマークを出した。あなたが「良い」と定義できる権利を持つのは、その分野であなたが実際に使われているからだ。そして、これらの企業は、実運用の中での苦闘を通じてその権利を獲得している。

金銭の流れを決める評価は、私有的で企業ごとに形成される:この会社は、こうした案件において何を良い仕事とみなすか。これは、法律の深さがいかに公開テストを超えているかを示す。OpenEvidenceは、安全な臨床答えの本質を模索している。

これらはすべて、「測定」そのものではなく、何が真実で何が良いかの判断に関するものだ。これらの判断は記録され、他者もそれを測る基準となる。どれだけ高度な基盤モデルの研究所であっても、これらの基準を空から書き出すことはできない。なぜなら、その地位はあくまで分野内部にしか存在しないからだ。

この権威は、しばしば既存の場所に落ち着く。経験豊富な弁護士が法律の基準を書き、医師が安全な臨床答えを定義する。「解決済み」とは何かは、そのすでに顧客関係を持つ企業が決める。

吸収の境界はさらに上昇し続ける。なぜなら、私たちはより多くの仕事を測る術を学び続けており、測定可能なものは次第に飲み込まれていくからだ。不可訓練の地面は、立つ者の足元で縮小し続ける。だから、守れる場所を見つけて止まることはできない。まだ評価できない場所に向かって、絶えず進み続け、リスクを再評価し、再保険し続ける必要がある。

狭いタスクにおいては、私有データと自前の評価体系を駆使して、最先端に到達し、重要なシナリオで汎用モデルを凌駕できる。この専用モデルは、護城河の一部となる。一方、汎用モデルの能力で勝負するなら、それは資本戦争だ。最も計算力を持つ者が勝つ。これが、浅いアクセス権とタスクの高度な可読性しか持たない企業が陥りやすい罠だ。

ある企業が生き残るために、広範な汎用タスクで最先端モデルを超える能力を訓練しようと決めたとき、その勝敗は通常、データセンターの規模に左右される。最終的には、独立したチャンピオンが現れるのではなく、計算力の豊富なプレイヤーに売却される運命だ。

これらはすべて防御策だ。より難しいのは攻めだ:まず何を作るかを決めることだ。これが私がこの一年間ずっと探してきたものであり、三度しか見つけられなかった。モデルは、その方向を指示すれば、それに従うだけだ;しかし、何に向かうべきかを教えることはできない。基準テストも作れず、訓練もできない。

だからこそ、巨大企業はすべてを奪いに行かない。自分の持つ領域を守りつつ、次のアイデアは、他者より先に用途を見出した人から生まれる。もしかすると、意図こそが、計算力よりも希少な入力なのかもしれない。

この絶望感の半分は正しい。薄い外殻は確かに吸収されつつあるし、今日多くの見た目は企業のように見えるものも、実は薄い外殻にすぎない。しかし、「吸収後に何が残るか」の判断は誤っている。仕組みは明確だが、終着点は見えない。

私が賭けたいのは、この方向性だ:知性は今後も安価になり続け、その価値は少数のモデルが到達できない場所に滑り落ちていく。不可訓練のものは、歴史的価値を帯びている。

だから、そうした分野に入り込み、地味だが重要な翻訳作業を行い、「良い」の定義を書き始める。なぜなら、今年最も引用されたベンチマークスコアは、実はすぐに価値を失う地図の一枚であり、「誰かに」何が「良い」かを定義する権利を奪う通知だからだ。

[原文リンク]

律動BlockBeatsの求人情報はこちらをクリック

律動BlockBeats公式コミュニティに参加しよう:

Telegram登録グループ:https://t.me/theblockbeats

Telegramグループ:https://t.me/BlockBeats_App

Twitter公式アカウント:https://twitter.com/BlockBeatsAsia

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め