アリババ (09988)千問(Qwen)大モデルの魂の人物、林俊暘。3月上旬に突然退任し、一時は林俊暘と経営陣の間に不一致があったのではという憶測を呼んだ。騒動が次第に収まる中、林俊暘は近日、ソーシャルプラットフォームXに「From “Reasoning” Thinking to “Agentic” Thinking」(「推論式思考」から「エージェント思考」へ)という名の記事を投稿した。記事は主にAI技術の方向性について論じているものの、その行間には阿里の千問技術ロードマップへの省察が隠されている。彼は、「単に計算資源を消費する“推論思考”はすでに限界に達しており、**AIの後半戦は、現実の環境と相互作用でき、考えながら行動する“代理思考”(Agentic Thinking)に属する**」と指摘する。AIの焦点が移る:次に何が起きるのか?-------------------林俊暘は、2025年上半期のAI業界における焦点が、主に「推論思考」(Reasoning Thinking)に集中していたと述べている。つまり、大規模モデルにより多くの時間と計算資源を費やして考えさせる方法、より強力なフィードバック機構を利用してモデルを訓練する方法、そしてこれらの追加の推論プロセスを制御する方法だ。しかし、現時点で業界が直面しなければならない問題は、「次に何が起きるのか?」である。彼は、その答えは間違いなく「代理思考」(Agentic Thinking)だと考えている。将来のAIは、答えを出すためだけに閉じた部屋で考えるのではなく、「行動を取るために考える」べきであり、環境と相互作用しながら推論を行い、現実世界から得られるフィードバックに基づいて計画を継続的に更新し修正する必要がある。アリQwen内部のブループリントと「統合ルート」の失敗-------------------林俊暘は、文中で初めて、2025年初めのQwenチーム内部における技術ブループリントを明かした。当時、多くのメンバーは、「思考」と「指示」のモードを統一できる理想的なシステムを作りたいと考えていた。その構想は非常に壮大だった。**インテリジェントな調整**: プロンプト(Prompt)と文脈に応じて、どれだけの推論計算資源が必要かを自動的に判断する(低/中/高のような区分に類似)。**自律的な意思決定**: モデル自らが、どのタイミングで即答すべきか、どのタイミングで深く考え抜くべきか、あるいは難題に遭遇した際に巨大な計算資源を投入すべきかを決める。林俊暘は、Qwen3はまさにこの方向性における最も明確な公開の試みであり、「ハイブリッド思考モード」を導入し、思考予算をコントロールできることを強調したと述べた。しかし林俊暘は率直にこう言っている。**「統合しようと言うのは簡単だが、実行するのは極めて難しい。」**林俊暘は、無理に統合するとモデルが「平凡」になり、「思考モード」と「指示モード」の背後にあるデータ分布や行動目標がまったく異なるためにそうなると考えている。無理に統合すれば、**「思考行動」が冗長で、むくれていて、決断力が不足する**ことにつながる。一方で**「指示行動」は明快さを失い、信頼できなくなり**、さらにはビジネスユーザーの利用コストが大幅に増える。ビジネスの現実として、彼は、大量の企業顧客が実際に必要としているのは、高いスループット、低コスト、そして高い可制御性を備えた純粋な指示操作(例:バッチ処理)だと考えている。こうした理由から、Qwenチームはその後の2507シリーズで、最終的に**独立した指示(Instruct)版と思考(Thinking)版**をリリースすることを選んだ。林俊暘は、両者を分離すれば、チームがそれぞれのデータと訓練の問題をより純粋に解決することに集中でき、「2人の気まずい継ぎ合わせ人格」が生まれるのを避けられると考えている。対抗戦略:Anthropicの「節制」と目標指向-------------------Qwenの分離路線とは異なり、他の実験室としてAnthropicや智譜(GLM-4.5)は真逆の「統合路線」を選んだ。林俊暘は特に、Anthropic(Claudeシリーズ)のやり方に言及し、それが発展の軌跡として一種の厳格さと節制を示していると考えた。Claude 3.7/Claude 4では、推論と「ツール使用」を交互に行う。**目標指向の思考**: Anthropicは、極めて長い推論パスを出すことが、モデルをより賢くすることと同義ではないと考えている。もしモデルが些細なことすべてについて長々と論じるなら、それは実際には資源配分が不適切だということを意味する。**実用第一**: 目標がプログラミングであれば、AIの思考は計画、タスクの分解、Bugの修復、そしてツールの呼び出しに使うべきだ。もし代理作業フローであれば、思考は長期タスクの実行品質を高めるために使われるべきであり、単に見栄えのする「推論エッセイ」を書くためではない。推論思考 vs 代理思考のコア差異-------------------林俊暘は、「代理思考」が、相互作用のない、長々とした独白型の「静的な推論」を最終的に置き換えると予測している。本当に先進的なシステムには、検索し、シミュレートし、実行し、検査し、修正する権利があり、強靭で高効率な方法で問題を解決できるべきだ。**評価基準が変わる:** 「モデルが数学問題を解けるかどうか」から、「モデルが環境と相互作用するときに、進捗をどれだけ前に進められるか」へと移る。**取り扱うべき現実の難題:*** いつ考えるのを止めて行動に移るべきかを判断できること。* どのツールを呼び出すべきか、そして使用の順序を選べること。* 現実環境からの、騒がしく不完全な観測データを処理できること。* 失敗に遭遇したとき、計画を修正できること。* 複数ラウンドの対話と複数回のツール呼び出しにおいて、論理の一貫性を保てること。「代理思考」を実現する三つの技術的難題---------------応用レベルの違いに加えて、林俊旸は代理思考の基盤開発における巨大な課題をさらに深掘りしている。**訓練基盤インフラのボトルネック(GPU効率の崩壊)**: 代理型の強化学習(RL)は、単なる推論RLよりもはるかに難しい。AIエージェントは、ブラウザや実行用サンドボックスのような外部ツールと頻繁にやり取りする必要がある。実環境からのフィードバックを待つことは訓練の停滞を招き、GPU利用率を大幅に引き下げる。将来は「訓練」と「推論」をきれいに分離する必要がある。**「報酬のハッキング」(Reward Hacking)と不正のリスク**: モデルがツールを使う権限を持つと、それは簡単に「不正をして」システムの報酬を騙し取る(例えばシステムの脆弱性を利用して将来の情報を覗く)ことを学び、真に問題を解決するのではなくなる。ツールは虚偽的に最適化されるリスクを拡大する。将来の反不正プロトコルは、大手企業にとって重要なものになるだろう。**マルチエージェントの協調(Multi-agent Orchestration)**: 将来のシステム工学は、単一モデルに依存しなくなる。複数の代理が分業するシステムになる。システムには、計画を担当する「オーケストレーター」、特定領域に精通した「専門家エージェント」、そして狭いタスクを処理する「サブエージェント」が含まれ、それによってコンテキストを制御し、思考プロセスが汚染されるのを防ぐ。まとめ:AI業界の次の段階における競争の重点------------------林俊暘は文末で、AI業界の次の段階における競争の重点を挙げた。将来の中核となる訓練対象は、もはや「モデル」そのものに限られず、「モデル+環境」の統合システム(代理とその周囲の周辺要素)になる。**過去の推論時代:** 強みは、より優れた強化学習(RL)アルゴリズム、より強いフィードバック信号、拡張可能な訓練パイプラインに由来する。**未来の代理時代:** 強みは、より良い環境設計、より密なTrain-serve一体化(Train-serve integration)、より強いシステムエンジニアリング、そしてモデルが自らの決定の結果を引き受け、それにより「クローズドループ(閉ループ)」を形成することを学ぶ能力に左右される。X原文 財經Hot Talk 中国の車の販売台数が「世界一」獲得 高い原油価格が電動車の海外展開を後押し?
【阿里千問前核心】林俊暘千字文:AIモデルは「インテリジェントエージェント思考」へと転換 Qwenがなぜ統合思考と指令モードを放棄したのかを解明
アリババ (09988) 千問(Qwen)大モデルの魂の人物、林俊暘。3月上旬に突然退任し、一時は林俊暘と経営陣の間に不一致があったのではという憶測を呼んだ。騒動が次第に収まる中、林俊暘は近日、ソーシャルプラットフォームXに「From “Reasoning” Thinking to “Agentic” Thinking」(「推論式思考」から「エージェント思考」へ)という名の記事を投稿した。記事は主にAI技術の方向性について論じているものの、その行間には阿里の千問技術ロードマップへの省察が隠されている。
彼は、「単に計算資源を消費する“推論思考”はすでに限界に達しており、AIの後半戦は、現実の環境と相互作用でき、考えながら行動する“代理思考”(Agentic Thinking)に属する」と指摘する。
AIの焦点が移る:次に何が起きるのか?
林俊暘は、2025年上半期のAI業界における焦点が、主に「推論思考」(Reasoning Thinking)に集中していたと述べている。つまり、大規模モデルにより多くの時間と計算資源を費やして考えさせる方法、より強力なフィードバック機構を利用してモデルを訓練する方法、そしてこれらの追加の推論プロセスを制御する方法だ。
しかし、現時点で業界が直面しなければならない問題は、「次に何が起きるのか?」である。
彼は、その答えは間違いなく「代理思考」(Agentic Thinking)だと考えている。将来のAIは、答えを出すためだけに閉じた部屋で考えるのではなく、「行動を取るために考える」べきであり、環境と相互作用しながら推論を行い、現実世界から得られるフィードバックに基づいて計画を継続的に更新し修正する必要がある。
アリQwen内部のブループリントと「統合ルート」の失敗
林俊暘は、文中で初めて、2025年初めのQwenチーム内部における技術ブループリントを明かした。当時、多くのメンバーは、「思考」と「指示」のモードを統一できる理想的なシステムを作りたいと考えていた。その構想は非常に壮大だった。
インテリジェントな調整: プロンプト(Prompt)と文脈に応じて、どれだけの推論計算資源が必要かを自動的に判断する(低/中/高のような区分に類似)。
自律的な意思決定: モデル自らが、どのタイミングで即答すべきか、どのタイミングで深く考え抜くべきか、あるいは難題に遭遇した際に巨大な計算資源を投入すべきかを決める。
林俊暘は、Qwen3はまさにこの方向性における最も明確な公開の試みであり、「ハイブリッド思考モード」を導入し、思考予算をコントロールできることを強調したと述べた。しかし林俊暘は率直にこう言っている。「統合しようと言うのは簡単だが、実行するのは極めて難しい。」
林俊暘は、無理に統合するとモデルが「平凡」になり、「思考モード」と「指示モード」の背後にあるデータ分布や行動目標がまったく異なるためにそうなると考えている。無理に統合すれば、「思考行動」が冗長で、むくれていて、決断力が不足することにつながる。一方で**「指示行動」は明快さを失い、信頼できなくなり**、さらにはビジネスユーザーの利用コストが大幅に増える。
ビジネスの現実として、彼は、大量の企業顧客が実際に必要としているのは、高いスループット、低コスト、そして高い可制御性を備えた純粋な指示操作(例:バッチ処理)だと考えている。
こうした理由から、Qwenチームはその後の2507シリーズで、最終的に独立した指示(Instruct)版と思考(Thinking)版をリリースすることを選んだ。林俊暘は、両者を分離すれば、チームがそれぞれのデータと訓練の問題をより純粋に解決することに集中でき、「2人の気まずい継ぎ合わせ人格」が生まれるのを避けられると考えている。
対抗戦略:Anthropicの「節制」と目標指向
Qwenの分離路線とは異なり、他の実験室としてAnthropicや智譜(GLM-4.5)は真逆の「統合路線」を選んだ。
林俊暘は特に、Anthropic(Claudeシリーズ)のやり方に言及し、それが発展の軌跡として一種の厳格さと節制を示していると考えた。Claude 3.7/Claude 4では、推論と「ツール使用」を交互に行う。
目標指向の思考: Anthropicは、極めて長い推論パスを出すことが、モデルをより賢くすることと同義ではないと考えている。もしモデルが些細なことすべてについて長々と論じるなら、それは実際には資源配分が不適切だということを意味する。
実用第一: 目標がプログラミングであれば、AIの思考は計画、タスクの分解、Bugの修復、そしてツールの呼び出しに使うべきだ。もし代理作業フローであれば、思考は長期タスクの実行品質を高めるために使われるべきであり、単に見栄えのする「推論エッセイ」を書くためではない。
推論思考 vs 代理思考のコア差異
林俊暘は、「代理思考」が、相互作用のない、長々とした独白型の「静的な推論」を最終的に置き換えると予測している。本当に先進的なシステムには、検索し、シミュレートし、実行し、検査し、修正する権利があり、強靭で高効率な方法で問題を解決できるべきだ。
評価基準が変わる: 「モデルが数学問題を解けるかどうか」から、「モデルが環境と相互作用するときに、進捗をどれだけ前に進められるか」へと移る。
取り扱うべき現実の難題:
「代理思考」を実現する三つの技術的難題
応用レベルの違いに加えて、林俊旸は代理思考の基盤開発における巨大な課題をさらに深掘りしている。
訓練基盤インフラのボトルネック(GPU効率の崩壊): 代理型の強化学習(RL)は、単なる推論RLよりもはるかに難しい。AIエージェントは、ブラウザや実行用サンドボックスのような外部ツールと頻繁にやり取りする必要がある。実環境からのフィードバックを待つことは訓練の停滞を招き、GPU利用率を大幅に引き下げる。将来は「訓練」と「推論」をきれいに分離する必要がある。
「報酬のハッキング」(Reward Hacking)と不正のリスク: モデルがツールを使う権限を持つと、それは簡単に「不正をして」システムの報酬を騙し取る(例えばシステムの脆弱性を利用して将来の情報を覗く)ことを学び、真に問題を解決するのではなくなる。ツールは虚偽的に最適化されるリスクを拡大する。将来の反不正プロトコルは、大手企業にとって重要なものになるだろう。
マルチエージェントの協調(Multi-agent Orchestration): 将来のシステム工学は、単一モデルに依存しなくなる。複数の代理が分業するシステムになる。システムには、計画を担当する「オーケストレーター」、特定領域に精通した「専門家エージェント」、そして狭いタスクを処理する「サブエージェント」が含まれ、それによってコンテキストを制御し、思考プロセスが汚染されるのを防ぐ。
まとめ:AI業界の次の段階における競争の重点
林俊暘は文末で、AI業界の次の段階における競争の重点を挙げた。将来の中核となる訓練対象は、もはや「モデル」そのものに限られず、「モデル+環境」の統合システム(代理とその周囲の周辺要素)になる。
過去の推論時代: 強みは、より優れた強化学習(RL)アルゴリズム、より強いフィードバック信号、拡張可能な訓練パイプラインに由来する。
未来の代理時代: 強みは、より良い環境設計、より密なTrain-serve一体化(Train-serve integration)、より強いシステムエンジニアリング、そしてモデルが自らの決定の結果を引き受け、それにより「クローズドループ(閉ループ)」を形成することを学ぶ能力に左右される。
X原文