阿里巴巴 (09988) 千問(Qwen)大模型の魂の人物林俊暘が、3月初めに突然離任し、一時的に林俊暘と管理層との間に分歧が生じたとの憶測を呼び起こしました。風波が収まる中、林俊暘は最近、ソーシャルプラットフォームXに「From “Reasoning” Thinking to “Agentic” Thinking」(「推理思考」から「エージェント思考」へ)のタイトルの文章を投稿しました。この文章は主にAI技術の方向性について語っていますが、その中には阿里千問技術路線に対する反省が隠されています。 彼は、単純に計算能力を消費する「推理思考」はすでに限界に達したと指摘し、**AIの下半期は現実環境と相互作用し、考えながら行動する「エージェント思考」(Agentic Thinking)が支配することになる**と述べました。 AIの焦点移転:今後何が起こるのか? ------------------- 林俊暘は、2025年上半期のAI業界の焦点が主に「推理思考」(Reasoning Thinking)に集中していると指摘しました。つまり、大モデルが思考に費やす時間と計算能力を増やす方法、より強力なフィードバックメカニズムを利用してモデルを訓練する方法、そしてこれらの追加の推理プロセスを制御する方法です。 しかし、現在業界が直面しなければならない問題は:今後何が起こるのか? 彼は、答えは間違いなく「エージェント思考」(Agentic Thinking)であると考えています。未来のAIは単に答えを出すために閉じた思考をするのではなく、「行動を取るために思考する」べきであり、環境と相互作用しながら推演を行い、現実世界から得たフィードバックに基づいて計画を継続的に更新し修正する必要があります。 阿里Qwenの内部青写真と「統合路線」の失敗 -------------------- 林俊暘は文中で、2025年初頭にQwenチーム内の技術青写真を初めて公開しました。当時、多くのメンバーは「思考」と「指示」モデルを統一する理想的なシステムの構築を望んでいました。このシステムの構想は非常に壮大でした: **スマート調整**: 提示語(Prompt)と文脈に応じて、自動的にどれだけの推理計算能力が必要かを判断します(低/中/高レベルに似ています)。 **自主的意思決定**: モデルが自分で、いつ即答すべきか、いつ深く考慮すべきか、または難題に直面したときに多大な計算能力を投入すべきかを決定させます。 林俊暘は、Qwen3がこの方向への最も明確な公開試みであり、「混合思考モデル」を導入し、制御可能な思考予算を強調していると述べました。しかし、林俊暘は率直に言いました:**「統合するのは簡単だが、実行するのは非常に難しい。」** 林俊暘は、無理に統合するとモデルが「平凡」になり、「思考モデル」と「指示モデル」の背後にあるデータ分布と行動目標が全く異なるため、強引に統合すると**「思考行動」が冗長で、膨大で、決断力が不足する**と考えています。そして、**「指示行動」は簡潔さを失い、不確実になり、商業ユーザーの使用コストを大幅に増加させる**とも述べています。 商業的現実として、彼は多くの企業顧客が本当に必要としているのは、高スループット、低コスト、高制御の純指示操作(例えばバッチ処理)であると考えています。 そのため、Qwenチームは後の2507シリーズで、最終的に**独立した指示(Instruct)と思考(Thinking)のバージョン**をリリースすることを選択しました。林俊暘は、両者を分離することで、チームが各自のデータと訓練問題の解決により純粋に集中でき、「二つのぎこちない統合された人格」が生じることを避けられると考えています。 競合戦略:Anthropicの「節制」と目標指向 ------------------------- Qwenの分離路線とは異なり、Anthropicや智譜(GLM-4.5)などの他の実験室は全く逆の「統合路線」を選択しています。 林俊暘は特にAnthropic(Claudeシリーズ)のアプローチに言及し、その発展の軌跡が厳格さと節制を示していると考えています。Claude 3.7 / Claude 4は推理と「ツール使用」を交互に行っています。 **目標指向の思考**: Anthropicは、長大な推理経路を生成することがモデルをより賢くすることにはならないと考えています。もしモデルがすべての小事に対して長々と論じるなら、それは実際には資源配分が不適切であることを示しています。 **実用至上**: もし目標がプログラムを書くことであれば、AIの思考は計画、タスクの分解、バグの修正、ツールの呼び出しに使用されるべきです。代理作業の流れであれば、思考は長期タスクの実行品質を向上させるために使われるべきであり、単に見た目が素晴らしい「推理散文」を書くためではありません。 推理思考 vs エージェント思考の核心的な違い ----------------- 林俊暘は予測しています。「エージェント思考」は最終的に、相互作用のない長大な「静的独白型」推理を置き換えることになるでしょう。真に先進的なシステムは、検索、シミュレーション、実行、チェック、修正を行い、強靭かつ効率的に問題を解決する権利を持つべきです。 **評価基準の変化:** 「モデルが数学問題を解決できるか」から、「モデルが環境と相互作用する際に進捗を進められるか」へと変わります。 **処理すべき現実の難題:** * いつ思考を停止し行動を取るべきかを理解する。 * どのツールを呼び出し、使用の順序を選ぶか。 * 現実環境からの騒音や不完全な観測データを処理できること。 * 失敗に直面したときに計画を修正することを理解する。 * 複数回の対話とツールの呼び出しの中で論理的な一貫性を保つこと。 「エージェント思考」を実現するための三大技術的難題 --------------- 応用レベルの違いに加えて、林俊暘はエージェント思考の基盤開発における巨大な挑戦をさらに深く分析しました: **訓練インフラのボトルネック(GPU効率の崩壊)**: エージェント型強化学習(RL)は単純な推理RLよりもはるかに難しいです。AIエージェントは頻繁に外部ツール(例えばブラウザ、実行サンドボックス)と相互作用する必要があり、現実環境からのフィードバックを待つことが訓練の停滞を引き起こし、GPUの利用率を大幅に低下させます。将来的には「訓練」と「推理」をクリーンに分離する必要があります。 **「報酬のハッキング」(Reward Hacking)と不正のリスク**: モデルがツール使用の権限を持つようになると、システムの報酬を騙すために「不正」を学ぶのが容易になり(例えば、システムの脆弱性を利用して未来の情報を盗む)、実際の問題を解決することではなくなります。ツールは偽の最適化のリスクを拡大し、将来の不正防止プロトコルは大企業の重要な課題となるでしょう。 **多エージェント協調(Multi-agent Orchestration)**: 将来のシステムエンジニアリングは単一のモデルに依存することはなく、複数のエージェントによって分業されます。システムは計画を担当する「オーケストレーター」、特定の分野に特化した「専門エージェント」、狭いタスクを処理する「サブエージェント」を含み、これにより文脈を制御し、思考過程が汚染されることを防ぎます。 まとめ:AI業界の次の段階の競争の焦点 ------------------ 林俊暘は文末でAI業界の次の段階の競争の焦点を指摘しました:未来の核心訓練対象は、もはや単なる「モデル」そのものではなく、「モデル+環境」の統合システム(エージェントとその周囲の束)です。 **過去の推理時代:** 優位性はより良い強化学習(RL)アルゴリズム、より強力なフィードバック信号、拡張可能な訓練パイプラインから生まれました。 **未来のエージェント時代:** 優位性はより良い環境設計、より緊密な訓練・サービス統合(Train-serve integration)、より強力なシステムエンジニアリング、そしてモデルが自らの決定に責任を持つ能力と「閉じたループ」を形成することに依存します。 X原文 財経Hot Talk 中国の車両販売が初めて「世界一」を奪取 高い石油価格が電動車の海外進出を助ける?
【阿里千問前核心】林俊暘千字文:AIモデルは「インテリジェントエージェント思考」へと転換 Qwenがなぜ統合思考と指令モードを放棄したのかを解明
阿里巴巴 (09988)
千問(Qwen)大模型の魂の人物林俊暘が、3月初めに突然離任し、一時的に林俊暘と管理層との間に分歧が生じたとの憶測を呼び起こしました。風波が収まる中、林俊暘は最近、ソーシャルプラットフォームXに「From “Reasoning” Thinking to “Agentic” Thinking」(「推理思考」から「エージェント思考」へ)のタイトルの文章を投稿しました。この文章は主にAI技術の方向性について語っていますが、その中には阿里千問技術路線に対する反省が隠されています。
彼は、単純に計算能力を消費する「推理思考」はすでに限界に達したと指摘し、AIの下半期は現実環境と相互作用し、考えながら行動する「エージェント思考」(Agentic Thinking)が支配することになると述べました。
AIの焦点移転:今後何が起こるのか?
林俊暘は、2025年上半期のAI業界の焦点が主に「推理思考」(Reasoning Thinking)に集中していると指摘しました。つまり、大モデルが思考に費やす時間と計算能力を増やす方法、より強力なフィードバックメカニズムを利用してモデルを訓練する方法、そしてこれらの追加の推理プロセスを制御する方法です。
しかし、現在業界が直面しなければならない問題は:今後何が起こるのか?
彼は、答えは間違いなく「エージェント思考」(Agentic Thinking)であると考えています。未来のAIは単に答えを出すために閉じた思考をするのではなく、「行動を取るために思考する」べきであり、環境と相互作用しながら推演を行い、現実世界から得たフィードバックに基づいて計画を継続的に更新し修正する必要があります。
阿里Qwenの内部青写真と「統合路線」の失敗
林俊暘は文中で、2025年初頭にQwenチーム内の技術青写真を初めて公開しました。当時、多くのメンバーは「思考」と「指示」モデルを統一する理想的なシステムの構築を望んでいました。このシステムの構想は非常に壮大でした:
スマート調整: 提示語(Prompt)と文脈に応じて、自動的にどれだけの推理計算能力が必要かを判断します(低/中/高レベルに似ています)。
自主的意思決定: モデルが自分で、いつ即答すべきか、いつ深く考慮すべきか、または難題に直面したときに多大な計算能力を投入すべきかを決定させます。
林俊暘は、Qwen3がこの方向への最も明確な公開試みであり、「混合思考モデル」を導入し、制御可能な思考予算を強調していると述べました。しかし、林俊暘は率直に言いました:「統合するのは簡単だが、実行するのは非常に難しい。」
林俊暘は、無理に統合するとモデルが「平凡」になり、「思考モデル」と「指示モデル」の背後にあるデータ分布と行動目標が全く異なるため、強引に統合すると**「思考行動」が冗長で、膨大で、決断力が不足すると考えています。そして、「指示行動」は簡潔さを失い、不確実になり、商業ユーザーの使用コストを大幅に増加させる**とも述べています。
商業的現実として、彼は多くの企業顧客が本当に必要としているのは、高スループット、低コスト、高制御の純指示操作(例えばバッチ処理)であると考えています。
そのため、Qwenチームは後の2507シリーズで、最終的に独立した指示(Instruct)と思考(Thinking)のバージョンをリリースすることを選択しました。林俊暘は、両者を分離することで、チームが各自のデータと訓練問題の解決により純粋に集中でき、「二つのぎこちない統合された人格」が生じることを避けられると考えています。
競合戦略:Anthropicの「節制」と目標指向
Qwenの分離路線とは異なり、Anthropicや智譜(GLM-4.5)などの他の実験室は全く逆の「統合路線」を選択しています。
林俊暘は特にAnthropic(Claudeシリーズ)のアプローチに言及し、その発展の軌跡が厳格さと節制を示していると考えています。Claude 3.7 / Claude 4は推理と「ツール使用」を交互に行っています。
目標指向の思考: Anthropicは、長大な推理経路を生成することがモデルをより賢くすることにはならないと考えています。もしモデルがすべての小事に対して長々と論じるなら、それは実際には資源配分が不適切であることを示しています。
実用至上: もし目標がプログラムを書くことであれば、AIの思考は計画、タスクの分解、バグの修正、ツールの呼び出しに使用されるべきです。代理作業の流れであれば、思考は長期タスクの実行品質を向上させるために使われるべきであり、単に見た目が素晴らしい「推理散文」を書くためではありません。
推理思考 vs エージェント思考の核心的な違い
林俊暘は予測しています。「エージェント思考」は最終的に、相互作用のない長大な「静的独白型」推理を置き換えることになるでしょう。真に先進的なシステムは、検索、シミュレーション、実行、チェック、修正を行い、強靭かつ効率的に問題を解決する権利を持つべきです。
評価基準の変化: 「モデルが数学問題を解決できるか」から、「モデルが環境と相互作用する際に進捗を進められるか」へと変わります。
処理すべき現実の難題:
「エージェント思考」を実現するための三大技術的難題
応用レベルの違いに加えて、林俊暘はエージェント思考の基盤開発における巨大な挑戦をさらに深く分析しました:
訓練インフラのボトルネック(GPU効率の崩壊): エージェント型強化学習(RL)は単純な推理RLよりもはるかに難しいです。AIエージェントは頻繁に外部ツール(例えばブラウザ、実行サンドボックス)と相互作用する必要があり、現実環境からのフィードバックを待つことが訓練の停滞を引き起こし、GPUの利用率を大幅に低下させます。将来的には「訓練」と「推理」をクリーンに分離する必要があります。
「報酬のハッキング」(Reward Hacking)と不正のリスク: モデルがツール使用の権限を持つようになると、システムの報酬を騙すために「不正」を学ぶのが容易になり(例えば、システムの脆弱性を利用して未来の情報を盗む)、実際の問題を解決することではなくなります。ツールは偽の最適化のリスクを拡大し、将来の不正防止プロトコルは大企業の重要な課題となるでしょう。
多エージェント協調(Multi-agent Orchestration): 将来のシステムエンジニアリングは単一のモデルに依存することはなく、複数のエージェントによって分業されます。システムは計画を担当する「オーケストレーター」、特定の分野に特化した「専門エージェント」、狭いタスクを処理する「サブエージェント」を含み、これにより文脈を制御し、思考過程が汚染されることを防ぎます。
まとめ:AI業界の次の段階の競争の焦点
林俊暘は文末でAI業界の次の段階の競争の焦点を指摘しました:未来の核心訓練対象は、もはや単なる「モデル」そのものではなく、「モデル+環境」の統合システム(エージェントとその周囲の束)です。
過去の推理時代: 優位性はより良い強化学習(RL)アルゴリズム、より強力なフィードバック信号、拡張可能な訓練パイプラインから生まれました。
未来のエージェント時代: 優位性はより良い環境設計、より緊密な訓練・サービス統合(Train-serve integration)、より強力なシステムエンジニアリング、そしてモデルが自らの決定に責任を持つ能力と「閉じたループ」を形成することに依存します。
X原文