【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones

SocialAnxietyStaker · 2026-03-29T10:04:02+00:00

La figura clave del modelo de gran escala de Alibaba, Lin Junyang, publicó recientemente un artículo reflexionando sobre la trayectoria de la tecnología de IA, defendiendo que el razonamiento será reemplazado por un pensamiento de agente centrado en la interacción. Señaló que en el futuro la IA debería ser capaz de pensar y actuar en su entorno, y enfatizó que versiones independientes de instrucciones y pensamiento pueden resolver eficazmente las necesidades comerciales. La competencia futura se centrará en la integración del sistema entre modelos y entornos.

SocialAnxietyStaker

2026-03-29 10:04:02

Generación de resúmenes en curso

阿里巴巴（09988）
千問（Qwen）大模型靈魂人物林俊暘，3月初突然離任，一度引發猜測林俊暘與管理層產生分歧。風波漸息之際，林俊暘近日在社交平台X發布一篇名為《From “Reasoning” Thinking to “Agentic” Thinking》（從「推理式思維」到「智能體思維」）的文章，雖然文章主要談論AI技術方向，但字里行間藏住對阿里千問技術路線的反思。
他指出，單純消耗算力的「推理思維」已經見頂，AI 的下半場將屬於能夠與現實環境互動、邊思考邊行動的「代理思維」（Agentic Thinking）。
AI 的焦點轉移：接下來會發生什麼事？

林俊暘指出，2025 年上半年的 AI 業界焦點，主要集中在「推理思維」（Reasoning Thinking）——也就是如何讓大模型消耗更多時間與算力去思考、如何利用更強的反饋機制來訓練模型，以及如何控制這些額外的推理過程。
然而，現時業界必須面對的問題是：接下來會發生什麼事？
他認為，答案毫無疑問是「代理思維」（Agentic Thinking）。未來的 AI 不應只是為了給出答案而閉門思考，而是「為了採取行動而思考」，它需要在與環境互動的同時進行推演，並根據從現實世界獲得的反饋，持續更新和修正計畫。
阿里Qwen內部藍圖與「合併路線」的失敗

林俊暘在文中首度披露了 2025 年初 Qwen 團隊內部的技術藍圖。當時，許多成員希望打造一個能統一「思考」與「指令」模式的理想系統。這套系統的構想十分宏大：
智能調節：能根據提示詞（Prompt）和語境，自動判斷需要多少推理算力（類似低/中/高檔次）。
自主決策：讓模型自己決定何時該秒速回答、何時該深思熟慮，或是在遇到難題時投入龐大算力。
林俊暘稱，Qwen3 正是這個方向最明確的公開嘗試，引入了「混合思考模式」，強調可控的思考預算。然而，林俊暘坦言：「合併說起來容易，執行起來卻極難。」
林俊暘認為，強行合併會導致模型「平庸」，「思考模式」與「指令模式」背後的數據分佈和行為目標截然不同；硬要合併，會導致「思考行為」變得囉唆、臃腫且決斷力不足；而「指令行為」則失去乾脆俐落，變得不可靠，甚至大幅增加了商業用戶的使用成本。
商業現實上，他認為，大量企業客戶真正需要的是高吞吐量、低成本、高可控的純指令操作（如批次處理）。
正因如此，Qwen 團隊在後續的 2507 系列中，最終選擇發布獨立的指令（Instruct）和思考（Thinking）版本。林俊暘認為，將兩者分離，能讓團隊更純粹地專注於解決各自的數據與訓練問題，避免產生「兩個尷尬縫合的人格」。
對手策略：Anthropic 的「節制」與目標導向

與 Qwen 的分離路線不同，其他實驗室如 Anthropic 和智譜（GLM-4.5）選擇截然相反的「整合路線」。
林俊暘特別提到Anthropic（Claude 系列）的做法，並認為其發展軌跡展現出一種嚴謹與節制，Claude 3.7 / Claude 4 將推理與「工具使用」交替進行。
目標導向的思考： Anthropic 認為，產出極長的推理路徑並不等於模型更聰明。如果模型對所有小事都長篇大論，其實代表資源分配不當。
實用至上：如果目標是寫程式，AI 的思考應該用於計畫、分解任務、修復 Bug 和調用工具；如果是代理工作流，思考應該用來提升長程任務的執行質素，而不是單純寫出看似厲害的「推理散文」。
推理思維 vs 代理思維的核心差異

林俊暘預測，「代理思維」最終將取代那種缺乏互動、長篇大論的「靜態獨白式」推理。一個真正先進的系統，應該有權利去搜尋、模擬、執行、檢查和修正，以強韌且高效的方式解決問題。
評判標準改變： 從「模型能否解出數學題」轉變為「模型與環境互動時能否推進進度」。
需要處理的現實難題：

懂得決定何時該停止思考並採取行動。
選擇該調用哪個工具及使用的先後次序。
能夠處理來自現實環境中嘈雜、不完整的觀測數據。
遇到失敗時，懂得修正計畫。
在多輪對話與多次工具調用中保持邏輯連貫。
實現「代理思維」的三大技術難題

除了應用層面的差異，林俊旸更深入剖析了代理思維在底層開發上的巨大挑戰：
訓練基礎設施的瓶頸（GPU 效率崩潰）：代理型強化學習（RL）比單純的推理 RL 難得多。AI 代理需要頻繁與外部工具（如瀏覽器、執行沙箱）互動，等待真實環境的反饋會導致訓練停滯，大幅拉低 GPU 的利用率。未來必須將「訓練」與「推理」乾淨地解耦。
「獎勵破解」（Reward Hacking）與作弊風險：當模型擁有了使用工具的權限後，它很容易學會「作弊」來騙取系統獎勵（例如利用系統漏洞偷看未來資訊），而不是真正去解決問題。工具擴大了被虛假優化的風險，未來的防作弊協議將成為大廠關鍵。
多代理協同（Multi-agent Orchestration）：未來的系統工程將不再依賴單一模型，而是由多個代理分工。系統將包含負責計畫的「編排器」、專精特定領域的「專家代理」，以及處理狹窄任務的「子代理」，藉此控制上下文，避免思考過程被污染。
總結：AI 業界下一個階段的競爭重點

林俊暘在文末點出了 AI 業界下一個階段的競爭重點：未來的核心訓練對象，不再僅僅是「模型」本身，而是「模型＋環境」的綜合系統（代理及其周圍的線束）。
**過去推理時代：**優勢來自更好的強化學習（RL）演算法、更強的反饋信號、可擴展的訓練流水線。
**未來代理時代：**優勢將取決於更好的環境設計、更緊密的訓推一體化（Train-serve integration）、更強的系統工程，以及讓模型學會為自己的決策承擔後果並形成「閉環」的能力。
X原文

		財經Hot Talk  

	  

	中國車銷量首奪「世一」  高油價助力電動車出海？

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta