【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones

robot
Generación de resúmenes en curso

阿里巴巴 (09988)
千問(Qwen)大模型靈魂人物林俊暘,3月初突然離任,一度引發猜測林俊暘與管理層產生分歧。風波漸息之際,林俊暘近日在社交平台X發布一篇名為《From “Reasoning” Thinking to “Agentic” Thinking》(從「推理式思維」到「智能體思維」)的文章,雖然文章主要談論AI技術方向,但字里行間藏住對阿里千問技術路線的反思。
他指出,單純消耗算力的「推理思維」已經見頂,AI 的下半場將屬於能夠與現實環境互動、邊思考邊行動的「代理思維」(Agentic Thinking)
AI 的焦點轉移:接下來會發生什麼事?

林俊暘指出,2025 年上半年的 AI 業界焦點,主要集中在「推理思維」(Reasoning Thinking)——也就是如何讓大模型消耗更多時間與算力去思考、如何利用更強的反饋機制來訓練模型,以及如何控制這些額外的推理過程。
然而,現時業界必須面對的問題是:接下來會發生什麼事?
他認為,答案毫無疑問是「代理思維」(Agentic Thinking)。未來的 AI 不應只是為了給出答案而閉門思考,而是「為了採取行動而思考」,它需要在與環境互動的同時進行推演,並根據從現實世界獲得的反饋,持續更新和修正計畫。
阿里Qwen內部藍圖與「合併路線」的失敗

林俊暘在文中首度披露了 2025 年初 Qwen 團隊內部的技術藍圖。當時,許多成員希望打造一個能統一「思考」與「指令」模式的理想系統。這套系統的構想十分宏大:
智能調節: 能根據提示詞(Prompt)和語境,自動判斷需要多少推理算力(類似低/中/高檔次)。
自主決策: 讓模型自己決定何時該秒速回答、何時該深思熟慮,或是在遇到難題時投入龐大算力。
林俊暘稱,Qwen3 正是這個方向最明確的公開嘗試,引入了「混合思考模式」,強調可控的思考預算。然而,林俊暘坦言:「合併說起來容易,執行起來卻極難。」
林俊暘認為,強行合併會導致模型「平庸」,「思考模式」與「指令模式」背後的數據分佈和行為目標截然不同;硬要合併,會導致**「思考行為」變得囉唆、臃腫且決斷力不足**;而**「指令行為」則失去乾脆俐落,變得不可靠**,甚至大幅增加了商業用戶的使用成本。
商業現實上,他認為,大量企業客戶真正需要的是高吞吐量、低成本、高可控的純指令操作(如批次處理)。
正因如此,Qwen 團隊在後續的 2507 系列中,最終選擇發布獨立的指令(Instruct)和思考(Thinking)版本。林俊暘認為,將兩者分離,能讓團隊更純粹地專注於解決各自的數據與訓練問題,避免產生「兩個尷尬縫合的人格」。
對手策略:Anthropic 的「節制」與目標導向

與 Qwen 的分離路線不同,其他實驗室如 Anthropic 和智譜(GLM-4.5)選擇截然相反的「整合路線」。
林俊暘特別提到Anthropic(Claude 系列)的做法,並認為其發展軌跡展現出一種嚴謹與節制,Claude 3.7 / Claude 4 將推理與「工具使用」交替進行。
目標導向的思考: Anthropic 認為,產出極長的推理路徑並不等於模型更聰明。如果模型對所有小事都長篇大論,其實代表資源分配不當。
實用至上: 如果目標是寫程式,AI 的思考應該用於計畫、分解任務、修復 Bug 和調用工具;如果是代理工作流,思考應該用來提升長程任務的執行質素,而不是單純寫出看似厲害的「推理散文」。
推理思維 vs 代理思維的核心差異

林俊暘預測,「代理思維」最終將取代那種缺乏互動、長篇大論的「靜態獨白式」推理。一個真正先進的系統,應該有權利去搜尋、模擬、執行、檢查和修正,以強韌且高效的方式解決問題。
評判標準改變: 從「模型能否解出數學題」轉變為「模型與環境互動時能否推進進度」。
需要處理的現實難題:

  • 懂得決定何時該停止思考並採取行動。
  • 選擇該調用哪個工具及使用的先後次序。
  • 能夠處理來自現實環境中嘈雜、不完整的觀測數據。
  • 遇到失敗時,懂得修正計畫。
  • 在多輪對話與多次工具調用中保持邏輯連貫。
    實現「代理思維」的三大技術難題

除了應用層面的差異,林俊旸更深入剖析了代理思維在底層開發上的巨大挑戰:
訓練基礎設施的瓶頸(GPU 效率崩潰): 代理型強化學習(RL)比單純的推理 RL 難得多。AI 代理需要頻繁與外部工具(如瀏覽器、執行沙箱)互動,等待真實環境的反饋會導致訓練停滯,大幅拉低 GPU 的利用率。未來必須將「訓練」與「推理」乾淨地解耦。
「獎勵破解」(Reward Hacking)與作弊風險: 當模型擁有了使用工具的權限後,它很容易學會「作弊」來騙取系統獎勵(例如利用系統漏洞偷看未來資訊),而不是真正去解決問題。工具擴大了被虛假優化的風險,未來的防作弊協議將成為大廠關鍵。
多代理協同(Multi-agent Orchestration): 未來的系統工程將不再依賴單一模型,而是由多個代理分工。系統將包含負責計畫的「編排器」、專精特定領域的「專家代理」,以及處理狹窄任務的「子代理」,藉此控制上下文,避免思考過程被污染。
總結:AI 業界下一個階段的競爭重點

林俊暘在文末點出了 AI 業界下一個階段的競爭重點:未來的核心訓練對象,不再僅僅是「模型」本身,而是「模型+環境」的綜合系統(代理及其周圍的線束)。
**過去推理時代:**優勢來自更好的強化學習(RL)演算法、更強的反饋信號、可擴展的訓練流水線。
**未來代理時代:**優勢將取決於更好的環境設計、更緊密的訓推一體化(Train-serve integration)、更強的系統工程,以及讓模型學會為自己的決策承擔後果並形成「閉環」的能力。
X原文

		財經Hot Talk  

	  

	中國車銷量首奪「世一」  高油價助力電動車出海?  
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado