Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
【Antes de las 1000 preguntas de Alibaba】 Lin Junyang, ensayo de mil palabras: Los modelos de IA se orientarán hacia el «pensamiento de agentes inteligentes» Revelando por qué Qwen abandonó la combinación de pensamiento y modo de instrucciones
阿里巴巴 (09988)
千問(Qwen)大模型靈魂人物林俊暘,3月初突然離任,一度引發猜測林俊暘與管理層產生分歧。風波漸息之際,林俊暘近日在社交平台X發布一篇名為《From “Reasoning” Thinking to “Agentic” Thinking》(從「推理式思維」到「智能體思維」)的文章,雖然文章主要談論AI技術方向,但字里行間藏住對阿里千問技術路線的反思。
他指出,單純消耗算力的「推理思維」已經見頂,AI 的下半場將屬於能夠與現實環境互動、邊思考邊行動的「代理思維」(Agentic Thinking)。
AI 的焦點轉移:接下來會發生什麼事?
林俊暘指出,2025 年上半年的 AI 業界焦點,主要集中在「推理思維」(Reasoning Thinking)——也就是如何讓大模型消耗更多時間與算力去思考、如何利用更強的反饋機制來訓練模型,以及如何控制這些額外的推理過程。
然而,現時業界必須面對的問題是:接下來會發生什麼事?
他認為,答案毫無疑問是「代理思維」(Agentic Thinking)。未來的 AI 不應只是為了給出答案而閉門思考,而是「為了採取行動而思考」,它需要在與環境互動的同時進行推演,並根據從現實世界獲得的反饋,持續更新和修正計畫。
阿里Qwen內部藍圖與「合併路線」的失敗
林俊暘在文中首度披露了 2025 年初 Qwen 團隊內部的技術藍圖。當時,許多成員希望打造一個能統一「思考」與「指令」模式的理想系統。這套系統的構想十分宏大:
智能調節: 能根據提示詞(Prompt)和語境,自動判斷需要多少推理算力(類似低/中/高檔次)。
自主決策: 讓模型自己決定何時該秒速回答、何時該深思熟慮,或是在遇到難題時投入龐大算力。
林俊暘稱,Qwen3 正是這個方向最明確的公開嘗試,引入了「混合思考模式」,強調可控的思考預算。然而,林俊暘坦言:「合併說起來容易,執行起來卻極難。」
林俊暘認為,強行合併會導致模型「平庸」,「思考模式」與「指令模式」背後的數據分佈和行為目標截然不同;硬要合併,會導致**「思考行為」變得囉唆、臃腫且決斷力不足**;而**「指令行為」則失去乾脆俐落,變得不可靠**,甚至大幅增加了商業用戶的使用成本。
商業現實上,他認為,大量企業客戶真正需要的是高吞吐量、低成本、高可控的純指令操作(如批次處理)。
正因如此,Qwen 團隊在後續的 2507 系列中,最終選擇發布獨立的指令(Instruct)和思考(Thinking)版本。林俊暘認為,將兩者分離,能讓團隊更純粹地專注於解決各自的數據與訓練問題,避免產生「兩個尷尬縫合的人格」。
對手策略:Anthropic 的「節制」與目標導向
與 Qwen 的分離路線不同,其他實驗室如 Anthropic 和智譜(GLM-4.5)選擇截然相反的「整合路線」。
林俊暘特別提到Anthropic(Claude 系列)的做法,並認為其發展軌跡展現出一種嚴謹與節制,Claude 3.7 / Claude 4 將推理與「工具使用」交替進行。
目標導向的思考: Anthropic 認為,產出極長的推理路徑並不等於模型更聰明。如果模型對所有小事都長篇大論,其實代表資源分配不當。
實用至上: 如果目標是寫程式,AI 的思考應該用於計畫、分解任務、修復 Bug 和調用工具;如果是代理工作流,思考應該用來提升長程任務的執行質素,而不是單純寫出看似厲害的「推理散文」。
推理思維 vs 代理思維的核心差異
林俊暘預測,「代理思維」最終將取代那種缺乏互動、長篇大論的「靜態獨白式」推理。一個真正先進的系統,應該有權利去搜尋、模擬、執行、檢查和修正,以強韌且高效的方式解決問題。
評判標準改變: 從「模型能否解出數學題」轉變為「模型與環境互動時能否推進進度」。
需要處理的現實難題:
實現「代理思維」的三大技術難題
除了應用層面的差異,林俊旸更深入剖析了代理思維在底層開發上的巨大挑戰:
訓練基礎設施的瓶頸(GPU 效率崩潰): 代理型強化學習(RL)比單純的推理 RL 難得多。AI 代理需要頻繁與外部工具(如瀏覽器、執行沙箱)互動,等待真實環境的反饋會導致訓練停滯,大幅拉低 GPU 的利用率。未來必須將「訓練」與「推理」乾淨地解耦。
「獎勵破解」(Reward Hacking)與作弊風險: 當模型擁有了使用工具的權限後,它很容易學會「作弊」來騙取系統獎勵(例如利用系統漏洞偷看未來資訊),而不是真正去解決問題。工具擴大了被虛假優化的風險,未來的防作弊協議將成為大廠關鍵。
多代理協同(Multi-agent Orchestration): 未來的系統工程將不再依賴單一模型,而是由多個代理分工。系統將包含負責計畫的「編排器」、專精特定領域的「專家代理」,以及處理狹窄任務的「子代理」,藉此控制上下文,避免思考過程被污染。
總結:AI 業界下一個階段的競爭重點
林俊暘在文末點出了 AI 業界下一個階段的競爭重點:未來的核心訓練對象,不再僅僅是「模型」本身,而是「模型+環境」的綜合系統(代理及其周圍的線束)。
**過去推理時代:**優勢來自更好的強化學習(RL)演算法、更強的反饋信號、可擴展的訓練流水線。
**未來代理時代:**優勢將取決於更好的環境設計、更緊密的訓推一體化(Train-serve integration)、更強的系統工程,以及讓模型學會為自己的決策承擔後果並形成「閉環」的能力。
X原文