Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
【Trước cốt lõi của Alibaba Qian Wen】Lâm Tuấn Dương viết ngàn chữ: Mô hình AI sẽ chuyển hướng sang "tư duy thể thông minh" Tiết lộ tại sao Qwen từ bỏ tư duy hợp nhất và chế độ lệnh
阿里巴巴 (09988) 千问(Qwen)大模型灵魂人物林俊暘,3月初突然离任,一度引发猜测林俊暘与管理层产生分歧。风波渐息之际,林俊暘近日在社交平台X发布一篇名为《From “Reasoning” Thinking to “Agentic” Thinking》(从「推理式思维」到「智能体思维」)的文章,虽然文章主要谈论AI技术方向,但字里行间藏住对阿里千问技术路线的反思。
他指出,单纯消耗算力的「推理思维」已经见顶,AI 的下半场将属于能够与现实环境互动、边思考边行动的「代理思维」(Agentic Thinking)。
AI 的焦点转移:接下来会发生什么事?
林俊暘指出,2025 年上半年的 AI 业界焦点,主要集中在「推理思维」(Reasoning Thinking)——也就是如何让大模型消耗更多时间与算力去思考、如何利用更强的反馈机制来训练模型,以及如何控制这些额外的推理过程。
然而,现在业界必须面对的问题是:接下来会发生什么事?
他认为,答案毫无疑问是「代理思维」(Agentic Thinking)。未来的 AI 不应只是为了给出答案而闭门思考,而是「为了采取行动而思考」,它需要在与环境互动的同时进行推演,并根据从现实世界获得的反馈,持续更新和修正计划。
阿里Qwen内部蓝图与「合并路线」的失败
林俊暘在文中首次披露了 2025 年初 Qwen 团队内部的技术蓝图。当时,许多成员希望打造一个能统一「思考」与「指令」模式的理想系统。这套系统的构想十分宏大:
智能调节: 能根据提示词(Prompt)和语境,自动判断需要多少推理算力(类似低/中/高档次)。
自主决策: 让模型自己决定何时该秒速回答、何时该深思熟虑,或是在遇到难题时投入庞大算力。
林俊暘称,Qwen3 正是这个方向最明确的公开尝试,引入了「混合思考模式」,强调可控的思考预算。然而,林俊暘坦言:「合并说起来容易,执行起来却极难。」
林俊暘认为,强行合并会导致模型「平庸」,「思考模式」与「指令模式」背后的数据分布和行为目标截然不同;硬要合并,会导致**「思考行为」变得啰嗦、臃肿且决断力不足**;而**「指令行为」则失去干脆利落,变得不可靠**,甚至大幅增加了商业用户的使用成本。
商业现实上,他认为,大量企业客户真正需要的是高吞吐量、低成本、高可控的纯指令操作(如批次处理)。
正因如此,Qwen 团队在后续的 2507 系列中,最终选择发布独立的指令(Instruct)和思考(Thinking)版本。林俊暘认为,将两者分离,能让团队更纯粹地专注于解决各自的数据与训练问题,避免产生「两个尴尬缝合的人格」。
对手策略:Anthropic 的「节制」与目标导向
与 Qwen 的分离路线不同,其他实验室如 Anthropic 和智谱(GLM-4.5)选择截然相反的「整合路线」。
林俊暘特别提到Anthropic(Claude 系列)的做法,并认为其发展轨迹展现出一种严谨与节制,Claude 3.7 / Claude 4 将推理与「工具使用」交替进行。
目标导向的思考: Anthropic 认为,产出极长的推理路径并不等于模型更聪明。如果模型对所有小事都长篇大论,其实代表资源分配不当。
实用至上: 如果目标是写程序,AI 的思考应该用于计划、分解任务、修复 Bug 和调用工具;如果是代理工作流,思考应该用来提升长程任务的执行质素,而不是单纯写出看似厉害的「推理散文」。
推理思维 vs 代理思维的核心差异
林俊暘预测,「代理思维」最终将取代那种缺乏互动、长篇大论的「静态独白式」推理。一个真正先进的系统,应该有权利去搜索、模拟、执行、检查和修正,以强韧且高效的方式解决问题。
评判标准改变: 从「模型能否解出数学题」转变为「模型与环境互动时能否推进进度」。
需要处理的现实难题:
实现「代理思维」的三大技术难题
除了应用层面的差异,林俊旸更深入剖析了代理思维在底层开发上的巨大挑战:
训练基础设施的瓶颈(GPU 效率崩溃): 代理型强化学习(RL)比单纯的推理 RL 难得多。AI 代理需要频繁与外部工具(如浏览器、执行沙箱)互动,等待真实环境的反馈会导致训练停滞,大幅拉低 GPU 的利用率。未来必须将「训练」与「推理」干净地解耦。
「奖励破解」(Reward Hacking)与作弊风险: 当模型拥有了使用工具的权限后,它很容易学会「作弊」来骗取系统奖励(例如利用系统漏洞偷看未来信息),而不是真正去解决问题。工具扩大了被虚假优化的风险,未来的防作弊协议将成为大厂关键。
多代理协同(Multi-agent Orchestration): 未来的系统工程将不再依赖单一模型,而是由多个代理分工。系统将包含负责计划的「编排器」、专精特定领域的「专家代理」,以及处理狭窄任务的「子代理」,借此控制上下文,避免思考过程被污染。
总结:AI 业界下一个阶段的竞争重点
林俊暘在文末点出了 AI 业界下一个阶段的竞争重点:未来的核心训练对象,不再仅仅是「模型」本身,而是「模型+环境」的综合系统(代理及其周围的线束)。
**过去推理时代:**优势来自更好的强化学习(RL)算法、更强的反馈信号、可扩展的训练流水线。
**未来代理时代:**优势将取决于更好的环境设计、更紧密的训推一体化(Train-serve integration)、更强的系统工程,以及让模型学会为自己的决策承担后果并形成「闭环」的能力。
X原文