支付方式为

USD

支持 Visa、Mastercard、SEPA 等多种支付方式

灵活买卖币，0 手续费

加密货币支付卡，全球支付无忧

法币投资获得资金增值

基础交易

自由交易数字货币

借币交易，放大收益

闪兑与定投

大小额通兑、0 费率、无滑点

自动调仓无惧强平，自带杠杆放大收益

提前交易，先发制人

进阶交易

使用 Gate 钱包进行链上交易

链上掘金，智选新币

交易机器人

智能策略，自动交易

跟随专家实现收益增长

一份保证金，跨平台共用

数百种永续合约市场

一站交易全球传统资产

欧式 T 型报价，丰富的到期日和行权价

实现最大化资金效率

从零开始掌握合约交易技巧

参与活动赢取奖励

使用模拟资金，无风险体验真实交易

打新

参与活动赚糖果，赢超值空投奖励

一键质押，赚取潜力新币

持有 GT，免费领取海量空投

打新自由，直通全球股票发行市场

交易链上资产，享空投福利

合约交易得积分，空投奖励待领取

理财产品

闲置代币，随时赚取收益

定期定额，让理财变得更简单

低买高卖，波动获益

通过灵活质押资产获取收益

抵押资产，即时借币

一站式借贷入口

VIP 专享理财

尊享理财定制，助力财富增值

私人财富管理

臻享定制财富方案

顶尖量化，稳健护航

链上精选，质押赚币

到期前不强平，安心持币享杠杆收益

铸造 GUSD，享国债 RWA 收益

分享动态，发现价值

每日行情分析直播

随时随地与币友实时交流

一站式获取最新行业资讯

更多

推广

参与活动，赢取丰厚奖励

邀友入驻，共享高额收益

专属返佣，轻松赚取高收益

扩大影响力，享海量空投

平台动态，实时更新

行业深度分析

超高费率折扣

提供一站式资产管理解决方案

提供企业级数字资产解决方案

开发者中心（API）

连接至 Gate 交易所的生态系统

OTC 银行转账

提供多种法币自营出入金渠道

经纪商计划

丰厚的 API 返佣机制

AI

您的对话式 AI 全能伙伴

在社交 App 中直接使用 Gate AI

Gate 蓝龙虾，开箱即用

Gate for AI Agent

AI 基础设施，Gate MCP、Skills 与 CLI

Gate Skills Hub

从办公到交易，一站式技能库让 AI 更好用

智选 40+ 大模型，0% 额外费用

其他

常见问题解答与帮助指南

学习加密货币投资知识

与冠军携手同行

Gate 承诺 100% 储备金

守护您的资产安全

后训练推理模型SU-01在奥赛级试题中实现金牌性能

2026-05-27 04:17:37

摘要生成中

AIMPACT 消息，5 月 16 日（UTC+8），一篇新论文提出将后训练推理模型转化为奥林匹克级别解题器的系统方法，并基于该方法训练出SU-01模型。该方法包含三个步骤：首先使用反向困惑度课程进行监督微调，以灌输严格的证明搜索和自我检查行为；然后通过两阶段强化学习（从可验证奖励强化学习过渡到证明级强化学习）扩展这些行为；最后通过测试时缩放提升性能。研究团队将方法应用于30B-A3B骨干模型，使用约34万条子8K token轨迹进行监督微调，随后进行200步强化学习，得到SU-01。该模型能对困难问题进行稳定推理，轨迹长度超过10万token，在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌级别，并展示了在数学和物理之外的科学推理领域的泛化能力。（来源：InFoQ）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

赞赏
8
10
转发
分享

评论

请输入评论内容

请输入评论内容

GateUser-46c777d0

· 2小时前

34万条轨迹喂进去，RL才跑200步，数据效率比想象中高

回复0

Candlewick Kid

· 2小时前

物理奥赛也能泛化？想看看它在实验设计题上的表现

回复0

复古收音机电波

· 3小时前

测试时尺度化提升是指test-time compute scaling？

回复0

反光的链条影

· 3小时前

子8K轨迹这个细节有意思，是把长证明拆成小块喂吗

回复0

ByteSizedAlpha

· 3小时前

跨领域泛化这个 claim 很大，等一手具体案例

回复0

彩窗太阳阵列

· 3小时前

自我检查能力可能是最关键的，比单纯生成答案重要多了

回复0

Rugpull之后还在

· 3小时前

30B-A3B这个命名，A3B是激活参数？

回复0

GateUser-52241ed6

· 3小时前

IMO金牌级...以后竞赛是不是要分人类组和AI组了

回复0

GateUser-e72657f0

· 3小时前

反向困惑度课程这个设计很妙，让模型先学会自我怀疑

回复0

GateUser-d2b4d9c6

· 3小时前

10万token的推理链，这已经不是做题是写论文了

回复0

查看更多