10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
后训练推理模型SU-01在奥赛级试题中实现金牌性能
AIMPACT 消息,5 月 16 日(UTC+8),一篇新论文提出将后训练推理模型转化为奥林匹克级别解题器的系统方法,并基于该方法训练出SU-01模型。该方法包含三个步骤:首先使用反向困惑度课程进行监督微调,以灌输严格的证明搜索和自我检查行为;然后通过两阶段强化学习(从可验证奖励强化学习过渡到证明级强化学习)扩展这些行为;最后通过测试时缩放提升性能。研究团队将方法应用于30B-A3B骨干模型,使用约34万条子8K token轨迹进行监督微调,随后进行200步强化学习,得到SU-01。该模型能对困难问题进行稳定推理,轨迹长度超过10万token,在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌级别,并展示了在数学和物理之外的科学推理领域的泛化能力。(来源:InFoQ)