AIMPACT đề xuất phương pháp hệ thống chuyển đổi mô hình suy luận sau huấn luyện thành bộ giải quyết bài toán cấp Olympic, gồm ba bước: sử dụng khóa học phản nghịch độ rối loạn để huấn luyện có giám sát, truyền đạt tìm kiếm chứng cứ và tự kiểm tra; sau đó mở rộng qua hai giai đoạn học tăng cường; trong quá trình kiểm tra, thực hiện nâng cao quy mô. Áp dụng cho backbone 30B-A3B, sử dụng khoảng 340.000 đoạn theo dõi con 8K để huấn luyện có giám sát, sau đó 200 bước RL, thu được SU-01. Mô hình này có khả năng suy luận ổn định các bài toán khó, theo dõi hơn 100.000 token, đạt cấp huy chương vàng trong các cuộc thi như IMO/USAMO/IPhO, đồng thời thể hiện khả năng tổng quát hóa suy luận khoa học vượt ra ngoài lĩnh vực toán học/vật lý.

MeNews

2026-05-27 00:46:07

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 16 tháng 5 (UTC+8), một bài báo mới đề xuất phương pháp hệ thống chuyển đổi mô hình suy luận sau huấn luyện thành bộ giải quyết câu đố cấp Olympic, và dựa trên phương pháp này huấn luyện mô hình SU-01. Phương pháp này gồm ba bước: đầu tiên sử dụng khóa học nghịch đảo độ rối loạn để điều chỉnh có giám sát nhằm truyền đạt hành vi tìm kiếm chứng minh nghiêm ngặt và tự kiểm tra; sau đó mở rộng các hành vi này qua học tăng cường hai giai đoạn (từ học tăng cường dựa trên phần thưởng có thể xác minh đến học tăng cường cấp chứng minh); cuối cùng, nâng cao hiệu suất bằng cách phóng to khi kiểm tra. Nhóm nghiên cứu áp dụng phương pháp này cho mô hình nền 30B-A3B, sử dụng khoảng 340.000 đoạn đường dẫn gồm 8K token con để điều chỉnh có giám sát, sau đó thực hiện 200 bước học tăng cường, thu được SU-01. Mô hình này có khả năng suy luận ổn định các vấn đề khó, với độ dài đường dẫn vượt quá 100.000 token, đạt cấp huy chương vàng trong các cuộc thi như IMO 2025/USAMO 2026 và IPhO 2024/2025, đồng thời thể hiện khả năng tổng quát trong lĩnh vực suy luận khoa học ngoài toán học và vật lý. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

11 thích

Phần thưởng
11
11
2
Retweed

Bình luận

Thêm một bình luận

SeaSaltMintCandy

· 4giờ trước

Tên SU-01 có ý nghĩa hay chỉ là đặt tùy ý?

Xem bản gốcTrả lời0

StainedGlassSolarArray

· 5giờ trước

Sau quá trình đào tạo lại, các phòng thí nghiệm khác dự kiến sẽ nhanh chóng bắt kịp.

Xem bản gốcTrả lời0

GateUser-d2929483

· 5giờ trước

Công việc này thật sự có thể xảy ra, dữ liệu đề thi cuộc thi sẽ tăng giá.

Xem bản gốcTrả lời0

StopRaisingGasFees.

· 5giờ trước

200 bước RL có thể hội tụ? Hay chỉ là con số công khai

Xem bản gốcTrả lời0

MetalFrameBookPageCross

· 5giờ trước

Hai giai đoạn mở rộng RL cụ thể đề cập đến điều gì, có chi tiết không

Xem bản gốcTrả lời0

GateUser-7a050ee5

· 5giờ trước

Chờ mở nguồn hoặc báo cáo kỹ thuật chi tiết, hiện tại cứ đánh dấu trước đã

Xem bản gốcTrả lời0

GateUser-f4b3df7a

· 5giờ trước

Cơ chế tự kiểm tra bản thân được thực hiện như thế nào, có mục tiêu huấn luyện riêng không

Xem bản gốcTrả lời0

GateUser-e3701961

· 5giờ trước

Trong quá trình thử nghiệm, việc chuẩn hóa nâng cao là tự nhất quán hay là kỹ thuật khác?

Xem bản gốcTrả lời0

LittleBitcoinInTheReflection

· 5giờ trước

30B-A3B这个 quy mô có thể làm được như vậy, hiệu quả cao hơn nhiều so với GPT-4 đúng không

Xem bản gốcTrả lời0

HalfLifeHodler

· 5giờ trước

Khả năng tổng quát hóa liên lĩnh vực là điều đáng chú ý nhất, đừng lại là việc quá mức dựa vào benchmark.

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
16.23M Phổ biến
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.69K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.57K Phổ biến
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Phổ biến
#
MicronMarketCapBreaks1Trillion
36.87K Phổ biến

Đã ghim

sơ đồ trang web

Mô hình suy luận hậu huấn luyện SU-01 đạt hiệu suất huy chương vàng trong các đề thi cấp độ Olympic

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Đã ghim