Mô hình suy luận hậu huấn luyện SU-01 đạt hiệu suất huy chương vàng trong các đề thi cấp Olympic

robot
Đang tạo bản tóm tắt
AIMPACT tin nhắn, ngày 16 tháng 5 (UTC+8), một bài báo mới đề xuất phương pháp hệ thống chuyển đổi mô hình suy luận sau huấn luyện thành bộ giải quyết câu đố cấp Olympic, và dựa trên phương pháp này huấn luyện mô hình SU-01. Phương pháp này gồm ba bước: đầu tiên sử dụng khóa học độ rối loạn ngược để tinh chỉnh có giám sát, nhằm truyền đạt hành vi tìm kiếm chứng minh nghiêm ngặt và tự kiểm tra; sau đó mở rộng các hành vi này thông qua học tăng cường hai giai đoạn (từ học tăng cường dựa trên phần thưởng có thể xác minh đến học tăng cường cấp chứng minh); cuối cùng, nâng cao hiệu suất bằng cách phóng to khi kiểm tra. Nhóm nghiên cứu áp dụng phương pháp này cho mô hình nền 30B-A3B, sử dụng khoảng 340.000 đoạn đường dẫn gồm 8K token con để tinh chỉnh có giám sát, sau đó thực hiện 200 bước học tăng cường, thu được SU-01. Mô hình này có khả năng suy luận ổn định các vấn đề khó, với độ dài đường dẫn vượt quá 100.000 token, đạt cấp huy chương vàng trong các cuộc thi như IMO 2025/USAMO 2026 và IPhO 2024/2025, và thể hiện khả năng tổng quát trong lĩnh vực suy luận khoa học ngoài toán học và vật lý. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
BlackVelvetKeychain
· 3giờ trước
Khóa học về độ rối loạn ngược này khá thú vị, đã mã hóa kinh nghiệm luyện tập của con người vào trong đó
Xem bản gốcTrả lời0
OrdersPlacedBeforeTheStorm
· 3giờ trước
Cơ chế tự kiểm tra nếu có thể trực quan hóa, quá trình gỡ lỗi và suy luận sẽ thuận tiện hơn nhiều
Xem bản gốcTrả lời0
VinesCoiledIntoGeometricShapes
· 4giờ trước
Cuộc thi vật lý cũng đã được bao phủ, lần này các thí sinh thi vật lý có AI đồng hành luyện tập rồi
Xem bản gốcTrả lời0
BridgeAnxiety
· 4giờ trước
A3B là kiến trúc gì, anh em hiểu biết có thể mở rộng giải thích không?
Xem bản gốcTrả lời0
GateUser-ecf4759e
· 4giờ trước
Việc chọn độ phân giải của quỹ đạo 子8K có những điều cần lưu ý, quá dài sẽ làm quá trình lan truyền gradient bị nổ.
Xem bản gốcTrả lời0
FudAlsoNeedsAnImage
· 4giờ trước
Câu cuối 'suy luận khoa học tổng quát' khiến tôi nghĩ đến nghịch lý Polanyi — chúng ta biết nhiều hơn những gì chúng ta diễn đạt, AI hiện có thể tiếp cận phần trực giác chưa được diễn đạt đó không
Xem bản gốcTrả lời0