AIMPACT tin nhắn, ngày 16 tháng 5 (UTC+8), một bài báo mới đề xuất phương pháp hệ thống chuyển đổi mô hình suy luận sau huấn luyện thành bộ giải quyết câu đố cấp Olympic, và dựa trên phương pháp này huấn luyện mô hình SU-01. Phương pháp này gồm ba bước: đầu tiên sử dụng khóa học nghịch đảo độ rối loạn để điều chỉnh có giám sát, nhằm truyền đạt hành vi tìm kiếm chứng minh nghiêm ngặt và tự kiểm tra; sau đó mở rộng các hành vi này thông qua học tăng cường hai giai đoạn (từ học tăng cường dựa trên phần thưởng có thể xác minh đến học tăng cường cấp chứng minh); cuối cùng, nâng cao hiệu suất bằng cách phóng to khi kiểm tra. Nhóm nghiên cứu áp dụng phương pháp này cho mô hình nền 30B-A3B, sử dụng khoảng 340.000 đoạn đường dẫn gồm 8K token con để điều chỉnh có giám sát, sau đó thực hiện 200 bước học tăng cường, thu được SU-01. Mô hình này có khả năng suy luận ổn định các vấn đề khó, với độ dài đường dẫn vượt quá 100.000 token, đạt cấp huy chương vàng trong các cuộc thi như IMO 2025/USAMO 2026 và IPhO 2024/2025, đồng thời thể hiện khả năng tổng quát trong lĩnh vực suy luận khoa học ngoài toán học và vật lý. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
10
Đăng lại
Retweed

Bình luận

Thêm một bình luận

GateUser-46c777d0

· 2giờ trước

34万条轨迹 được đưa vào, RL chỉ chạy 200 bước, hiệu quả dữ liệu cao hơn tưởng tượng.

Xem bản gốcTrả lời0

CandlewickKid

· 2giờ trước

Cuộc thi vật lý cũng có thể được mở rộng? Muốn xem nó thể hiện như thế nào trong các bài thiết kế thí nghiệm

Xem bản gốcTrả lời0

RetroRadioWaves

· 2giờ trước

Việc nâng cao quy mô trong quá trình kiểm tra có nghĩa là tính toán quy mô trong thời gian kiểm tra không?

Xem bản gốcTrả lời0

ReflectiveChainShadow

· 2giờ trước

Chi tiết về quỹ đạo 8K này rất thú vị, có phải là chia nhỏ chứng minh dài thành các phần nhỏ để đưa vào không?

Xem bản gốcTrả lời0

ByteSizedAlpha

· 3giờ trước

Khẳng định về khả năng tổng quát hóa liên lĩnh vực này còn rất lớn, chờ các ví dụ cụ thể từ thực tế.

Xem bản gốcTrả lời0

StainedGlassSolarArray

· 3giờ trước

Khả năng tự kiểm tra có thể là yếu tố quan trọng nhất, quan trọng hơn nhiều so với việc đơn thuần tạo ra câu trả lời

Xem bản gốcTrả lời0

StillHereAfterTheRugPull

· 3giờ trước

Tên gọi 30B-A3B, A3B có phải là tham số kích hoạt không?

Xem bản gốcTrả lời0

GateUser-52241ed6

· 3giờ trước

IMO huy chương vàng... sau này cuộc thi có phải sẽ chia thành nhóm con người và nhóm AI không

Xem bản gốcTrả lời0

GateUser-e72657f0

· 3giờ trước

Thiết kế khóa học về độ mơ hồ ngược này thật tuyệt vời, giúp mô hình học cách tự hoài nghi bản thân

Xem bản gốcTrả lời0

GateUser-d2b4d9c6

· 3giờ trước

Chuỗi suy luận 100.000 token, điều này đã không còn là làm bài tập nữa mà là viết luận văn rồi

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
16.23M Phổ biến
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.01K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.57K Phổ biến
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Phổ biến
#
MicronMarketCapBreaks1Trillion
37.03K Phổ biến

Đã ghim

sơ đồ trang web

Mô hình suy luận hậu huấn luyện SU-01 đạt hiệu suất huy chương vàng trong các đề thi cấp Olympic

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Đã ghim