MLE Bench 66.6% gần bằng Gemini 3.1, đạt mức này với 9.8B tham số cho từng token, chi tiết về kết hợp FIFO theo cửa sổ và cây tiền tố đáng để đọc kỹ, hiệu quả đào tạo chuỗi dài đã được MiniMax xử lý.

Xem bản gốc
BlockBeatNews
Giải mã bài tẩy: MiniMax phát hành báo cáo kỹ thuật M2, mô tả chi tiết hệ thống nền tảng MoE và hệ thống đào tạo Agent
Bài viết tổng hợp báo cáo kỹ thuật dòng M2 của MiniMax, mô tả sự lựa chọn giữa chú ý tuyến tính pha trộn của M1 và chú ý toàn phần, cũng như giảm chi phí trên phía huấn luyện của MTP, Sigmoid routing, Forge. Lần đầu tiên tiết lộ cơ chế tự tiến hóa Forge của Agent RL cho chuỗi dài và M2.7, sử dụng cửa sổ FIFO kết hợp với cây tiền tố, tốc độ huấn luyện có thể tăng gấp 40 lần trên chuỗi dài. Vòng kín tự tiến hóa của M2.7 có thể hoàn thành hơn 100 vòng phân tích, chỉnh sửa mã, chạy đánh giá và quay lại, tăng khoảng 30%. Trong điều kiện 9.8B tham số cho token đơn, SWE-Pro đạt 56.22%, MLE Bench 66.6%, gần bằng Gemini 3.1.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim