Từ chú ý tuyến tính hỗn hợp chuyển trở lại chú ý toàn phần, định tuyến Sigmoid và tối ưu hóa huấn luyện Forge, sự cân nhắc kỹ thuật của M2.7 trên tác vụ Agent RL với chuỗi dài khá thú vị, tăng 30% sau 100 vòng tự tiến hóa vòng kín, dữ liệu này khi đặt trong quy mô 9.8B tham số thực sự rất ấn tượng

Xem bản gốc
BlockBeatNews
Giải mã bài tẩy: MiniMax phát hành báo cáo kỹ thuật M2, mô tả chi tiết hệ thống nền tảng MoE và hệ thống đào tạo Agent
Bài viết tổng hợp báo cáo kỹ thuật dòng M2 của MiniMax, mô tả sự lựa chọn giữa chú ý tuyến tính pha trộn của M1 và chú ý toàn phần, cũng như giảm chi phí trên phía huấn luyện của MTP, Sigmoid routing, Forge. Lần đầu tiên tiết lộ cơ chế tự tiến hóa Forge của Agent RL cho chuỗi dài và M2.7, sử dụng cửa sổ FIFO kết hợp với cây tiền tố, tốc độ huấn luyện có thể tăng gấp 40 lần trên chuỗi dài. Vòng kín tự tiến hóa của M2.7 có thể hoàn thành hơn 100 vòng phân tích, chỉnh sửa mã, chạy đánh giá và quay lại, tăng khoảng 30%. Trong điều kiện 9.8B tham số cho token đơn, SWE-Pro đạt 56.22%, MLE Bench 66.6%, gần bằng Gemini 3.1.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim