Xiaomi tiết lộ chi tiết huấn luyện mô hình 1T MiMo-V2-Pro: sử dụng hàng nghìn card, không cấp bậc, không thời hạn.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo theo dõi của Beating, trưởng nhóm mô hình lớn Xiaomi Luo Fuli trong cuộc phỏng vấn chuyên sâu đầu tiên đã tiết lộ rằng tổng số tham số cơ sở của mô hình MiMo-V2-Pro lên tới 1T, quá trình đào tạo sử dụng hàng nghìn GPU. Cô cho rằng quy mô 1T hiện là ngưỡng tối thiểu để đạt được mức độ gần với Claude Opus 4.6 và có được tấm vé tham gia cạnh tranh Agent giai đoạn tiếp theo. Về mặt kỹ thuật, phiên bản Pro đẩy tỷ lệ giữa chú ý toàn cục và chú ý cửa sổ trượt lên tỷ lệ thưa thớt cực đại 7:1, kiểm soát chi phí suy luận văn bản dài khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (Dự đoán đa token) để tận dụng tài nguyên tính toán dư thừa nhằm tăng tốc suy luận. Về mặt quản lý, trong nhóm MiMo quy mô trăm người, chỉ có ba bốn mươi người trực tiếp tham gia vào quá trình lặp cốt lõi, nhóm không thiết lập cấp bậc, cũng không có sự phân chia nhóm rõ ràng và thời hạn giao hàng. Khi gặp các vấn đề số liệu không ổn định như nhảy loss trong quá trình huấn luyện, nhóm sẽ chọn dừng đào tạo trực tiếp để kiểm tra, thậm chí dừng máy một hai tuần, tiêu tốn hàng triệu chi phí tính toán. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim