Vượt qua ngưỡng mô hình lớn hơn nghìn tỷ tham số trong học tăng cường: mã nguồn mở prime-rl giúp 28 máy chủ huấn luyện 131k ngữ cảnh

robot
Đang tạo bản tóm tắt
ME AI Thông báo, theo theo dõi Beating, Prime Intellect đã phát hành khung đào tạo học tăng cường phân tán phiên bản prime-rl 0.6.0, vượt qua ngưỡng đào tạo RL của mô hình chuyên gia hỗn hợp có hàng nghìn tỷ tham số MoE trong các nhiệm vụ trí tuệ dài hạn.
Mô hình lớn có thể đọc hết 256k văn bản siêu dài không phải là hiếm, nhưng trong đào tạo học tăng cường, để mô hình có thể thực hành suy luận qua thử sai tự động, card đồ họa phải lưu trữ toàn bộ giá trị kích hoạt trung gian khổng lồ trong độ dài 131k suốt quá trình, khiến tiêu thụ bộ nhớ GPU tăng vọt hàng trăm lần.
Trước đây, điều này đòi hỏi một cụm lớn gồm hàng nghìn card đồ họa, nhưng prime-rl 0.6.0 chỉ với 28 máy chủ H200 đã chạy thành công đào tạo RL với ngữ cảnh 131k của GLM-5, thời gian mỗi bước kiểm soát trong vòng 5 phút.
Để giải quyết các nhiệm vụ phức tạp như sinh mã nguồn qua thử sai, trong đó một số nhiệm vụ dài hạn gây tắc nghẽn toàn bộ tiến trình khiến tài nguyên GPU bị bỏ phí lâu dài, khung này đã phá vỡ cơ chế đồng bộ chờ đợi truyền thống, áp dụng kiến trúc RL bất đồng bộ hoàn toàn tách rời.
Trình đào tạo nền trong khi tính toán trọng số mới, không cần chờ đợi kết thúc nhiệm vụ thử sai đang diễn ra, mà trực tiếp cập nhật trong thời gian mô hình sinh văn bản. Các nhiệm vụ đã phân phối tiếp tục sử dụng chiến lược cũ để đảm bảo tốc độ, nhiệm vụ mới thì được chèn KV-cache salt để buộc tái tạo bộ nhớ đệm.
Để giải quyết vấn đề mô hình bị rối loạn logic do không đồng bộ trong cập nhật bất đồng bộ, khung này đã giới thiệu công nghệ routing replay R3, xử lý trực tiếp dữ liệu phân phối chuyên gia ở tầng thấp, tránh độ trễ hệ thống do chuyển đổi dữ liệu, giảm độ không phù hợp giữa hai phía xuống một phần mười, cực kỳ ổn định quá trình đào tạo bất đồng bộ.
Về tối ưu tài nguyên ở tầng thấp, khung này đã giải quyết triệt để vấn đề bộ nhớ GPU bị tràn do văn bản dài, bằng thiết kế tinh vi. Phần suy luận sử dụng kiến trúc tách riêng đọc và ghi tính toán, ngăn chặn mô hình lớn bị kẹt do đọc nhiều phần tiền đề; đồng thời chia sẻ kiến thức chuyên gia qua nhiều GPU, và dùng công nghệ Mooncake để kết hợp bộ nhớ và đĩa cứng còn trống của nhiều máy chủ thành một bộ đệm chia sẻ.
Trong tính toán song song văn bản dài, dựa trên cơ chế chú ý thưa DSA độc đáo của GLM-5, khung này đã tùy chỉnh giải pháp song song riêng, đảm bảo mô hình có thể nhìn toàn cục, đồng thời giảm thiểu chi phí truyền dữ liệu giữa các lớp GPU chỉ còn một lần.
Phần đào tạo kết hợp DeepGEMM để thực hiện kỹ thuật block scaling FP8 do DeepSeek V3 đề xuất, giúp đồng bộ độ chính xác và nhân tính toán giữa đào tạo và suy luận, từ đó loại bỏ hoàn toàn các lỗi do chênh lệch độ chính xác gây ra, tránh sụp đổ trong quá trình huấn luyện.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim