Sakana AI lần này đã phá vỡ giới hạn bộ nhớ của mô hình sâu, chỉ cần 1/B bộ nhớ là có thể huấn luyện mạng lớn, thí nghiệm còn vượt xa so với phương pháp end-to-end

Xem bản gốc
MeNews
Sakana AI ra mắt DiffusionBlocks, huấn luyện phân khối độc lập giảm bộ nhớ lên đến 1/B lần
Trong ICLR 2026, Sakana AI và Đại học Tokyo đã đề xuất DiffusionBlocks, chia mạng thành các khối và ánh xạ việc cập nhật các khối thành quá trình khử nhiễu ngược của mô hình khuếch tán, thực hiện huấn luyện độc lập theo khối. Trong quá trình huấn luyện, chỉ tải một khối, các khối khác không sử dụng bộ nhớ GPU, giảm bộ nhớ GPU xuống còn 1/B so với ban đầu, vượt qua giới hạn bộ nhớ do độ sâu gây ra. Các thí nghiệm cho thấy trong các nhiệm vụ tạo hình ảnh Transformer thị giác, DiT và tạo văn bản, huấn luyện theo khối có thể sánh ngang hoặc thậm chí vượt qua huấn luyện toàn bộ; đối với Looped Transformer cũng có thể sử dụng cập nhật theo chiều tiến đơn hướng, giảm đáng kể tính toán huấn luyện.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim