Mạng residual xem như là loại bỏ nhiễu rời rạc, ghép điểm phù hợp để huấn luyện theo khối, không cần giao tiếp giữa các khối vẫn có thể huấn luyện, áp lực bộ nhớ nhỏ hơn rất nhiều.

Xem bản gốc
MeNews
DiffusionBlocks phân khối huấn luyện có thể giảm bộ nhớ của mạng nơ-ron xuống còn 1/B, xác nhận hiệu suất trên nhiều kiến trúc khác nhau
DiffusionBlocks sẽ phân chia mạng dựa trên Transformer thành các khối độc lập có thể huấn luyện, xem mạng residual như một bước loại bỏ nhiễu rời rạc, sử dụng phân số phù hợp để thực hiện huấn luyện cấp khối mà không cần giao tiếp giữa các khối, giảm đáng kể bộ nhớ huấn luyện. Thử nghiệm chứng minh hiệu quả trên nhiều kiến trúc, trong giai đoạn suy luận mỗi bước chỉ kích hoạt một khối, 12 lớp DiT (B=3) giảm công suất tính toán xuống một phần ba so với ban đầu. Phương pháp này phù hợp với ViT/DiT/MDM/AR Transformer và các mô hình khác, nhưng yêu cầu đầu vào và đầu ra phù hợp về kích thước, không thể sử dụng cho U-Net.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim