Kiến trúc TwoTower của NVIDIA nâng cao hiệu suất mô hình lớn với các mô hình 30B song song.

Theo giám sát của Beating, NVIDIA đã mã nguồn mở kiến trúc khuếch tán văn bản rời rạc Nemotron-Labs-TwoTower, nhằm giải quyết nút thắt tốc độ sinh của các mô hình lớn chỉ có thể tạo ra một từ tại một thời điểm. Các mô hình khuếch tán văn bản trước đây buộc một mạng duy nhất phải cân bằng giữa hiểu biết ngữ cảnh một chiều và sửa lỗi song song hai chiều để theo đuổi đầu ra song song, dẫn đến suy giảm đáng kể khả năng nhận thức của mô hình. Kiến trúc TwoTower sử dụng thiết kế tách rời: một mặt, nó đóng băng hoàn toàn một mô hình lớn tự hồi quy đã được huấn luyện trước như một 'tháp ngữ cảnh chỉ đọc' để giữ lại toàn bộ khả năng suy luận và kiến thức thông thường; mặt khác, nó huấn luyện riêng một 'tháp viết khử nhiễu' đọc thông tin ngữ cảnh thông qua cross-attention ở cấp độ lớp. Tháp viết sử dụng cơ chế 'bỏ mặt nạ tin cậy', ưu tiên viết các từ có độ tin cậy cao khi dự đoán một khối, và dần dần lấp đầy các khoảng trống còn lại để đạt được viết song song từ dễ đến khó. Thiết kế này thích ứng trên mô hình kiến trúc hỗn hợp cấp 30B (Mamba-Transformer MoE) chỉ bằng 1/12 dữ liệu tiền huấn luyện của mô hình cơ sở (2,1T token), giữ lại 98,7% chất lượng trong khi cải thiện tốc độ sinh thực tế lên 2,42 lần, mà không thêm chi phí bộ nhớ đệm bổ sung. Tuy nhiên, do cần giữ cả hai tháp trong bộ nhớ, bộ nhớ tĩnh của mô hình đã tăng lên, và vẫn có sự suy giảm độ chính xác nhẹ trong các suy luận toán học và mã cực kỳ phức tạp.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim