Sakana AI hợp tác với Nvidia: giúp GPU bỏ qua 80% tính toán vô hiệu của mô hình lớn, tăng tốc suy luận H100 thêm 30%

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, Sakana AI hợp tác với Nvidia đã mở nguồn định dạng dữ liệu thưa tên là TwELL cùng với nhân tăng tốc đi kèm, thành công giúp GPU bỏ qua những phép tính vô hiệu “gần như bằng không” khi chạy các mô hình lớn. Giải pháp này, mà không làm giảm độ chính xác của mô hình, giúp tốc độ suy luận của H100 tăng tối đa 30%, tốc độ huấn luyện tối đa 24%, và tiết kiệm đáng kể bộ nhớ đỉnh điểm.

Các lớp feedforward (FFN) của mô hình lớn tiêu tốn phần lớn tham số và sức mạnh tính toán. Nhưng thực tế, mỗi lần tạo ra văn bản, hơn 80% neuron ở đây đang trong trạng thái “ngủ” (giá trị kích hoạt gần bằng không), không đóng góp gì cho kết quả cuối cùng. Nếu có thể bỏ qua những neuron này, sẽ tiết kiệm được lượng lớn sức mạnh tính toán. Tuy nhiên, GPU hiện đại vốn chỉ giỏi xử lý ma trận dày đặc đều nhau, nếu dùng phương pháp truyền thống để chọn ra dữ liệu hữu ích rải rác, chi phí tìm kiếm và đọc dữ liệu qua lại sẽ tiêu tốn toàn bộ sức mạnh tiết kiệm được.

Định dạng TwELL chính là để phá vỡ lời nguyền phần cứng này. Nó hoàn toàn theo thiết kế theo logic song song của GPU: không còn ghép dữ liệu không-zero theo vùng như phương pháp truyền thống, mà chia dữ liệu thành các khối nhỏ (tile) mà GPU xử lý tốt nhất. Nhờ đó, các lõi tính toán của GPU có thể trực tiếp đóng gói dữ liệu hữu ích tại chỗ, hoàn toàn loại bỏ việc đọc ghi bộ nhớ toàn cục tốn thời gian, hòa nhập hoàn hảo vào chuỗi xử lý tăng tốc của chip hiện đại.

Trong thử nghiệm với mô hình 15 tỷ tham số, chỉ cần thêm một chút chuẩn hóa nhẹ trong huấn luyện, tỷ lệ neuron thực sự cần tính toán đã giảm xuống dưới 2%, và hiệu suất của bảy nhiệm vụ phụ vẫn không giảm. Dữ liệu còn tiết lộ một quy luật: càng lớn tham số của mô hình, neuron ngủ càng nhiều (tỷ lệ không-zero của mô hình 20 tỷ tham số thấp hơn 5 tỷ tham số 38%). Điều này có nghĩa là, trong tương lai khi theo đuổi các mô hình quy mô lớn hơn, tối ưu hóa này dành cho phần cứng nền sẽ mang lại lợi ích hiệu năng đáng kể hơn nữa.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim