TwELL được Sakana AI và NVIDIA mở nguồn, tổ chức dữ liệu theo khối nhỏ (tile), trực tiếp đóng gói dữ liệu hữu ích trong bộ nhớ cục bộ, bỏ qua các tính toán không hiệu quả do kích hoạt gần bằng zero trong FFN, nâng cao hiệu quả song song của GPU. Trong quá trình huấn luyện mô hình 1.5 tỷ tham số, việc điều chỉnh nhẹ đã giảm số lượng neuron hoạt động xuống dưới 2%, bảy nhiệm vụ phụ không thay đổi; tốc độ suy luận tối đa của H100 tăng 30%, huấn luyện tối đa 24%, giảm đỉnh bộ nhớ. Mô hình càng lớn, neuron ngủ càng nhiều, tỷ lệ không-zero của mô hình 2 tỷ tham số thấp hơn 38% so với 500 triệu, lợi ích của các mô hình lớn trong tương lai sẽ càng lớn hơn.

BlockBeatNews

2026-05-10 04:50:47

Đang tạo bản tóm tắt

Theo giám sát Beating, Sakana AI hợp tác với Nvidia đã mở nguồn định dạng dữ liệu thưa tên là TwELL cùng với nhân tăng tốc đi kèm, thành công giúp GPU bỏ qua những phép tính vô hiệu “gần như bằng không” khi chạy các mô hình lớn. Giải pháp này, mà không làm giảm độ chính xác của mô hình, giúp tốc độ suy luận của H100 tăng tối đa 30%, tốc độ huấn luyện tối đa 24%, và tiết kiệm đáng kể bộ nhớ đỉnh điểm.

Các lớp feedforward (FFN) của mô hình lớn tiêu tốn phần lớn tham số và sức mạnh tính toán. Nhưng thực tế, mỗi lần tạo ra văn bản, hơn 80% neuron ở đây đang trong trạng thái “ngủ” (giá trị kích hoạt gần bằng không), không đóng góp gì cho kết quả cuối cùng. Nếu có thể bỏ qua những neuron này, sẽ tiết kiệm được lượng lớn sức mạnh tính toán. Tuy nhiên, GPU hiện đại vốn chỉ giỏi xử lý ma trận dày đặc đều nhau, nếu dùng phương pháp truyền thống để chọn ra dữ liệu hữu ích rải rác, chi phí tìm kiếm và đọc dữ liệu qua lại sẽ tiêu tốn toàn bộ sức mạnh tiết kiệm được.

Định dạng TwELL chính là để phá vỡ lời nguyền phần cứng này. Nó hoàn toàn theo thiết kế theo logic song song của GPU: không còn ghép dữ liệu không-zero theo vùng như phương pháp truyền thống, mà chia dữ liệu thành các khối nhỏ (tile) mà GPU xử lý tốt nhất. Nhờ đó, các lõi tính toán của GPU có thể trực tiếp đóng gói dữ liệu hữu ích tại chỗ, hoàn toàn loại bỏ việc đọc ghi bộ nhớ toàn cục tốn thời gian, hòa nhập hoàn hảo vào chuỗi xử lý tăng tốc của chip hiện đại.

Trong thử nghiệm với mô hình 15 tỷ tham số, chỉ cần thêm một chút chuẩn hóa nhẹ trong huấn luyện, tỷ lệ neuron thực sự cần tính toán đã giảm xuống dưới 2%, và hiệu suất của bảy nhiệm vụ phụ vẫn không giảm. Dữ liệu còn tiết lộ một quy luật: càng lớn tham số của mô hình, neuron ngủ càng nhiều (tỷ lệ không-zero của mô hình 20 tỷ tham số thấp hơn 5 tỷ tham số 38%). Điều này có nghĩa là, trong tương lai khi theo đuổi các mô hình quy mô lớn hơn, tối ưu hóa này dành cho phần cứng nền sẽ mang lại lợi ích hiệu năng đáng kể hơn nữa.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.06M Phổ biến
#
BTCBackAbove80K
59.45M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.63K Phổ biến
#
JapanTokenizesGovernmentBonds
1.91M Phổ biến
#
#DailyPolymarketHotspot
871.3K Phổ biến

Ghim

sơ đồ trang web

Sakana AI hợp tác với Nvidia: giúp GPU bỏ qua 80% tính toán vô hiệu của mô hình lớn, tăng tốc suy luận H100 thêm 30%

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim