Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Một bài báo đã khuấy động thị trường trị giá hàng nghìn tỷ, chip lưu trữ sụp đổ...
Không ai ngờ được, sáng thứ Tư tuần này, khi mở cửa thị trường Mỹ, ngành chip lưu trữ đã trải qua "giờ đen", cổ phiếu của các ông lớn đều giảm mạnh —
Đến cuối ngày, Micron giảm 4%, Western Digital giảm 4.4%, Seagate giảm 5.6%, SanDisk còn giảm mạnh hơn 6.5%.
Nguyên nhân gây ra cơn bán tháo này chính là thuật toán nén TurboQuant do Google phát hành.
Như mọi người đều biết, khi mô hình lớn hoạt động, bộ đệm KV (KV cache) gần như là "quái vật nuốt tiền" trong thế giới bộ nhớ.
Để tránh tính toán lại Token trước đó, LLM duy trì một "khoảng nhớ vận hành", theo thời gian đối thoại càng dài, khoảng nhớ này sẽ nhanh chóng phình to như quả bóng tuyết lăn.
TurboQuant của Google đã đưa ra một giải pháp "bạo lực" cực kỳ tối giản:
Đầu tiên, xoay các vector chiều cao trong bộ đệm KV, sau đó chuyển sang hệ tọa độ cực để mô tả, giảm thiểu chi phí bộ nhớ về 0.
Tiếp theo, dùng chỉ 1-bit không gian bổ sung, đặt vào một "bộ hiệu chỉnh" toán học, giúp loại bỏ chính xác các sai lệch hệ thống do nén gây ra.
Bài báo về TurboQuant sẽ chính thức được trình bày tại ICLR 2026 vào tháng tới.
Kết quả rất ấn tượng: không cần huấn luyện lại, TurboQuant đã nén bộ đệm xuống còn 3-bit điên rồ.
Như vậy, chi phí bộ đệm KV giảm 6 lần, quan trọng hơn, hiệu suất suy luận gần như không bị ảnh hưởng.
Trên H100, so với cơ sở 32-bit, tốc độ tính toán chú ý với 4-bit tăng vọt gấp 8 lần. Không chỉ tiết kiệm không gian, còn chạy nhanh hơn.