Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Cursor công bố công nghệ tối ưu hóa suy luận MoE Warp Decode, tăng throughput trên GPU Blackwell lên 1.84 lần
Theo dõi từ 1M AI News, công cụ lập trình AI Cursor đã công bố một bài blog kỹ thuật, giới thiệu phương pháp tăng tốc suy luận MoE (mô hình chuyên gia hỗn hợp) do hãng tự nghiên cứu tên Warp Decode. Phương pháp này hướng tới kịch bản sinh token theo lô nhỏ trên GPU Nvidia Blackwell, đảo ngược chiến lược song song truyền thống lấy chuyên gia làm trung tâm sang chiến lược lấy đầu ra làm trung tâm: trong GPU, mỗi warp (đơn vị lịch trình tối thiểu gồm 32 tác vụ xử lý song song) chỉ chịu trách nhiệm tính toán một giá trị đầu ra, độc lập duyệt qua tất cả các chuyên gia được định tuyến tới và hoàn thành phép cộng trong thanh ghi, không cần đồng bộ giữa các warp hay bộ đệm trung gian.
Pipeline suy luận MoE truyền thống có tổng cộng 8 giai đoạn, trong đó 5 giai đoạn chỉ dùng để chuyển dữ liệu cho các “góc nhìn” của chuyên gia, không thực hiện tính toán thực sự. Warp Decode nén toàn bộ lớp tính toán MoE thành 2 CUDA kernel, loại bỏ các bước trung gian như đệm (padding), phân tán (scatter), hợp nhất (gather), v.v.; với mỗi token, giảm hơn 32KB thao tác đọc/ghi cho bộ đệm trung gian.
Trên GPU Nvidia B200, với mô hình phong cách Qwen-3 đo thực nghiệm, Warp Decode đạt mức tăng 1,84 lần về thông lượng giải mã đầu-cuối, và do tính toán toàn trình bằng độ chính xác BF16/FP32, đồng thời tránh được tổn thất do lượng tử hóa trung gian, độ chính xác đầu ra gần gấp 1,4 lần so với mốc FP32 của đường truyền truyền thống. Về hiệu quả sử dụng băng thông phần cứng, khi kích thước lô là 32, thông lượng liên tục đạt 3,95 TB/s, tương đương khoảng 58% so với băng thông đỉnh của B200 (6,8 TB/s). Tối ưu này trực tiếp tăng tốc quá trình phát triển và lặp phiên bản của mô hình lập trình tự nghiên cứu Composer của Cursor.