Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
Suy luận mô hình lớn gồm hai bước: prefill đọc toàn bộ đầu vào một lần, tạo ra một bộ đệm KV; decode sau đó dựa trên bộ đệm này để từng chữ xuất ra kết quả.
Hai bước này yêu cầu đặc tính phần cứng hoàn toàn khác nhau, prefill tiêu tốn sức mạnh tính toán, decode tiêu thụ bộ nhớ GPU và băng thông.
Phương pháp chủ đạo trong ngành là tách hai bước ra các máy khác nhau (PD phân tách), nhưng điều này yêu cầu hai bên kết nối qua RDMA trong cùng một trung tâm dữ liệu, vì bộ đệm KV của mô hình attention tập trung mỗi giây phát ra hàng chục Gbps, nếu truyền chậm GPU sẽ rỗng chạy.
Sự chuyển biến đến từ mô hình attention lai thế hệ mới.
Bài báo thực nghiệm cho thấy các mô hình như Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, qua việc kết hợp một số lớp attention đầy đủ với nhiều lớp tuyến tính, đã giảm xung lượng bộ đệm KV khoảng một cấp độ,
Ring-2.5-1T đạt tỷ lệ nén tổng hợp lên tới 36 lần.
Lúc này, bộ đệm KV có thể chuyển từ mạng riêng RDMA sang mạng Ethernet thông thường để truyền.
Cách thực hiện của PrfaaS: thành lập "cụm tiền điền" độc lập, chỉ định tuyến các yêu cầu có ngữ cảnh dài, tiền tố chưa trúng, còn các yêu cầu ngắn giữ lại trong cụm PD cục bộ;
Sau khi tiền điền hoàn tất, truyền bộ đệm KV về lại cụm cục bộ qua Ethernet để decode.
Kèm theo đó là giới hạn độ dài tuyến đường, bộ điều phối cảm nhận băng thông và bể đệm tiền tố lai.
Bài báo đã thực nghiệm với mô hình hybrid nội bộ 1T tham số (dựa trên kiến trúc Kimi Linear), cho thấy tổng thể qua lại dịch vụ cao hơn 54% so với triển khai PD đồng nhất,
cao hơn 32% so với phương án lai dị hợp đơn thuần, mỗi máy chỉ tiêu thụ băng thông liên trung tâm dữ liệu vừa phải.
(Nguồn: BlockBeats)