Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Yifan Zhang tiết lộ thông số kỹ thuật đầy đủ của DeepSeek V4: 1.6T tham số, 384 chuyên gia kích hoạt 6 cái
Theo giám sát Beating, tiến sĩ sinh viên Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X.
Anh ấy đã thông báo vào ngày 19 tháng 4 về “V4 tuần tới” và liệt kê tên ba thành phần kiến trúc, tối nay đã cung cấp bảng tham số đầy đủ, đồng thời lần đầu tiên tiết lộ có một phiên bản nhẹ V4-Lite với 285 tỷ tham số.
Tổng tham số của V4 là 1.6T.
Cơ chế chú ý là DSA2, kết hợp hai phương pháp chú ý thưa Sparse Attention mà DeepSeek đã sử dụng trong V3.2 là DSA (DeepSeek Sparse Attention) và NSA (Native Sparse Attention) được đề xuất trong bài báo đầu năm nay, head-dim 512, phối hợp với Sparse MQA và SWA (chú ý cửa sổ trượt).
Lớp MoE gồm 384 chuyên gia, mỗi lần kích hoạt 6, sử dụng Fused MoE Mega-Kernel.
Kết nối dư được duy trì bằng Hyper-Connections.
Các chi tiết lần đầu tiết lộ về phía huấn luyện bao gồm:
Bộ tối ưu hóa dùng Muon (một loại tối ưu hóa ma trận áp dụng phương pháp Newton-Schulz để orthogonal hóa trong cập nhật động lượng),
Chiều dài ngữ cảnh tiền huấn luyện 32K,
Trong giai đoạn học tăng cường dùng GRPO và thêm điều chỉnh KL divergence.
Chiều dài ngữ cảnh cuối cùng mở rộng đến 1 triệu.
Chế độ là văn bản thuần túy.
Zhang không đảm nhiệm vị trí tại DeepSeek, phía chính thức của DeepSeek chưa phản hồi về các thông tin trên.