Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Cổ phiếu Hàn Quốc
SK Hynix
Giao dịch cổ phiếu Hàn Quốc thực và đầu tư vào các tài sản phổ biến
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Trung tâm tài sản VIP
Kế hoạch tăng trưởng tài sản cao cấp
Gate Wealth
Nắm quyền kiểm soát tương lai tài chính của bạn
Quỹ định lượng
Chiến lược định lượng hàng đầu
Staking
Stake tiền điện tử để kiếm tiền từ các sản phẩm PoS
Đòn bẩy thông minh
Đòn bẩy không thanh lý
USD1 Lãi 8%/năm
Không khóa, tự do giao dịch.
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
Mới đây, DeepSeek V4 cập nhật DSpark, tốc độ suy luận tăng 80%.
Vừa rồi, DeepSeek V4 đã có một bản cập nhật.
Vừa ra mắt khung giải mã đầu cơ (Speculative Decoding) DSpark, đồng thời mã nguồn mở toàn bộ khung giải mã suy đoán hỗ trợ phiên bản này là DeepSpec.
DeepSeek-V4-Pro-DSpark không phải là mô hình kiến trúc hoàn toàn mới, mà là dựa trên DeepSeek-V4-Pro để giới thiệu mô-đun giải mã suy đoán. Trọng tâm của bản cập nhật này là triển khai thực tế, chứ không phải sự lặp lại của năng lực mô hình.
DSpark đã được triển khai trong lưu lượng thực tế trực tuyến của DeepSeek-V4 (Flash và Pro), tăng tốc đáng kể tốc độ suy luận của mô hình ngôn ngữ lớn (LLM).
Báo cáo kỹ thuật: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
Liên kết báo cáo kỹ thuật: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
Mục đích cốt lõi của DSpark là giải quyết các nút thắt về độ trễ và thông lượng mà suy luận LLM phải đối mặt trong môi trường sản xuất (đặc biệt là trong các kịch bản đồng thời cao). Nói một cách đơn giản, DSpark đã kết hợp thành công "tạo song song" thông lượng cao với "xác thực nhận biết tải" thích ứng.
Giải mã suy đoán là một kỹ thuật tăng tốc suy luận mô hình ngôn ngữ lớn mà không thay đổi phân phối đầu ra của mô hình. Ý tưởng cốt lõi là giới thiệu một "mô hình nháp" nhẹ (draft model), tạo trước một số token ứng cử, sau đó mô hình mục tiêu (target model) xác thực và chấp nhận hàng loạt các ứng cử này, từ đó chuyển đổi tạo tuần tự từng token thành kiểm tra song song hàng loạt, giảm đáng kể độ trễ đầu cuối.
Trên cơ sở đó, sự đổi mới của DSpark nằm ở việc giới thiệu kiến trúc tạo bán tự hồi quy (Semi-Autoregressive Generation): nó giữ lại lợi thế thông lượng cao của mô hình nháp song song, đồng thời thêm mô-đun tuần tự nhẹ để mô hình hóa sự phụ thuộc giữa các token trong block, nhằm giảm thiểu vấn đề suy giảm tỷ lệ chấp nhận mà mô hình nháp song song dễ gặp phải ở các vị trí sau.
Ngoài ra còn có xác thực lịch trình độ tin cậy nhận biết phần cứng (Confidence-Scheduled Verification): giải mã suy đoán trước đây thường mù quáng gửi tất cả các token nháp được tạo ra để xác thực, khi hệ thống tải cao, các token đuôi rất có khả năng bị từ chối sẽ lãng phí nghiêm trọng sức mạnh tính toán xử lý hàng loạt quý giá. DSpark giới thiệu một đầu độ tin cậy (Confidence Head) để đánh giá xác suất sống sót của mỗi token. Kết hợp với bộ lập lịch tiền tố nhận biết phần cứng, hệ thống có thể động điều chỉnh độ dài xác thực tối ưu cho từng yêu cầu dựa trên đặc điểm thông lượng động cơ thời gian thực, chỉ phân bổ sức mạnh tính toán cho các token có lợi nhuận kỳ vọng cao nhất.
Để triển khai trong cơ sở hạ tầng trực tuyến thực tế, bộ lập lịch của DSpark sử dụng cơ chế không đồng bộ để tương thích với lập lịch không chi phí (ZOS) và phát lại đồ thị CUDA liên tục. Nó sử dụng dự đoán lịch sử của hai bước trước để quyết định độ dài cắt động hiện tại, từ đó ẩn độ trễ lập lịch, tránh dừng pipeline GPU, đồng thời đảm bảo khôi phục hoàn toàn không mất mát phân phối đầu ra của mô hình mục tiêu.
Trong các bài kiểm tra bao gồm nhiều lĩnh vực như suy luận toán học, tạo mã và đối thoại hàng ngày, DSpark vượt trội hơn đáng kể so với mô hình tự hồi quy tiên tiến nhất hiện tại (Eagle3) và mô hình nháp song song (DFlash). Ví dụ, trên các mô hình mục tiêu dòng Qwen3 (4B, 8B, 14B), độ dài chấp nhận trung bình của nó tăng 26,7% đến 30,9% so với Eagle3 và tăng 16,3% đến 18,4% so với DFlash.
So với chuẩn sản xuất đơn token (MTP-1) triển khai thế hệ trước, trong khi duy trì cùng tổng thông lượng, DSpark đã tăng tốc độ tạo của người dùng lần lượt 60%-85% (mô hình Flash) và 57%-78% (mô hình Pro).
Cùng với DSpark, DeepSpec cũng được mã nguồn mở, đây là một thư viện mã toàn diện để đào tạo và đánh giá các mô hình nháp giải mã suy đoán. Nó là "cơ sở hạ tầng mã nguồn mở" chứa đựng giải pháp này và các triển khai thuật toán tiên tiến khác, bao gồm các công cụ chuẩn bị dữ liệu, triển khai mô hình nháp, mã đào tạo và script đánh giá.
DeepSpec chia toàn bộ quy trình thành ba giai đoạn: chuẩn bị dữ liệu, đào tạo và đánh giá. Ba giai đoạn cần được chạy theo thứ tự, đầu ra của giai đoạn trước sẽ là đầu vào của giai đoạn sau.
Trong giai đoạn chuẩn bị dữ liệu, cần tải dữ liệu prompt, sử dụng động cơ suy luận để tạo lại câu trả lời cho mô hình mục tiêu và xây dựng bộ đệm mục tiêu (target cache). Đáng chú ý, với cấu hình mặc định Qwen/Qwen3-4B làm ví dụ, kích thước bộ đệm mục tiêu có thể lên tới khoảng 38 TB, cần đánh giá đầy đủ tài nguyên lưu trữ trước khi sử dụng.
Giai đoạn đào tạo có thể được khởi động thông qua bash scripts/train/train.sh. Script này sẽ gọi train.py và khởi động một worker cho mỗi GPU hiển thị. Người dùng có thể chọn các cấu hình thuật toán và mô hình mục tiêu khác nhau trong thư mục config/ bằng cách chỉ định config_path. Dự án cũng hỗ trợ điều chỉnh cài đặt đào tạo bằng cách ghi đè config_path, target_cache_dir và sử dụng --opts để sửa đổi các trường cấu hình đơn lẻ.
Về phần cứng, cấu hình và script mặc định của DeepSpec hướng đến môi trường 8 thẻ trên một nút. Nếu số lượng GPU ít hơn, người dùng cần giảm số lượng GPU hiển thị trong CUDA_VISIBLE_DEVICES tương ứng.
Giai đoạn đánh giá được khởi động thông qua bash scripts/eval/eval.sh. Script đánh giá sẽ sử dụng checkpoint mô hình nháp đã được đào tạo để đo lường mức độ chấp nhận trên nhiều tác vụ chuẩn giải mã suy đoán. Các bộ dữ liệu đánh giá hiện tại được liệt kê trong dự án bao gồm GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca và Arena-Hard-v2, bao phủ các loại nhiệm vụ khác nhau như suy luận toán học, tạo mã, khả năng đối thoại và hỏi đáp tổng hợp.
Về thuật toán, DeepSpec hiện tích hợp ba mô hình nháp: DSpark, DFlash và Eagle3. Về dòng mô hình mục tiêu, dự án hiện hỗ trợ Qwen3 và Gemma.
Việc mã nguồn mở của DeepSpec tích hợp các thực hành kỹ thuật giải mã suy đoán, trước đây thường rải rác trong các nhóm nghiên cứu, thành một bộ công cụ tiêu chuẩn hóa có thể tái tạo và mở rộng. Đối với các nhà nghiên cứu và kỹ sư muốn tăng tốc suy luận cho mô hình lớn của riêng họ, điều này có nghĩa là họ có thể trực tiếp đào tạo các mô hình nháp tùy chỉnh trên một khung làm việc trưởng thành, bỏ qua nhiều công việc xây dựng cơ sở hạ tầng lặp đi lặp lại.
Bài viết này có nguồn từ: Machine Heart
Tuyên bố rủi ro và điều khoản miễn trách nhiệm