Mới đây, DeepSeek V4 cập nhật DSpark, tốc độ suy luận tăng 80%.

robot
Đang tạo bản tóm tắt

Vừa rồi, DeepSeek V4 đã có một bản cập nhật.

Vừa ra mắt khung giải mã đầu cơ (Speculative Decoding) DSpark, đồng thời mã nguồn mở toàn bộ khung giải mã suy đoán hỗ trợ phiên bản này là DeepSpec.

DeepSeek-V4-Pro-DSpark không phải là mô hình kiến trúc hoàn toàn mới, mà là dựa trên DeepSeek-V4-Pro để giới thiệu mô-đun giải mã suy đoán. Trọng tâm của bản cập nhật này là triển khai thực tế, chứ không phải sự lặp lại của năng lực mô hình.

DSpark đã được triển khai trong lưu lượng thực tế trực tuyến của DeepSeek-V4 (Flash và Pro), tăng tốc đáng kể tốc độ suy luận của mô hình ngôn ngữ lớn (LLM).

  • Báo cáo kỹ thuật: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

  • Liên kết báo cáo kỹ thuật: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

Mục đích cốt lõi của DSpark là giải quyết các nút thắt về độ trễ và thông lượng mà suy luận LLM phải đối mặt trong môi trường sản xuất (đặc biệt là trong các kịch bản đồng thời cao). Nói một cách đơn giản, DSpark đã kết hợp thành công "tạo song song" thông lượng cao với "xác thực nhận biết tải" thích ứng.

Giải mã suy đoán là một kỹ thuật tăng tốc suy luận mô hình ngôn ngữ lớn mà không thay đổi phân phối đầu ra của mô hình. Ý tưởng cốt lõi là giới thiệu một "mô hình nháp" nhẹ (draft model), tạo trước một số token ứng cử, sau đó mô hình mục tiêu (target model) xác thực và chấp nhận hàng loạt các ứng cử này, từ đó chuyển đổi tạo tuần tự từng token thành kiểm tra song song hàng loạt, giảm đáng kể độ trễ đầu cuối.

Trên cơ sở đó, sự đổi mới của DSpark nằm ở việc giới thiệu kiến trúc tạo bán tự hồi quy (Semi-Autoregressive Generation): nó giữ lại lợi thế thông lượng cao của mô hình nháp song song, đồng thời thêm mô-đun tuần tự nhẹ để mô hình hóa sự phụ thuộc giữa các token trong block, nhằm giảm thiểu vấn đề suy giảm tỷ lệ chấp nhận mà mô hình nháp song song dễ gặp phải ở các vị trí sau.

Ngoài ra còn có xác thực lịch trình độ tin cậy nhận biết phần cứng (Confidence-Scheduled Verification): giải mã suy đoán trước đây thường mù quáng gửi tất cả các token nháp được tạo ra để xác thực, khi hệ thống tải cao, các token đuôi rất có khả năng bị từ chối sẽ lãng phí nghiêm trọng sức mạnh tính toán xử lý hàng loạt quý giá. DSpark giới thiệu một đầu độ tin cậy (Confidence Head) để đánh giá xác suất sống sót của mỗi token. Kết hợp với bộ lập lịch tiền tố nhận biết phần cứng, hệ thống có thể động điều chỉnh độ dài xác thực tối ưu cho từng yêu cầu dựa trên đặc điểm thông lượng động cơ thời gian thực, chỉ phân bổ sức mạnh tính toán cho các token có lợi nhuận kỳ vọng cao nhất.

Để triển khai trong cơ sở hạ tầng trực tuyến thực tế, bộ lập lịch của DSpark sử dụng cơ chế không đồng bộ để tương thích với lập lịch không chi phí (ZOS) và phát lại đồ thị CUDA liên tục. Nó sử dụng dự đoán lịch sử của hai bước trước để quyết định độ dài cắt động hiện tại, từ đó ẩn độ trễ lập lịch, tránh dừng pipeline GPU, đồng thời đảm bảo khôi phục hoàn toàn không mất mát phân phối đầu ra của mô hình mục tiêu.

Trong các bài kiểm tra bao gồm nhiều lĩnh vực như suy luận toán học, tạo mã và đối thoại hàng ngày, DSpark vượt trội hơn đáng kể so với mô hình tự hồi quy tiên tiến nhất hiện tại (Eagle3) và mô hình nháp song song (DFlash). Ví dụ, trên các mô hình mục tiêu dòng Qwen3 (4B, 8B, 14B), độ dài chấp nhận trung bình của nó tăng 26,7% đến 30,9% so với Eagle3 và tăng 16,3% đến 18,4% so với DFlash.

So với chuẩn sản xuất đơn token (MTP-1) triển khai thế hệ trước, trong khi duy trì cùng tổng thông lượng, DSpark đã tăng tốc độ tạo của người dùng lần lượt 60%-85% (mô hình Flash) và 57%-78% (mô hình Pro).

Cùng với DSpark, DeepSpec cũng được mã nguồn mở, đây là một thư viện mã toàn diện để đào tạo và đánh giá các mô hình nháp giải mã suy đoán. Nó là "cơ sở hạ tầng mã nguồn mở" chứa đựng giải pháp này và các triển khai thuật toán tiên tiến khác, bao gồm các công cụ chuẩn bị dữ liệu, triển khai mô hình nháp, mã đào tạo và script đánh giá.

DeepSpec chia toàn bộ quy trình thành ba giai đoạn: chuẩn bị dữ liệu, đào tạo và đánh giá. Ba giai đoạn cần được chạy theo thứ tự, đầu ra của giai đoạn trước sẽ là đầu vào của giai đoạn sau.

Trong giai đoạn chuẩn bị dữ liệu, cần tải dữ liệu prompt, sử dụng động cơ suy luận để tạo lại câu trả lời cho mô hình mục tiêu và xây dựng bộ đệm mục tiêu (target cache). Đáng chú ý, với cấu hình mặc định Qwen/Qwen3-4B làm ví dụ, kích thước bộ đệm mục tiêu có thể lên tới khoảng 38 TB, cần đánh giá đầy đủ tài nguyên lưu trữ trước khi sử dụng.

Giai đoạn đào tạo có thể được khởi động thông qua bash scripts/train/train.sh. Script này sẽ gọi train.py và khởi động một worker cho mỗi GPU hiển thị. Người dùng có thể chọn các cấu hình thuật toán và mô hình mục tiêu khác nhau trong thư mục config/ bằng cách chỉ định config_path. Dự án cũng hỗ trợ điều chỉnh cài đặt đào tạo bằng cách ghi đè config_path, target_cache_dir và sử dụng --opts để sửa đổi các trường cấu hình đơn lẻ.

Về phần cứng, cấu hình và script mặc định của DeepSpec hướng đến môi trường 8 thẻ trên một nút. Nếu số lượng GPU ít hơn, người dùng cần giảm số lượng GPU hiển thị trong CUDA_VISIBLE_DEVICES tương ứng.

Giai đoạn đánh giá được khởi động thông qua bash scripts/eval/eval.sh. Script đánh giá sẽ sử dụng checkpoint mô hình nháp đã được đào tạo để đo lường mức độ chấp nhận trên nhiều tác vụ chuẩn giải mã suy đoán. Các bộ dữ liệu đánh giá hiện tại được liệt kê trong dự án bao gồm GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca và Arena-Hard-v2, bao phủ các loại nhiệm vụ khác nhau như suy luận toán học, tạo mã, khả năng đối thoại và hỏi đáp tổng hợp.

Về thuật toán, DeepSpec hiện tích hợp ba mô hình nháp: DSpark, DFlash và Eagle3. Về dòng mô hình mục tiêu, dự án hiện hỗ trợ Qwen3 và Gemma.

Việc mã nguồn mở của DeepSpec tích hợp các thực hành kỹ thuật giải mã suy đoán, trước đây thường rải rác trong các nhóm nghiên cứu, thành một bộ công cụ tiêu chuẩn hóa có thể tái tạo và mở rộng. Đối với các nhà nghiên cứu và kỹ sư muốn tăng tốc suy luận cho mô hình lớn của riêng họ, điều này có nghĩa là họ có thể trực tiếp đào tạo các mô hình nháp tùy chỉnh trên một khung làm việc trưởng thành, bỏ qua nhiều công việc xây dựng cơ sở hạ tầng lặp đi lặp lại.

Bài viết này có nguồn từ: Machine Heart

Tuyên bố rủi ro và điều khoản miễn trách nhiệm

Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không cấu thành lời khuyên đầu tư cá nhân, cũng không xem xét các mục tiêu đầu tư, tình hình tài chính hoặc nhu cầu đặc biệt của từng người dùng. Người dùng nên xem xét liệu bất kỳ ý kiến, quan điểm hoặc kết luận nào trong bài viết này có phù hợp với hoàn cảnh cụ thể của họ hay không. Đầu tư dựa trên bài viết này, tự chịu trách nhiệm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận