DeepSeek V4 gấp đôi token so với V3, đối mặt với sự không ổn định từ các ngoại lệ MoE và các đột biến do routing gây ra; hai giải pháp—Routing dự đoán (bị kích hoạt bởi mất mát, ~20% tính toán bổ sung) và Giới hạn SwiGLU (giới hạn kích hoạt)—giải quyết các vấn đề mặc dù nguyên tắc vẫn chưa rõ ràng. Zhang gọi chúng là các miếng dán tạm thời nhưng minh bạch.Tóm tắt: Báo cáo này tổng hợp các thách thức đào tạo của DeepSeek V4 và các chiến lược giảm thiểu. V4-Flash và V4-Pro được huấn luyện trước trên 32T và 33T token, xấp xỉ gấp đôi khoảng 15T của V3, và gặp phải sự không ổn định đáng kể từ các ngoại lệ trong quá trình routing của MoE, với các đột biến mất mát và rollback không hiệu quả. Routing dự đoán tách rời cập nhật chỉ số routing khỏi huấn luyện backbone và tự động kích hoạt khi có đột biến mất mát, với khoảng 20% tính toán bổ sung; Giới hạn SwiGLU hạn chế hoạt động kích hoạt trong phạm vi cố định để giảm thiểu ngoại lệ. Cả hai phương pháp đều hiệu quả, mặc dù các nguyên tắc nền tảng vẫn chưa được hiểu rõ hoàn toàn. Susan Zhang của Google DeepMind gọi những thay đổi này là các miếng dán tạm thời thực dụng trong khi khen ngợi tính minh bạch của dự án.

AirdropBlackHole

2026-04-27 02:14:01

Đang tạo bản tóm tắt

Theo giám sát của Dongcha Beating, báo cáo kỹ thuật cho DeepSeek V4 tiết lộ rằng V4-Flash và V4-Pro đã được huấn luyện trước trên 32T và 33T token tương ứng, gấp đôi khoảng 15T token được sử dụng trong V3. Báo cáo thừa nhận rằng quá trình huấn luyện gặp phải ‘những thách thức về độ ổn định đáng kể,’ với các lần tăng đột biến mất (tăng đột ngột trong mất mát huấn luyện) do các ngoại lệ trong lớp MoE, và cơ chế định tuyến chính nó làm trầm trọng thêm các ngoại lệ này, khiến việc quay lại đơn giản trở nên không hiệu quả. DeepSeek đã xác định hai giải pháp đã được áp dụng trong huấn luyện thực tế: Định tuyến Dự đoán, tách biệt tính toán chỉ số định tuyến khỏi cập nhật mạng chính và tự động kích hoạt chỉ khi phát hiện mất mát đột biến, gây ra thêm khoảng 20% chi phí; và Giới hạn SwiGLU, giới hạn giá trị kích hoạt trong phạm vi cố định để trực tiếp giảm thiểu các ngoại lệ. Báo cáo cho biết cả hai phương pháp đều hiệu quả nhưng thừa nhận rằng ‘nguyên tắc cơ bản vẫn chưa được hiểu rõ hoàn toàn.’ Nhà nghiên cứu của Google DeepMind, Susan Zhang, người trước đây làm việc tại Meta AI và OpenAI, bình luận rằng sự không ổn định do việc tăng gấp đôi dữ liệu huấn luyện ‘giải thích cho sự chậm trễ,’ mô tả hai giải pháp này là ‘băng dán,’ đồng thời xác nhận tính minh bạch về mặt kỹ thuật của DeepSeek.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
286.62K Phổ biến
#
比特币Breaks79K
11.69M Phổ biến
#
IsraelStrikesIranBTCPlunges
34.47K Phổ biến
#
CryptoMarketsRiseBroadly
93.69K Phổ biến
#
WHCADinnerShootingIncident
17.21K Phổ biến

Ghim

sơ đồ trang web

Nhà nghiên cứu của DeepMind suy đoán về việc trì hoãn DeepSeek V4: Dữ liệu huấn luyện tăng gấp đôi lên 33T gây ra sự không ổn định nghiêm trọng

Chủ đề thịnh hành

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Ghim