Phân tích: Nội dung mã nguồn mở TileKernels phù hợp với các đặc điểm kỹ thuật kiến trúc V4 của Yifan Zhang

Theo giám sát của Dongcha Beating, thư viện hạt nhân TileKernels do DeepSeek mã nguồn mở tương ứng theo nhiều cách với các đặc điểm kỹ thuật kiến trúc V4 đã được Yifan Zhang tiết lộ trước đó. Zhang cho biết các kết nối dư của V4 sử dụng Hyper-Connections. TileKernels mã nguồn mở có tính năng mHC (Hyper-Connections hạn chế đa dạng ), là phiên bản cải tiến của HC do nhóm Byte Seed đề xuất vào năm 2024, nhằm giải quyết vấn đề phân kỳ tín hiệu gặp phải trong quá trình huấn luyện quy mô lớn với HC ban đầu. mHC tự nó là một loại Hyper-Connections, vì HC ban đầu không thể hỗ trợ huấn luyện quy mô lớn ổn định; do đó, mHC có khả năng là thứ thực sự được sử dụng trong V4. Zhang đề cập rằng V4 sử dụng Fused MoE Mega-Kernel để quản lý 384 kích hoạt chuyên gia trên 6 lớp MoE, trong khi mô-đun MoE trong TileKernels bao gồm lựa chọn chuyên gia Top-k, ánh xạ token đến chuyên gia, và phân phối cũng như thu thập các chuyên gia hợp nhất. TileKernels cũng chứa kernel Engram, là một mô-đun bộ nhớ điều kiện được đề xuất trong một bài báo của DeepSeek đầu năm nay, nhưng Engram không được đề cập trong các đặc điểm kỹ thuật V4 của Zhang. Thư viện hỗ trợ SM90 (Hopper) và SM100 (Blackwell), nhưng không hỗ trợ Huawei Ascend. Trước đó, The Information đưa tin rằng V4 đã được huấn luyện trên Blackwell, và DeepSeek đã dành nhiều tháng để thích nghi mô hình cho các chip Huawei và Cambricon.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim