Phân tích: Nội dung mã nguồn mở của TileKernels trùng khớp nhiều điểm với các đặc điểm kiến trúc V4 mà Yifan Zhang đã tiết lộ trước đó

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, thư viện lõi TileKernels mã nguồn mở của DeepSeek có nhiều điểm tương ứng với các đặc điểm của kiến trúc V4 do Yifan Zhang tiết lộ trước đó.

Zhang cho biết V4 sử dụng kết nối dư Hyper-Connections. Thư viện mã nguồn mở TileKernels là mHC (Manifold-Constrained Hyper-Connections), đây là phiên bản cải tiến của HC do DeepSeek đề xuất cho nhóm Seed của Byte năm 2024, kết hợp thêm ma trận ngẫu nhiên đôi để giải quyết vấn đề phân kỳ tín hiệu khi huấn luyện quy mô lớn của HC ban đầu. mHC là một dạng của Hyper-Connections, HC nguyên thủy không thể hỗ trợ huấn luyện quy mô lớn ổn định, V4 thực tế sử dụng chính là mHC. Zhang nói rằng V4 dùng Fused MoE Mega-Kernel để quản lý 384 chuyên gia kích hoạt 6 trong lớp MoE, mô-đun MoE của TileKernels bao gồm lựa chọn chuyên gia Top-k, ánh xạ token đến chuyên gia và phân phối, thu thập chuyên gia hợp nhất.

TileKernels còn bao gồm lõi Engram, đây là module ghi nhớ điều kiện được đề xuất trong bài báo của DeepSeek tháng 1 năm nay, nhưng trong đặc điểm kỹ thuật V4 của Zhang không đề cập đến Engram. Thư viện hỗ trợ SM90 (Hopper) và SM100 (Blackwell), không có hỗ trợ của Huawei Ascend. Trước đó, 《The Information》 đưa tin V4 được huấn luyện trên Blackwell, DeepSeek đã dành nhiều tháng để điều chỉnh mô hình phù hợp với chip của Huawei và Cambrian.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim