Zyphra phát hành ZAYA1-8B-Diffusion-Preview, chuyển đổi mô hình ngôn ngữ lớn tự hồi quy thành mô hình khuếch tán chuyên gia hỗn hợp, trở thành mô hình ngôn ngữ khuếch tán đầu tiên được huấn luyện trong hệ sinh thái phần cứng AMD. Thông qua TiDAR bỏ qua việc huấn luyện từ đầu, có thể loại bỏ nhiễu cùng lúc cho 16 token trong một lần truyền, biến giới hạn bộ nhớ GPU thành giới hạn sức mạnh tính toán. Thử nghiệm thực tế cho thấy tốc độ tăng 4.6 lần với chú ý CCA + lấy mẫu không mất mát, sau khi chuyển sang bộ lấy mẫu logit hỗn hợp, tăng lên 7.7 lần.

MeNews

2026-05-23 09:07:37

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, Zyphra đã phát hành mô hình phân tán hỗn hợp (MoE) dựa trên mô hình ngôn ngữ lớn tự hồi quy chuyển đổi ZAYA1-8B-Diffusion-Preview. Mặc dù chính thức tự xưng là "mô hình đầu tiên" thực hiện chuyển đổi kiến trúc này trong quảng bá, nhưng tuyến đường này đã được các nhóm như SDAR và LLaDA 2.0 thử nghiệm thành công từ cuối năm ngoái. Nhãn duy nhất thực sự của ZAYA1 là nó là mô hình ngôn ngữ phân tán đầu tiên hoàn thành huấn luyện trong hệ sinh thái phần cứng AMD. Bỏ qua các chiến thuật tiếp thị, mô hình này vẫn chứng minh giá trị nâng cao hiệu quả kỹ thuật của kiến trúc phân tán. Các mô hình tự hồi quy truyền thống bị giới hạn bởi việc sinh từng ký tự theo chuỗi, việc tích lũy KV Cache sẽ khiến tốc độ sinh ra đạt giới hạn vật lý. Như xu hướng ngành đã được tiết lộ gần đây bởi nhóm của He Kai-ming với mô hình phân tán thuần ELF, đồng bộ loại bỏ nhiễu là chìa khóa phá vỡ giới hạn này. ZAYA1 sử dụng giải pháp TiDAR bỏ qua việc huấn luyện từ đầu, có thể đồng thời loại bỏ nhiễu cho 16 token trong một lần truyền tiến, hoàn toàn biến giới hạn băng thông bộ nhớ thành giới hạn tính toán. Thử nghiệm cho thấy, kết hợp cơ chế chú ý CCA riêng của ZAYA1, sử dụng bộ lấy mẫu không mất mát tiêu chuẩn có thể đạt tốc độ tăng 4,6 lần mà không giảm chất lượng sinh. Chuyển sang bộ lấy mẫu logit hỗn hợp, tốc độ tăng còn lên tới 7,7 lần, mang lại không gian giảm chi phí thực chất cho các nhiệm vụ suy luận quy mô lớn đòi hỏi thời gian cao. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
7
2
Retweed

Bình luận

Thêm một bình luận

GateUser-9008328f

· 6giờ trước

TiDAR tiết kiệm chi phí tiền huấn luyện, đủ để huấn luyện bao nhiêu nhiệm vụ phụ trợ

Xem bản gốcTrả lời0

CrystalBallForSentiment

· 6giờ trước

Mô hình ngôn ngữ phân tán cuối cùng cũng không cần nhìn sắc mặt của NV nữa, thật tốt

Xem bản gốcTrả lời0

GateUser-eccf92a1

· 6giờ trước

TiDAR bỏ qua bước tiền huấn luyện thật tiết kiệm, hệ sinh thái AMD cuối cùng cũng có mô hình khuếch tán có thể cạnh tranh rồi

Xem bản gốcTrả lời0

GateUser-4aa73916

· 6giờ trước

Có thể xử lý 16 token trong một lần truyền về, cực kỳ phù hợp với các tình huống nhạy cảm về độ trễ

Xem bản gốcTrả lời0

Semi-MeltedIceCream

· 6giờ trước

CCA Chú ý không mất mát lấy mẫu 4.6x, muốn viết một bài blog kỹ thuật về các chi tiết kỹ thuật

Xem bản gốcTrả lời0

MosaicButterfly

· 6giờ trước

16 token cùng lúc loại bỏ nhiễu, quy đổi bộ nhớ thành sức mạnh tính toán, ý tưởng này rất thân thiện với card dành cho người tiêu dùng

Xem bản gốcTrả lời0

LookingAtTheCandlestickChart

· 6giờ trước

Đào tạo trên AMD thay vì chuyển đổi, quyền phát ngôn về hệ sinh thái bắt đầu thay đổi

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
305.43K Phổ biến
#
PlatinumCardCreatorExclusive
93.44K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.8K Phổ biến
#
#DailyPolymarketHotspot
1.04M Phổ biến
#
GateSquarePizzaDay
1.77M Phổ biến

Đã ghim

sơ đồ trang web

Zyphra phát hành mô hình ngôn ngữ mở rộng đầu tiên trong hệ sinh thái AMD, tăng tốc tối đa 7,7 lần

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim