Zyphra phát hành mô hình ngôn ngữ mở rộng đầu tiên trong hệ sinh thái AMD, tăng tốc tối đa 7,7 lần

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 15 tháng 5 (UTC+8), theo theo dõi Beating của Dongcha, Zyphra đã phát hành mô hình phân tán hỗn hợp (MoE) dựa trên mô hình ngôn ngữ lớn tự hồi quy chuyển đổi ZAYA1-8B-Diffusion-Preview. Mặc dù chính thức tự xưng là "mô hình đầu tiên" thực hiện chuyển đổi kiến trúc này trong quảng bá, nhưng tuyến đường này đã được các nhóm như SDAR và LLaDA 2.0 thử nghiệm thành công từ cuối năm ngoái. Nhãn duy nhất thực sự của ZAYA1 là nó là mô hình ngôn ngữ phân tán đầu tiên hoàn thành huấn luyện trong hệ sinh thái phần cứng AMD. Bỏ qua các chiến thuật tiếp thị, mô hình này vẫn chứng minh giá trị nâng cao hiệu quả kỹ thuật của kiến trúc phân tán. Các mô hình tự hồi quy truyền thống bị giới hạn bởi việc sinh từng ký tự theo chuỗi, việc tích lũy KV Cache sẽ khiến tốc độ sinh ra đạt giới hạn vật lý. Như xu hướng ngành đã được tiết lộ gần đây bởi nhóm của He Kai-ming với mô hình phân tán thuần ELF, đồng bộ loại bỏ nhiễu là chìa khóa phá vỡ giới hạn này. ZAYA1 sử dụng giải pháp TiDAR bỏ qua việc huấn luyện từ đầu, có thể đồng thời loại bỏ nhiễu cho 16 token trong một lần truyền tiến, hoàn toàn biến giới hạn băng thông bộ nhớ thành giới hạn tính toán. Thử nghiệm cho thấy, kết hợp cơ chế chú ý CCA riêng của ZAYA1, sử dụng bộ lấy mẫu không mất mát tiêu chuẩn có thể đạt tốc độ tăng 4,6 lần mà không giảm chất lượng sinh. Chuyển sang bộ lấy mẫu logit hỗn hợp, tốc độ tăng còn lên tới 7,7 lần, mang lại không gian giảm chi phí thực chất cho các nhiệm vụ suy luận quy mô lớn đòi hỏi thời gian cao. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-9008328f
· 6giờ trước
TiDAR tiết kiệm chi phí tiền huấn luyện, đủ để huấn luyện bao nhiêu nhiệm vụ phụ trợ
Xem bản gốcTrả lời0
CrystalBallForSentiment
· 6giờ trước
Mô hình ngôn ngữ phân tán cuối cùng cũng không cần nhìn sắc mặt của NV nữa, thật tốt
Xem bản gốcTrả lời0
GateUser-eccf92a1
· 6giờ trước
TiDAR bỏ qua bước tiền huấn luyện thật tiết kiệm, hệ sinh thái AMD cuối cùng cũng có mô hình khuếch tán có thể cạnh tranh rồi
Xem bản gốcTrả lời0
GateUser-4aa73916
· 6giờ trước
Có thể xử lý 16 token trong một lần truyền về, cực kỳ phù hợp với các tình huống nhạy cảm về độ trễ
Xem bản gốcTrả lời0
Semi-MeltedIceCream
· 6giờ trước
CCA Chú ý không mất mát lấy mẫu 4.6x, muốn viết một bài blog kỹ thuật về các chi tiết kỹ thuật
Xem bản gốcTrả lời0
MosaicButterfly
· 6giờ trước
16 token cùng lúc loại bỏ nhiễu, quy đổi bộ nhớ thành sức mạnh tính toán, ý tưởng này rất thân thiện với card dành cho người tiêu dùng
Xem bản gốcTrả lời0
LookingAtTheCandlestickChart
· 6giờ trước
Đào tạo trên AMD thay vì chuyển đổi, quyền phát ngôn về hệ sinh thái bắt đầu thay đổi
Xem bản gốcTrả lời0
  • Đã ghim