Luo Fuli: Các Mô Hình Lớn Bước Vào Thời Kỳ Sau Đào Tạo, Các Đội Ngũ Hàng Đầu Đạt Tỷ Lệ Tính Toán 1:1 cho Giai Đoạn Trước và Sau Đào Tạo

Theo giám sát của Dongcha Beating, Luo Fuli, trưởng nhóm mô hình lớn của Xiaomi, chỉ ra rằng cuộc cạnh tranh trong các mô hình lớn đã chuyển từ thời kỳ Chat do tiền huấn luyện chi phối sang thời kỳ Agent do hậu huấn luyện (Post-train) chi phối. Điểm cạnh tranh cốt lõi hiện tại là ‘làm thế nào để mở rộng hiệu quả học tăng cường (RL) trên các Agent.’ Sự chuyển đổi mô hình này đã dẫn trực tiếp đến việc tái cấu trúc phân bổ tài nguyên tính toán. Luo tiết lộ rằng trong thời kỳ Chat, tỷ lệ tính toán cho nghiên cứu, tiền huấn luyện và hậu huấn luyện là khoảng 3:5:1; còn trong thời kỳ Agent ngày nay, tỷ lệ phân bổ tính toán hợp lý đã trở thành 3:1:1, cho thấy rằng khoản đầu tư tính toán cho tiền huấn luyện và hậu huấn luyện hiện gần như bằng nhau, với các nhóm mô hình hàng đầu đạt tỷ lệ 1:1 trong các khoản đầu tư cho hai lĩnh vực này. Ngoài ra, yêu cầu về kiến trúc hệ thống đã trải qua những thay đổi đáng kể. Trước đây, hạ tầng RL chủ yếu tập trung vào ‘động cơ suy luận mô hình’ xử lý các tính toán văn bản thuần túy; bây giờ, hạ tầng phải tập trung vào ‘Agents,’ hỗ trợ lập lịch phân cụm không đồng nhất và chịu đựng sự mơ hồ của việc Agents bị gián đoạn trong các quy trình phức tạp do các yếu tố không kiểm soát được.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim