Luo Fuli: Mô hình lớn bước vào thời kỳ hậu huấn luyện, năng lực tính toán tiền huấn luyện và hậu huấn luyện của các nhóm hàng đầu đạt tỷ lệ 1:1

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 24 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, chỉ ra rằng cuộc cạnh tranh mô hình lớn đã chuyển từ thời đại Chat do huấn luyện trước chi phối sang thời đại Agent do huấn luyện sau (Post-train) chi phối hoàn toàn. Điểm mấu chốt hiện tại là “làm thế nào để mở rộng học tăng cường (RL) trên Agent một cách hiệu quả”. Sự chuyển đổi mô hình này trực tiếp dẫn đến việc tái cấu trúc phân bổ năng lực tính toán. Lô Phúc Lợi tiết lộ rằng, trong thời đại Chat, tỷ lệ năng lực tính toán dành cho nghiên cứu, huấn luyện trước và huấn luyện sau lần lượt là khoảng 3:5:1; còn trong thời đại Agent ngày nay, tỷ lệ phân bổ năng lực hợp lý trở thành 3:1:1, tức là đầu tư năng lực cho huấn luyện trước và huấn luyện sau đã gần như ngang nhau, hiện tại các nhóm mô hình hàng đầu đã đạt tỷ lệ 1:1 trong hai lĩnh vực này. Đồng thời, yêu cầu về kiến trúc hệ thống cũng đã thay đổi lớn. Trước đây, hạ tầng RL chủ yếu dựa trên “động cơ suy luận mô hình” để xử lý tính toán văn bản thuần túy; bây giờ, hạ tầng phải lấy “Agent” làm trung tâm, hỗ trợ điều phối nhóm phân tán dị hợp và có khả năng chịu đựng tính mơ hồ khi Agent bị gián đoạn do các yếu tố không thể kiểm soát trong quy trình công việc phức tạp. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim