Nhóm phát triển mô hình lớn của Xiaomi cho biết, cuộc cạnh tranh đã chuyển từ thời đại Chat chủ yếu dựa vào tiền huấn luyện sang thời đại Agent chủ yếu dựa vào huấn luyện sau, trọng tâm là mở rộng quy mô của học tăng cường trên Agent. Phân bổ tính toán đã thay đổi từ 3:5:1 (nghiên cứu / tiền huấn luyện / hậu huấn luyện) thành 3:1:1, hai khoản đầu tư gần như bằng nhau, các nhóm hàng đầu đã đạt tỷ lệ 1:1. Cơ sở hạ tầng cũng đã chuyển từ trung tâm là động cơ suy luận sang trung tâm là Agent, cần hỗ trợ lập lịch phân phối cụm không đồng nhất và chịu đựng các gián đoạn không kiểm soát được của Agent trong luồng công việc.

MeNews

2026-04-24 06:20:36

Đang tạo bản tóm tắt

Tin tức ME News, ngày 24 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, chỉ ra rằng cuộc cạnh tranh mô hình lớn đã chuyển từ thời đại Chat do huấn luyện trước chi phối sang thời đại Agent do huấn luyện sau (Post-train) chi phối hoàn toàn. Điểm mấu chốt hiện tại là “làm thế nào để mở rộng học tăng cường (RL) trên Agent một cách hiệu quả”. Sự chuyển đổi mô hình này trực tiếp dẫn đến việc tái cấu trúc phân bổ năng lực tính toán. Lô Phúc Lợi tiết lộ rằng, trong thời đại Chat, tỷ lệ năng lực tính toán dành cho nghiên cứu, huấn luyện trước và huấn luyện sau lần lượt là khoảng 3:5:1; còn trong thời đại Agent ngày nay, tỷ lệ phân bổ năng lực hợp lý trở thành 3:1:1, tức là đầu tư năng lực cho huấn luyện trước và huấn luyện sau đã gần như ngang nhau, hiện tại các nhóm mô hình hàng đầu đã đạt tỷ lệ 1:1 trong hai lĩnh vực này. Đồng thời, yêu cầu về kiến trúc hệ thống cũng đã thay đổi lớn. Trước đây, hạ tầng RL chủ yếu dựa trên “động cơ suy luận mô hình” để xử lý tính toán văn bản thuần túy; bây giờ, hạ tầng phải lấy “Agent” làm trung tâm, hỗ trợ điều phối nhóm phân tán dị hợp và có khả năng chịu đựng tính mơ hồ khi Agent bị gián đoạn do các yếu tố không thể kiểm soát trong quy trình công việc phức tạp. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
149.2K Phổ biến
#
CryptoMarketSeesVolatility
216.62K Phổ biến
#
IsraelStrikesIranBTCPlunges
31.2K Phổ biến
#
rsETHAttackUpdate
66.03K Phổ biến
#
US-IranTalksStall
250.06K Phổ biến

Ghim

sơ đồ trang web

Luo Fuli: Mô hình lớn bước vào thời kỳ hậu huấn luyện, năng lực tính toán tiền huấn luyện và hậu huấn luyện của các nhóm hàng đầu đạt tỷ lệ 1:1

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim