ME News tin tức, ngày 23 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, nhóm nghiên cứu Perplexity đã công bố bài báo kỹ thuật, tiết lộ quy trình hậu huấn luyện của tác nhân tìm kiếm web.
Quy trình này dựa trên các mô hình mã nguồn mở Qwen3.5-122B-A10B và Qwen3.5-397B-A17B, áp dụng phương án hai giai đoạn: đầu tiên sử dụng tinh chỉnh có giám sát (SFT) để thiết lập các hành vi cần thiết khi triển khai như tuân thủ chỉ thị, nhất quán ngôn ngữ, sau đó dùng học tăng cường chính sách trực tuyến (RL) để tối ưu độ chính xác tìm kiếm và hiệu quả sử dụng công cụ.
Giai đoạn RL sử dụng thuật toán GRPO, dữ liệu huấn luyện bao gồm hai phần: một là bộ dữ liệu hỏi đáp có thể xác minh đa bước do tự nghiên cứu tổng hợp, bắt đầu từ truy vấn hạt giống nội bộ, xây dựng các câu hỏi yêu cầu suy luận từ 2 đến 4 bước thông qua chuỗi thực thể, và được xác minh tính duy nhất của câu trả lời bởi nhiều bộ giải độc lập; hai là dữ liệu hội thoại tổng quát dựa trên tiêu chí chấm điểm (rubric), chuyển đổi các yêu cầu triển khai như tuân thủ chỉ thị, ràng buộc định dạng thành các điều kiện nguyên tử có thể kiểm tra khách quan, dùng để ngăn chặn hành vi đã thiết lập bởi SFT bị suy thoái trong giai đoạn RL.
Cốt lõi của thiết kế phần thưởng là tổng hợp có cổng: chỉ khi đường cơ sở đúng (trả lời đúng câu hỏi hoặc đáp ứng đầy đủ tiêu chí chấm điểm), điểm ưu tiên mới được tham gia tính toán, ngăn chặn tín hiệu ưu tiên cao che lấp lỗi thực tế. Hình phạt hiệu suất áp dụng phương thức neo trong nhóm, lấy câu trả lời đúng trong cùng nhóm làm chuẩn, áp dụng hình phạt mượt cho số lần gọi công cụ và độ dài sinh vượt quá.
Đánh giá cho thấy Qwen3.5-397B-SFT-RL sau hậu huấn luyện đạt hiệu suất tốt nhất trên nhiều chuẩn tìm kiếm. Trên FRAMES, với một lần gọi công cụ đạt 57.3%, cao hơn GPT-5.4 5.7 điểm phần trăm, cao hơn Sonnet 4.6 4.7 điểm phần trăm. Với ngân sách trung bình (4 lần gọi công cụ) đạt 73.9%, chi phí mỗi truy vấn 2.0 xu Mỹ; trong cùng điều kiện, GPT-5.4 là 67.8% / 8.5 xu Mỹ, Sonnet 4.6 là 62.4% / 15.3 xu Mỹ.
Dữ liệu chi phí được tính theo giá API công khai của các nhà sản xuất, chưa bao gồm tối ưu hóa bộ nhớ đệm.
(Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
SKHynixTopsKOSPIByMarketCap
1,55M Phổ biến
#
MicronEarningsBeatExpectationsSharesRise
211,96K Phổ biến
#
IsraelStrikesIranBTCPlunges
63,79K Phổ biến
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
326,04K Phổ biến
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
557,27K Phổ biến

Đã ghim

sơ đồ trang web

Perplexity công bố phương pháp huấn luyện hậu kỳ cho Agent tìm kiếm, mô hình dựa trên Qwen3.5 vượt qua GPT-5.4 về độ chính xác và chi phí.

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim