Perplexity công bố phương pháp huấn luyện sau Agent tìm kiếm, mô hình dựa trên Qwen3.5 vượt qua GPT-5.4 về độ chính xác và chi phí.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 23 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, nhóm nghiên cứu Perplexity đã công bố bài viết kỹ thuật, tiết lộ quy trình huấn luyện hậu kỳ của agent tìm kiếm web. Quy trình này dựa trên các mô hình nguồn mở Qwen3.5-122B-A10B và Qwen3.5-397B-A17B, sử dụng phương án hai giai đoạn: đầu tiên dùng tinh chỉnh có giám sát (SFT) để thiết lập các hành vi cần thiết cho triển khai như tuân thủ chỉ dẫn, nhất quán ngôn ngữ; sau đó dùng học tăng cường chính sách trực tuyến (RL) để tối ưu hóa độ chính xác tìm kiếm và hiệu quả sử dụng công cụ. Giai đoạn RL sử dụng thuật toán GRPO, dữ liệu huấn luyện gồm hai phần: một là tập dữ liệu hỏi đáp có thể xác minh đa bước tự nghiên cứu tổng hợp, bắt đầu từ truy vấn hạt giống nội bộ, xây dựng các câu hỏi yêu cầu suy luận từ 2 đến 4 bước thông qua chuỗi thực thể, và được nhiều bộ giải độc lập xác minh tính duy nhất của câu trả lời; hai là dữ liệu đối thoại tổng quát dựa trên tiêu chí đánh giá (rubric), chuyển đổi các yêu cầu triển khai như tuân thủ chỉ dẫn, ràng buộc định dạng thành các điều kiện nguyên tử có thể kiểm tra khách quan, dùng để ngăn chặn suy thoái hành vi do SFT thiết lập trong giai đoạn RL. Cốt lõi của thiết kế phần thưởng là tổng hợp có cổng: chỉ khi đường cơ sở đúng (trả lời đúng hỏi đáp hoặc đáp ứng tất cả tiêu chí), điểm ưu tiên mới tham gia tính toán, ngăn tín hiệu ưu tiên cao che lấp lỗi thực tế. Phạt hiệu quả sử dụng phương pháp neo trong nhóm, lấy câu trả lời đúng trong cùng nhóm làm chuẩn, áp dụng phạt mượt cho số lần gọi công cụ và độ dài sinh vượt quá. Đánh giá cho thấy Qwen3.5-397B-SFT-RL sau huấn luyện đạt hiệu suất tốt nhất trên nhiều chuẩn tìm kiếm. Trên FRAMES, một lần gọi công cụ đạt 57,3%, cao hơn GPT-5.4 5,7 điểm phần trăm, cao hơn Sonnet 4.6 4,7 điểm phần trăm. Với ngân sách trung bình (4 lần gọi công cụ) đạt 73,9%, chi phí mỗi truy vấn 2,0 cent; cùng điều kiện, GPT-5.4 là 67,8% / 8,5 cent, Sonnet 4.6 là 62,4% / 15,3 cent. Dữ liệu chi phí được tính theo giá API công khai của các nhà cung cấp, chưa bao gồm tối ưu hóa bộ nhớ đệm. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận