Google phát hành ReasoningBank, trí tuệ nhân tạo rút ra chiến lược suy luận từ kinh nghiệm thành công và thất bại

robot
Đang tạo bản tóm tắt
Tin tức ME, ngày 22 tháng 4 (UTC+8), theo theo dõi Beating của Động Trắc, Viện Nghiên cứu Google đã phát hành khung trí nhớ cho trí tuệ nhân tạo ReasoningBank, cho phép các trí tuệ nhân tạo dựa trên mô hình lớn liên tục học hỏi sau khi triển khai. Phương pháp cốt lõi là tổng hợp kinh nghiệm thành công và thất bại của các nhiệm vụ trước đó thành các chiến lược suy luận chung lưu vào bộ nhớ, lần sau gặp nhiệm vụ tương tự sẽ truy xuất rồi thực thi. Bài báo liên quan được công bố tại ICLR, mã nguồn đã mở trên GitHub. Trước đó, hai phương án chính đều có nhược điểm: Synapse ghi lại toàn bộ hành trình hành động, độ phân giải quá nhỏ khó chuyển đổi; Agent Workflow Memory chỉ tổng hợp quy trình làm việc từ các ví dụ thành công. ReasoningBank đã thay đổi hai điểm: đối tượng lưu trữ chuyển từ "chuỗi hành động" sang "mô hình suy luận", mỗi ghi nhớ gồm ba phần cấu trúc: tiêu đề, mô tả, nội dung; cả hành trình thất bại cũng được đưa vào học. Mô hình gọi một mô hình lớn khác tự đánh giá hành trình thực thi, kinh nghiệm thất bại được phân chia thành các quy tắc tránh rủi ro, ví dụ từ "thấy nút Load More thì nhấn" nâng cấp thành "kiểm tra nhận diện trang hiện tại để tránh rơi vào cuộn vô hạn, rồi mới nhấn tải thêm". Bài báo còn đề xuất Memory-aware Test-time Scaling (MaTTS), trong quá trình suy luận, đầu tư nhiều sức mạnh tính toán hơn để thử lại nhiều lần, và quá trình khám phá được lưu vào bộ nhớ. Mở rộng song song cho phép trí tuệ nhân tạo chạy nhiều hành trình khác nhau cho cùng một nhiệm vụ, qua đối chiếu tự động để tổng hợp chiến lược ổn định hơn; mở rộng theo thứ tự trong một hành trình, chỉnh sửa liên tục, các suy luận trung gian được ghi vào bộ nhớ. Trên hai chuẩn WebArena cho nhiệm vụ trình duyệt và SWE-Bench-Verified cho nhiệm vụ mã nguồn, sử dụng Gemini 2.5 Flash làm trí tuệ nhân tạo ReAct, ReasoningBank so với cơ sở không có bộ nhớ đạt tỷ lệ thành công cao hơn 8.3% trên WebArena, 4.6% trên SWE-Bench-Verified, trung bình mỗi nhiệm vụ giảm khoảng 3 bước; sau khi cộng thêm mở rộng song song MaTTS (k=5), tỷ lệ thành công của WebArena lại tăng thêm 3 điểm phần trăm, số bước giảm thêm 0.4 bước. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim