Ramp Labs đề xuất phương án chia sẻ bộ nhớ đa tác nhân mới, giảm tiêu thụ Token tối đa 65%

robot
Đang tạo bản tóm tắt

ME Tin tức, ngày 11 tháng 4 (UTC+8), công ty hạ tầng AI Ramp Labs đã công bố kết quả nghiên cứu “Latent Briefing”, thông qua việc nén trực tiếp bộ nhớ đệm KV của mô hình lớn để đạt hiệu quả chia sẻ trí nhớ giữa các hệ thống đa trí tuệ, giảm đáng kể tiêu thụ Token mà không làm giảm độ chính xác. Trong kiến trúc đa trí tuệ phổ biến, người điều phối (Orchestrator) phân chia nhiệm vụ và liên tục gọi mô hình người làm việc (Worker), khi chuỗi suy luận mở rộng, lượng Token tiêu thụ tăng theo cấp số nhân. Ý tưởng cốt lõi của Latent Briefing là: sử dụng cơ chế chú ý để nhận diện phần thực sự quan trọng trong ngữ cảnh, trực tiếp loại bỏ thông tin thừa ở lớp biểu diễn, thay vì dựa vào tóm tắt chậm của LLM hoặc truy xuất RAG kém ổn định. Trong bài kiểm tra chuẩn LongBench v2, phương pháp này thể hiện rõ nét: giảm 65% Token tiêu thụ của mô hình Worker, tiết kiệm trung vị 49% Token cho các tài liệu trung bình dài (32k đến 100k), độ chính xác tổng thể tăng khoảng 3 điểm phần trăm so với mức cơ sở, trong khi thời gian thêm cho mỗi lần nén chỉ khoảng 1.7 giây, nhanh hơn khoảng 20 lần so với thuật toán gốc. Thí nghiệm sử dụng Claude Sonnet 4 làm người điều phối, Qwen3-14B làm mô hình người làm việc, bao gồm các loại tài liệu như bài báo học thuật, văn bản pháp lý, tiểu thuyết và báo cáo chính phủ. Nghiên cứu còn phát hiện, ngưỡng nén tối ưu khác nhau tùy theo độ khó của nhiệm vụ và độ dài của tài liệu — các nhiệm vụ khó phù hợp với nén mạnh để loại bỏ nhiễu suy luận đầu cơ, trong khi tài liệu dài phù hợp với nén nhẹ để giữ lại các thông tin quan trọng phân tán. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:0
    0.00%
  • Ghim