Ramp Labs đề xuất phương án chia sẻ bộ nhớ đa tác nhân mới, giảm tiêu thụ Token tối đa 65%

robot
Đang tạo bản tóm tắt

Thông tin ME News, ngày 11 tháng 4 (UTC+8), công ty hạ tầng AI Ramp Labs đã công bố kết quả nghiên cứu “Latent Briefing”, nhằm thực hiện chia sẻ bộ nhớ hiệu quả giữa các hệ thống đa trí tuệ thông qua nén trực tiếp bộ đệm KV của mô hình lớn, giảm đáng kể tiêu thụ Token mà không làm giảm độ chính xác. Trong kiến trúc đa trí tuệ phổ biến, người điều phối (Orchestrator) phân chia nhiệm vụ và liên tục gọi mô hình người làm việc (Worker), khi chuỗi suy luận mở rộng, lượng Token tiêu thụ tăng theo cấp số nhân. Ý tưởng cốt lõi của Latent Briefing là sử dụng cơ chế chú ý để nhận diện phần quan trọng thực sự trong ngữ cảnh, trực tiếp loại bỏ thông tin thừa ở tầng biểu diễn, thay vì dựa vào tóm tắt chậm của LLM hoặc truy xuất RAG kém ổn định. Trong bài kiểm tra chuẩn LongBench v2, phương pháp này thể hiện rõ nét: giảm 65% Token tiêu thụ của mô hình Worker, tiết kiệm trung bình 49% Token cho các tài liệu trung bình độ dài (32k đến 100k), độ chính xác tổng thể tăng khoảng 3 điểm phần trăm so với mức cơ sở, trong khi thời gian thêm cho mỗi lần nén chỉ khoảng 1.7 giây, nhanh hơn khoảng 20 lần so với thuật toán ban đầu. Thí nghiệm sử dụng Claude Sonnet 4 làm người điều phối, Qwen3-14B làm mô hình người làm việc, bao gồm các loại tài liệu như bài báo học thuật, văn bản pháp lý, tiểu thuyết và báo cáo chính phủ. Nghiên cứu còn phát hiện, ngưỡng nén tối ưu phụ thuộc vào độ khó của nhiệm vụ và độ dài của tài liệu—các nhiệm vụ khó phù hợp với nén mạnh để loại bỏ nhiễu suy luận đầu cơ, trong khi tài liệu dài hơn thích hợp với nén nhẹ để giữ lại các thông tin quan trọng phân tán. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.36KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.36KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Vốn hóa:$2.37KNgười nắm giữ:1
    0.00%
  • Ghim