Ramp Labs đề xuất phương án chia sẻ bộ nhớ đa tác nhân mới, giảm tiêu thụ Token tối đa 65%

MeNews · 2026-04-11T12:21:18+00:00

Công ty hạ tầng AI Ramp Labs đã phát hành nghiên cứu 「Latent Briefing」, sử dụng cơ chế chú ý để đạt được chia sẻ bộ nhớ hiệu quả trong hệ thống đa tác nhân, giảm đáng kể tiêu thụ Token và nâng cao độ chính xác. Phương pháp này thể hiện xuất sắc trong bài kiểm tra chuẩn LongBench v2, tiêu thụ Token của mô hình Worker giảm 65%, đồng thời tăng tốc quá trình nén, phù hợp với các yêu cầu nén khác nhau về nhiệm vụ và độ dài tài liệu.

MeNews

2026-04-11 12:21:18

Đang tạo bản tóm tắt

Thông tin ME News, ngày 11 tháng 4 (UTC+8), công ty hạ tầng AI Ramp Labs đã công bố kết quả nghiên cứu “Latent Briefing”, nhằm thực hiện chia sẻ bộ nhớ hiệu quả giữa các hệ thống đa trí tuệ thông qua nén trực tiếp bộ đệm KV của mô hình lớn, giảm đáng kể tiêu thụ Token mà không làm giảm độ chính xác. Trong kiến trúc đa trí tuệ phổ biến, người điều phối (Orchestrator) phân chia nhiệm vụ và liên tục gọi mô hình người làm việc (Worker), khi chuỗi suy luận mở rộng, lượng Token tiêu thụ tăng theo cấp số nhân. Ý tưởng cốt lõi của Latent Briefing là sử dụng cơ chế chú ý để nhận diện phần quan trọng thực sự trong ngữ cảnh, trực tiếp loại bỏ thông tin thừa ở tầng biểu diễn, thay vì dựa vào tóm tắt chậm của LLM hoặc truy xuất RAG kém ổn định. Trong bài kiểm tra chuẩn LongBench v2, phương pháp này thể hiện rõ nét: giảm 65% Token tiêu thụ của mô hình Worker, tiết kiệm trung bình 49% Token cho các tài liệu trung bình độ dài (32k đến 100k), độ chính xác tổng thể tăng khoảng 3 điểm phần trăm so với mức cơ sở, trong khi thời gian thêm cho mỗi lần nén chỉ khoảng 1.7 giây, nhanh hơn khoảng 20 lần so với thuật toán ban đầu. Thí nghiệm sử dụng Claude Sonnet 4 làm người điều phối, Qwen3-14B làm mô hình người làm việc, bao gồm các loại tài liệu như bài báo học thuật, văn bản pháp lý, tiểu thuyết và báo cáo chính phủ. Nghiên cứu còn phát hiện, ngưỡng nén tối ưu phụ thuộc vào độ khó của nhiệm vụ và độ dài của tài liệu—các nhiệm vụ khó phù hợp với nén mạnh để loại bỏ nhiễu suy luận đầu cơ, trong khi tài liệu dài hơn thích hợp với nén nhẹ để giữ lại các thông tin quan trọng phân tán. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.