Không còn đào tạo ngoại tuyến cho các mô hình dự thảo: Together AI công khai mã nguồn Aurora cho giải mã suy đoán với tự học

robot
Đang tạo bản tóm tắt

Theo phần theo dõi của 1M AI News, nền tảng đám mây AI Together AI đã mã nguồn mở Aurora, một framework thích ứng cho giải mã suy đoán dựa trên học tăng cường. Giải mã suy đoán là phương pháp chủ đạo để tăng tốc suy luận của mô hình lớn: nó dự đoán nhanh chuỗi token bằng một “draft model” nhỏ, sau đó được mô hình lớn xác minh song song, áp dụng các “hit” trực tiếp và loại bỏ các “miss” để đánh giá lại. Vấn đề nằm ở chỗ draft model là một sản phẩm tĩnh được huấn luyện ngoại tuyến; một khi lưu lượng sản xuất thay đổi (do nâng cấp mô hình, thay đổi nhân khẩu học người dùng, hoặc chuyển đổi loại tác vụ), độ chính xác dự đoán suy giảm liên tục, và việc huấn luyện lại ngoại tuyến vừa tốn kém vừa bị chậm trễ. Aurora định nghĩa lại giải mã suy đoán như một bài toán học tăng cường: draft model đóng vai trò là chính sách, bộ xác minh của mô hình lớn đóng vai trò là môi trường, các token được chấp nhận là phần thưởng tích cực, và các token bị từ chối là phản hồi tiêu cực. Hệ thống bao gồm hai thành phần tách rời: máy chủ suy luận, xử lý yêu cầu theo cách thông thường và stream kết quả xác minh vào một bộ đệm, và máy chủ huấn luyện, bất đồng bộ kéo dữ liệu để cập nhật trọng số của draft model và thay thế nóng chúng trở lại phía suy luận mà không làm gián đoạn dịch vụ. Trong các bài kiểm tra lưu lượng mô phỏng với 40.000 yêu cầu trên năm miền (lập luận toán học, Text-to-SQL, tạo mã, tài chính và hội thoại chung), Aurora khôi phục độ dài chấp nhận trong khoảng 10.000 yêu cầu sau khi miền lưu lượng thay đổi, đạt mức tăng tốc 1,25 lần so với draft model tĩnh được huấn luyện tốt. Đáng chú ý, Aurora—huấn luyện online từ đầu—đạt độ dài chấp nhận là 3,08, vượt baseline tĩnh 2,63 và baseline “pre-trained rồi fine-tuned” là 2,99, với thông lượng ổn định ở 302,3 token mỗi giây, trực tiếp thách thức quan niệm hiện có rằng “giải mã suy đoán phải dựa vào pre-training ngoại tuyến quy mô lớn”. Trong các bài kiểm tra end-to-end, giải mã suy đoán mang lại tốc độ nhanh hơn 1,92 lần trên Qwen3-Coder-Next (FP8) với batch size là 1, và 1,63 lần trên MiniMax M2.5 (FP8). Tiền nhiệm của Aurora, ATLAS, đã đặt nền tảng cho adaptive speculator, và bản nâng cấp này đã tạo ra một hệ thống closed-loop hoàn toàn tự chủ. Mã nguồn đã được mã hóa/mở nguồn trên GitHub.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:2
    0.24%
  • Vốn hóa:$2.23KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Ghim