Більше офлайн-навчання для проектних моделей: Together AI відкриває Aurora для спекулятивного декодування з самонавчанням

2026-04-01 23:05:41

Генерація анотацій у процесі

За моніторингом 1M AI News, платформа AI-області Together AI відкрила вихідний код Aurora — адаптивного фреймворку для спекулятивного декодування на основі навчання з підкріпленням. Спекулятивне декодування є основним методом пришвидшення виведення для великих моделей: воно швидко прогнозує послідовності токенів за допомогою невеликої «чернеткової моделі», а потім ці прогнози паралельно верифікуються більшою моделлю, напряму приймаючи збіги й відкидаючи промахи для повторної оцінки. Проблема полягає в тому, що чернеткова модель є статичним продуктом, натренованим офлайн; щойно виробничий трафік дрейфує (через оновлення моделі, зміни демографії користувачів або перемикання типів задач), точність прогнозування безперервно знижується, а перенавчання офлайн є і витратним, і запізнілим.

Aurora переосмислює спекулятивне декодування як задачу навчання з підкріпленням: чернеткова модель слугує політикою, а велика модель-верифікатор — середовищем; прийняті токени — позитивні винагороди, а відхилені токени — негативний зворотний зв’язок. Система складається з двох розв’язаних компонентів: inference server, який обробляє запити стандартно і стримує результати верифікації в буфер, та training server, який асинхронно стягує дані, щоб оновити ваги чернеткової моделі, і гарячо замінює їх на боці inference без переривання сервісу. У симульованих тестах трафіку із 40,000 запитів у п’яти доменах (математичне міркування, Text-to-SQL, генерація коду, фінанси та загальний діалог) Aurora відновила довжини прийняття приблизно за 10,000 запитів після зсуву трафікового домену, досягнувши прискорення 1.25 раза порівняно зі добре натренованою статичною чернетковою моделлю. Зазначимо, що Aurora, яка тренується онлайн з нуля, досягла довжини прийняття 3.08, перевершивши статичну базову лінію 2.63 та базову «pre-trained then fine-tuned» лінію 2.99; при цьому пропускна здатність стабілізувалася на рівні 302.3 токенів за секунду, напряму кидаючи виклик наявному уявленню про те, що «спекулятивне декодування має покладатися на масштабне офлайн-попереднє тренування». У наскрізних (end-to-end) тестах спекулятивне декодування забезпечило прискорення у 1.92 раза на Qwen3-Coder-Next (FP8) за розміру батчу 1 і у 1.63 раза на MiniMax M2.5 (FP8). Попередник Aurora, ATLAS, заклав основу для адаптивного спекулятора, і це оновлення призвело до повністю автономної системи із замкненим циклом. Код відкрито на GitHub.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків