Твердження: API-дистиляція лише є підґрунтям для RL, а самостійна ітерація GLM 5.2 може повністю позбавити від залежності від американських моделей

ME AI Повідомлення, згідно з моніторингом Beating, інженер програмного забезпечення Google TPU Patrick Toulme зазначив, що існує неправильне розуміння щодо того, що GLM 5.2 досягає рівня Opus шляхом дистиляції. Основна складність у тренуванні великих моделей для завдань кодування агентів полягає у «загубленому градієнті», тобто якщо на ранніх етапах модель не здатна генерувати правильний шлях виконання, то підкріплювальне навчання не зможе отримати градієнтний сигнал для ініціації оновлення параметрів. Роль дистиляції Claude або GPT-5.5 полягає лише у наданні початкового розв’язку для обхід проблеми «загубленого градієнта» на етапі холодного старту. Як тільки модель подолала поріг холодного старту, подальше зростання продуктивності вже не залежить від дистиляції, а повністю базується на алгоритмі підкріплювального навчання для самовдосконалення. Toulme підкреслив, що GLM 5.2 вже має здатність самостійно генерувати успішні шляхи і цілком може за допомогою підкріплювального навчання самостійно еволюціонувати до більш високих рівнів, повністю позбавляючись залежності від великих американських моделей. Засновник Redis Salvatore Sanfilippo додав ще один можливий шлях: хоча введення режиму розуміння (дистиляція) через високопродуктивні моделі дуже корисне для отримання кращих сигналів RL, практика DeepSeek R0 вже довела, що навіть у випадку повністю холодного старту без дистиляції, підкріплювальне навчання може працювати автономно і досягати проривів. Одночасно він вважає, що для подолання порогу холодного старту розробка великих моделей цілком може починатися з локальних відкритих моделей, таких як DeepSeek-v3.2, для їхнього доопрацювання, а не обов’язково залежати від американських API. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено