Tencent Hunyuan цим кроком помістила LLM та дифузійні моделі у один єдиний фреймворк підкріпленого навчання, одночасно випускаючи дві алгоритмічні лінії flow-dppo та drpo, технічний підхід досить сміливий у задумі

Переглянути оригінал
CoinNetwork
Бюджетна мережа повідомляє, що Tencent Hunyuan відкривши код UniRL, інтегрує великі мовні моделі та дифузійні моделі у один набір рамок навчання з підсиленим навчанням, що дозволяє спільно використовувати єдину навчальну циклічну структуру для текстових, візуальних мовних, зображень та відео моделей. Для дифузійних та потокових моделей відповідності, команда Hunyuan запровадила алгоритм flow-dppo, який використовує характеристику Гаусового розподілу кожного кроку стратегії потокової моделі, безпосередньо обмежуючи оновлення стратегії за допомогою KL-дивергенції, а також застосовуючи асиметричну маску розсіювання для запобігання надмірному відхиленню моделі, забезпечуючи стабільну збіжність. Для великих мовних моделей команда одночасно запустила алгоритм drpo, який вводить ваговий квадратичний регуляризатор замість жорсткого обмеження, щоб гарантувати, що модель при відхиленні від цільового розподілу все ще отримує безперервний сигнал корекції градієнта.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено