Бюджетна мережа повідомляє, що Tencent Hunyuan відкривши код UniRL, інтегрує великі мовні моделі та дифузійні моделі у один набір рамок навчання з підсиленим навчанням, що дозволяє спільно використовувати єдину навчальну циклічну структуру для текстових, візуальних мовних, зображень та відео моделей. Для дифузійних та потокових моделей відповідності, команда Hunyuan запровадила алгоритм flow-dppo, який використовує характеристику Гаусового розподілу кожного кроку стратегії потокової моделі, безпосередньо обмежуючи оновлення стратегії за допомогою KL-дивергенції, а також застосовуючи асиметричну маску розсіювання для запобігання надмірному відхиленню моделі, забезпечуючи стабільну збіжність. Для великих мовних моделей команда одночасно запустила алгоритм drpo, який вводить ваговий квадратичний регуляризатор замість жорсткого обмеження, щоб гарантувати, що модель при відхиленні від цільового розподілу все ще отримує безперервний сигнал корекції градієнта.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
SKHynixTopsKOSPIByMarketCap
1,49M Популярність
#
BTCProbes60KKeySupportLevel
378,67M Популярність
#
IsraelStrikesIranBTCPlunges
62,86K Популярність
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
295,42K Популярність
#
TradFiCFDGoldMaster
2,2M Популярність

Закріплено

карта сайту

Популярні теми

SKHynixTopsKOSPIByMarketCap

BTCProbes60KKeySupportLevel

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

Закріплено