ME AI Сообщение, Tencent Hunyuan выпустила UniRL — инфраструктуру для обучения с усилением, поддерживающую унифицированные мультимодальные модели, а также представила два новых алгоритма DRPO и Flow-DPPO. UniRL охватывает модели диффузии/потока, LLM/VLM и унифицированные мультимодальные модели (такие как Hunyuan-Image 3 и Bagel) с помощью одного цикла постобучения (генерация → оценка → преимущества → обновление → синхронизация). Модели и алгоритмы выступают как отдельные оси, позволяя комбинировать модели и алгоритмы. Каркас поддерживает вставляемые движки rollout (на стороне обучения/SGLang/vLLM-Omni), разделение FSDP2 и три режима развертывания. FlowDPPO вводит стратегию оптимизации доверительной области на основе точной дивергенции для потоковых/диффузионных моделей; DRPO обеспечивает сглаженную квадратичную регуляризацию с взвешиванием преимуществ для RL с LLM. Код открыт как с открытым исходным кодом. (Источник: AiHot)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков

Награда
1
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateIPOAccessSpaceX
6.63M Популярность
#
StrategyAdds1550BTCatLowerPrices
2.89M Популярность
#
IsraelStrikesIranBTCPlunges
56.87K Популярность
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.82M Популярность
#
PredictNBAChampionWin20000U
854.74K Популярность

Закреплено

Карта сайта

Tencent Hunyuan发布UniRL：统一多模态强化学习基础设施

Популярные темы

GateIPOAccessSpaceX

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Закреплено