Tencent Hunyuan发布UniRL:统一多模态强化学习基础设施

robot
Генерация тезисов в процессе
ME AI Сообщение, Tencent Hunyuan выпустила UniRL — инфраструктуру для обучения с усилением, поддерживающую унифицированные мультимодальные модели, а также представила два новых алгоритма DRPO и Flow-DPPO. UniRL охватывает модели диффузии/потока, LLM/VLM и унифицированные мультимодальные модели (такие как Hunyuan-Image 3 и Bagel) с помощью одного цикла постобучения (генерация → оценка → преимущества → обновление → синхронизация). Модели и алгоритмы выступают как отдельные оси, позволяя комбинировать модели и алгоритмы. Каркас поддерживает вставляемые движки rollout (на стороне обучения/SGLang/vLLM-Omni), разделение FSDP2 и три режима развертывания. FlowDPPO вводит стратегию оптимизации доверительной области на основе точной дивергенции для потоковых/диффузионных моделей; DRPO обеспечивает сглаженную квадратичную регуляризацию с взвешиванием преимуществ для RL с LLM. Код открыт как с открытым исходным кодом. (Источник: AiHot)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено