Mila представит 70 статей на ICLR 2026, охватывающих передовые направления, такие как объединение моделей и графовое обучение.

robot
Генерация тезисов в процессе
ME News сообщает, 23 апреля (UTC+8), Mila объявила, что ее исследователи представят 70 докладов на ICLR 2026 (Бразилия).
Основные моменты первого дня включают: в области слияния моделей и дообучения, DisTaC реализует надежное слияние моделей через дистилляцию условных векторов задач, одно исследование использует epsilon-расписание для смягчения проблемы субоптимального переноса при дообучении неробастных предобученных моделей, устный доклад раскрывает эффективность стратегии однократного глобального слияния в децентрализованном обучении;
в области графового обучения, GraphOmni предлагает эталонную структуру для оценки производительности больших языковых моделей в задачах теории графов, другая работа проясняет неправильное понимание oversmoothing в Transformer;
в обучении с подкреплением, SHAPO вводит оптимизацию с учетом резкости для безопасного исследования, ARM-FM использует базовые модели для автоматической генерации машин вознаграждения, метод офлайн-обучения с подкреплением с иерархической декомпозицией ценности применяется для управления всем телом, асимметричная проксимальная оптимизация политики повышает способность рассуждения больших языковых моделей через маленького критика;
в области генеративных моделей, Efficient Regression-based Training of Normalizing Flows for Boltzmann Generators предлагает эффективный метод регрессионного обучения, FALCON реализует точное вычисление правдоподобия за несколько шагов в непрерывных потоках, Contractive Diffusion Policies усиливает робастность диффузии действий через сжатие выборки по скорингу;
в области больших языковых моделей: Landscape of Thoughts визуализирует процесс рассуждения, Model Collapse переопределяется как особенность забывания машины, а не дефект, Beyond Multi-Token Prediction предобучается через будущие сводки, Visual symbolic mechanisms исследуют символьную обработку визуально-языковых моделей;
Другие основные моменты включают набор данных высокого разрешения для обнаружения тропических крон SelvaBox, вычислительно эффективную мета-обобщение для изучения оптимизаторов µLO, эффективную модульную библиотеку для временных графов TGM, а также Robust Reward Modeling, повышающее робастность моделирования вознаграждения через причинные правила.
(Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено