ME News сообщает, 23 апреля (UTC+8), Mila объявила, что ее исследователи представят 70 докладов на ICLR 2026 (Бразилия).
Основные моменты первого дня включают: в области слияния моделей и дообучения, DisTaC реализует надежное слияние моделей через дистилляцию условных векторов задач, одно исследование использует epsilon-расписание для смягчения проблемы субоптимального переноса при дообучении неробастных предобученных моделей, устный доклад раскрывает эффективность стратегии однократного глобального слияния в децентрализованном обучении;
в области графового обучения, GraphOmni предлагает эталонную структуру для оценки производительности больших языковых моделей в задачах теории графов, другая работа проясняет неправильное понимание oversmoothing в Transformer;
в обучении с подкреплением, SHAPO вводит оптимизацию с учетом резкости для безопасного исследования, ARM-FM использует базовые модели для автоматической генерации машин вознаграждения, метод офлайн-обучения с подкреплением с иерархической декомпозицией ценности применяется для управления всем телом, асимметричная проксимальная оптимизация политики повышает способность рассуждения больших языковых моделей через маленького критика;
в области генеративных моделей, Efficient Regression-based Training of Normalizing Flows for Boltzmann Generators предлагает эффективный метод регрессионного обучения, FALCON реализует точное вычисление правдоподобия за несколько шагов в непрерывных потоках, Contractive Diffusion Policies усиливает робастность диффузии действий через сжатие выборки по скорингу;
в области больших языковых моделей: Landscape of Thoughts визуализирует процесс рассуждения, Model Collapse переопределяется как особенность забывания машины, а не дефект, Beyond Multi-Token Prediction предобучается через будущие сводки, Visual symbolic mechanisms исследуют символьную обработку визуально-языковых моделей;
Другие основные моменты включают набор данных высокого разрешения для обнаружения тропических крон SelvaBox, вычислительно эффективную мета-обобщение для изучения оптимизаторов µLO, эффективную модульную библиотеку для временных графов TGM, а также Robust Reward Modeling, повышающее робастность моделирования вознаграждения через причинные правила.
(Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,64M Популярность
#
MicronEarningsBeatExpectationsSharesRise
353,5K Популярность
#
IsraelStrikesIranBTCPlunges
65,29K Популярность
#
PredictWorldCupShare20000U
129K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
195,98K Популярность

Закреплено

Карта сайта

Mila представит 70 статей на ICLR 2026, охватывающих передовые направления, такие как объединение моделей и графовое обучение.

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено