Mila на ICLR 2026 представить 70 статей, що охоплюють передові теми, такі як об'єднання моделей та графове навчання.

robot
Генерація анотацій у процесі
ME News повідомляє, 23 квітня (UTC+8), Mila оголосила, що її дослідники представлять 70 статей на ICLR 2026 (Бразилія). Основні моменти першого дня включають: у сфері об’єднання та донавчання моделей, DisTaC досягає стійкого об’єднання моделей через дистиляцію умовних завдань, одне дослідження використовує планування епсилон для пом’якшення проблеми субоптимального перенесення при донавчанні нестійких попередньо навчених моделей, усна доповідь розкриває ефективність єдиної глобальної стратегії об’єднання в децентралізованому навчанні; у сфері графового навчання, GraphOmni пропонує базову структуру оцінки продуктивності великих мовних моделей у задачах теорії графів, інша робота прояснює непорозуміння щодо надмірного згладжування Transformer; у сфері навчання з підкріпленням, SHAPO впроваджує оптимізацію з урахуванням гостроти для безпечного дослідження, ARM-FM використовує основні моделі для автоматичної генерації машин винагороди, ієрархічне розкладання значень у методах офлайн-навчання з підкріпленням застосовується до контролю всього тіла, асиметрична проксимальна оптимізація політики покращує здатність до міркувань великих мовних моделей через малі критичні моделі; у сфері генеративних моделей, Efficient Regression-based Training of Normalizing Flows for Boltzmann Generators пропонує ефективний метод регресійного навчання, FALCON досягає точного обчислення правдоподібності за кілька кроків для неперервних потоків, Contractive Diffusion Policies посилює стійкість дифузії дій через стискаючу оцінку оцінювання, великі мовні моделі: Landscape of Thoughts візуалізує процес міркувань, Model Collapse переосмислюється як характеристика машинного забування, а не недолік, Beyond Multi-Token Prediction через навчання майбутніх підсумків, Visual symbolic mechanisms досліджують символьну обробку візуально-мовних моделей; інші основні моменти включають набір даних SelvaBox для виявлення високороздільних тропічних крон, обчислювально ефективне мета-узагальнення µLO для навчальних оптимізаторів, ефективну модульну бібліотеку TGM для часових графів та Robust Reward Modeling для підвищення стійкості моделювання винагороди через причинно-наслідкові правила. (Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено