Mila 在 ICLR 2026 展示 70 篇論文,覆蓋模型合併與圖學習等前沿

robot
摘要生成中
ME News 消息,4 月 23 日(UTC+8),Mila 宣佈其研究人員將在 ICLR 2026(巴西)上展示 70 篇論文。首日亮點包括:模型合併與微調方面,DisTaC 通過蒸餾條件任務向量實現穩健模型合併,一項研究採用 epsilon 排程緩解非穩健預訓練模型微調的次優遷移問題,口頭報告揭示單次全局合併策略在去中心化學習中的有效性;圖學習領域,GraphOmni 提出評估大語言模型在圖論任務表現的基準框架,另一工作澄清 Transformer 過平滑誤解;強化學習方面,SHAPO 引入銳度感知最佳化用於安全探索,ARM-FM 利用基礎模型自動生成獎勵機,分層值分解離線強化學習方法應用於全身控制,不對稱近端策略最佳化透過小型評論家提升大語言模型推理能力;生成模型領域,Efficient Regression-based Training of Normalizing Flows for Boltzmann Generators 提出高效迴歸訓練方法,FALCON 實現連續流少步精確似然計算,Contractive Diffusion Policies 透過收縮性得分取樣增強動作擴散穩健性;大語言模型相關:Landscape of Thoughts 可視化推理過程,Model Collapse 被重新定義為機器遺忘特徵而非缺陷,Beyond Multi-Token Prediction 透過未來摘要預訓練,Visual symbolic mechanisms 探索視覺語言模型符號處理;其他亮點包括高解析度熱帶樹冠檢測資料集 SelvaBox、學習最佳化器的計算高效元泛化 µLO、面向時序圖的高效模組化函式庫 TGM,以及透過因果規則提升獎勵建模穩健性的 Robust Reward Modeling。(來源:InFoQ)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆