Mila présente 70 articles à l'ICLR 2026, couvrant des domaines de pointe tels que la fusion de modèles et l'apprentissage sur graphes.

robot
Création du résumé en cours
ME News annonce que, le 23 avril (UTC+8), Mila a annoncé que ses chercheurs présenteront 70 articles à l'ICLR 2026 (Brésil). Les points forts du premier jour incluent : en matière de fusion et de réglage fin de modèles, DisTaC réalise une fusion robuste de modèles via des vecteurs de tâches conditionnels de distillation ; une étude utilise un planning epsilon pour atténuer le problème de transfert sous-optimal lors du réglage fin de modèles pré-entraînés non robustes ; un rapport oral révèle l'efficacité d'une stratégie de fusion globale unique pour l'apprentissage décentralisé. Dans le domaine de l'apprentissage sur graphes, GraphOmni propose un cadre de référence pour évaluer les performances des grands modèles de langage sur des tâches de théorie des graphes ; un autre travail clarifie les idées fausses sur le sur-lissage des Transformers. En apprentissage par renforcement, SHAPO introduit une optimisation basée sur la netteté pour l'exploration sécurisée ; ARM-FM utilise des modèles de base pour générer automatiquement des machines de récompense ; une méthode d'apprentissage par renforcement hors ligne avec décomposition de valeur hiérarchique est appliquée au contrôle du corps entier ; l'optimisation asymétrique de la politique proximale améliore la capacité de raisonnement des grands modèles de langage via un petit critique. Dans le domaine des modèles génératifs, Efficient Regression-based Training of Normalizing Flows for Boltzmann Generators propose une méthode d'entraînement par régression efficace ; FALCON réalise un calcul de vraisemblance exacte en peu d'étapes pour les flux continus ; Contractive Diffusion Policies améliore la robustesse des actions de diffusion via un échantillonnage de score contractif. En ce qui concerne les grands modèles de langage : Landscape of Thoughts visualise le processus de raisonnement ; Model Collapse est redéfini comme une caractéristique d'oubli machine plutôt qu'un défaut ; Beyond Multi-Token Prediction via un pré-entraînement par résumé futur ; Visual symbolic mechanisms explore le traitement symbolique des modèles vision-langage. Autres points forts : le jeu de données de détection de couronnes d'arbres tropicaux à haute résolution SelvaBox, la méta-généralisation efficace en calcul pour les optimiseurs d'apprentissage µLO, la bibliothèque modulaire efficace pour les graphes temporels TGM, et Robust Reward Modeling pour améliorer la robustesse de la modélisation des récompenses via des règles causales. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire