Pré-entrainement accéléré de 2 à 3 fois, la nouvelle solution TST de Nous suscite une controverse de « collision »

robot
Création du résumé en cours

ME News Actualités, le 14 mai (UTC+8), selon le monitoring de Dongcha Beating, Nous Research a publié un nouveau plan de pré-entraînement de grands modèles basé sur la superposition de tokens (TST).
Ce plan consiste à compresser et empaqueter les tokens adjacents en début d’entraînement, ce qui permet de réduire le temps de pré-entraînement de 2 à 3 fois pour une même charge de calcul.
TST comprend deux phases.
Dans les 20% à 40% initiaux de l’entraînement, le modèle ne lit plus les tokens un par un, mais « empaquette » les tokens adjacents en faisant la moyenne et les entre dans le modèle, puis prédit quels tokens seront dans le prochain paquet (sans tenir compte de l’ordre interne).
Ensuite, le modèle revient à la prédiction classique du token suivant.
Comme la structure de base n’est pas modifiée, le modèle produit lors de l’inférence est identique à un modèle standard.
Cette méthode a été validée sur un modèle MoE de 10 milliards de paramètres maximum.
L’essence de cette approche est « échanger de la puissance contre des données », en accélérant la consommation de corpus pour réduire le temps de calcul.
Si à l’avenir, le texte de haute qualité venait à s’épuiser, cette capacité à accélérer la consommation de données pourrait devenir un point faible.
De plus, quelques heures après la publication de l’article, un lecteur a souligné que le mécanisme de TST est très similaire à celui de l’ancien travail « Beyond Next Token Prediction » publié en 2024.
L’équipe d’auteurs a ensuite reconnu sur Hugging Face qu’il s’agissait d’un « recherche convergente malheureuse » et a promis de mettre à jour l’article avec une référence complémentaire.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé