Plus d'entraînement hors ligne pour les modèles de brouillon : Together AI open source Aurora pour le décodage spéculatif avec auto-apprentissage

robot
Création du résumé en cours

Selon la surveillance de 1M AI News, la plateforme cloud d’IA Together AI a open-sourcé Aurora, un cadre adaptatif de décodage spéculatif basé sur l’apprentissage par renforcement. Le décodage spéculatif est la méthode dominante pour accélérer l’inférence des grands modèles : il prédit rapidement des séquences de tokens à l’aide d’un petit « modèle d’esquisse », lesquelles sont ensuite vérifiées en parallèle par un modèle plus grand, en adoptant directement les succès et en rejetant les échecs pour une réévaluation. Le problème tient au fait que le modèle d’esquisse est un produit statique entraîné hors ligne ; une fois que le trafic de production dérive (en raison des mises à niveau du modèle, des changements dans la démographie des utilisateurs ou des changements de type de tâche), la précision de la prédiction baisse continuellement, et une nouvelle formation hors ligne est à la fois coûteuse et retardée. Aurora redéfinit le décodage spéculatif comme un problème d’apprentissage par renforcement : le modèle d’esquisse sert de politique, le vérificateur du grand modèle agit comme l’environnement, les tokens acceptés sont des récompenses positives, et les tokens rejetés constituent des retours négatifs. Le système se compose de deux composants découplés : le serveur d’inférence, qui traite les requêtes normalement et diffuse les résultats de vérification dans un tampon, et le serveur d’entraînement, qui extrait des données de manière asynchrone afin de mettre à jour les poids du modèle d’esquisse et les remplace à chaud du côté de l’inférence sans interrompre le service. Dans des tests de trafic simulé impliquant 40 000 requêtes réparties sur cinq domaines (raisonnement mathématique, Text-to-SQL, génération de code, finance et dialogue général), Aurora a récupéré des longueurs d’acceptation dans un délai d’environ 10 000 requêtes après les changements de domaine de trafic, atteignant un gain de vitesse de 1,25 fois par rapport à un modèle d’esquisse statique bien entraîné. Fait notable, Aurora, qui s’entraîne en ligne depuis zéro, a atteint une longueur d’acceptation de 3,08, dépassant la base statique de 2,63 et la base « pré-entraînement puis fine-tuning » de 2,99, avec un débit se stabilisant à 302,3 tokens par seconde, remettant directement en cause la notion existante selon laquelle « le décodage spéculatif doit s’appuyer sur un pré-entraînement hors ligne à grande échelle ». Dans des tests de bout en bout, le décodage spéculatif a fourni un gain de vitesse de 1,92 fois sur Qwen3-Coder-Next (FP8) avec une taille de lot de 1, et de 1,63 fois sur MiniMax M2.5 (FP8). Le prédécesseur d’Aurora, ATLAS, a jeté les bases pour le spéculateur adaptatif, et cette mise à niveau a abouti à un système en boucle fermée entièrement autonome. Le code a été open-sourcé sur GitHub.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler