Nvidia publie Gamma-World, un modèle de monde multi-agent supportant la coopération à quatre et un rendu en temps réel à 24 FPS

robot
Création du résumé en cours
ME AI Message, selon la surveillance Beating, des chercheurs de NVIDIA en collaboration avec l'Université Tsinghua, l'Université de Toronto et l'Institut Vector ont publié Gamma-World, un modèle mondial génératif multi-agent, brisant la limite de la simulation d'environnements virtuels limitée auparavant à une ou deux personnes. L'équipe a actuellement publié la page du projet et l'article, le code et les poids seront open source prochainement. Le modèle introduit deux mécanismes : la promotion en haute dimension du codage de position rotatif et la marque d'intermédiaire d'information, permettant de contrôler indépendamment plusieurs joueurs tout en réalisant, pour la première fois, une extension directe du zéro-shot de deux joueurs à une coopération à quatre joueurs sans réentraînement. Le principal défi du modèle mondial multi-joueurs consiste à maintenir chaque joueur sous contrôle indépendant et à éviter les conflits d'actions. L'équipe de recherche a conçu un encodage d'agent rotatif simplex (Simplex Rotary Agent Encoding), qui pousse le codage de position rotatif classique (RoPE) dans un espace angulaire haute dimension. Cette nouvelle méthode d'encodage permet à tous les joueurs de bénéficier d'une symétrie physique entièrement équivalente, sans dépendre d'un numéro de joueur fixe, réalisant ainsi une désignation et une manipulation plus naturelles et indépendantes. Pour éviter une explosion quadratique du coût de calcul avec l'augmentation du nombre de joueurs, la solution introduit un mécanisme d'attention centrale sparse (Sparse Hub Attention). Le système transmet l'information d'interaction via une marque centrale apprise, compressant avec succès le coût de calcul de l'attention entre joueurs à un niveau linéaire. En termes de vitesse de génération, l'équipe a distillé un modèle de diffusion à haute latence en un modèle causal plus léger, combiné à un cache de clés-valeurs (KV Cache), permettant une sortie en temps réel à 24 images par seconde (24 FPS). Les évaluations dans un environnement de jeu multi-joueurs montrent que le nouveau modèle surpasse nettement les réseaux d'attention traditionnels à fentes et denses en termes de réalisme visuel, de contrôle de la réponse aux actions et de cohérence entre joueurs. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-b74aba1c
· Il y a 1h
L'attention Sparse Hub est devenue linéaire en coût, enfin plus besoin de regarder le PPT
Voir l'originalRépondre0
MemeFisher
· Il y a 3h
Cache KV + distillation de l'enseignant, optimisation du projet poussée à fond
Voir l'originalRépondre0
GlassDomeObservatory
· Il y a 3h
La contrôlabilité de l'écran est supérieure à celle des réseaux traditionnels, le modèle mondial génératif va devenir essentiel.
Voir l'originalRépondre0
LiquidityLibrarian
· Il y a 3h
Après avoir regardé, je veux le reproduire, mais je constate qu'il manque des cartes.
Voir l'originalRépondre0
ArbiterOfFees
· Il y a 3h
Nvidia mise cette fois sur le monde du jeu généré par l'IA.
Voir l'originalRépondre0
ProofOfVibes
· Il y a 3h
Il est crucial que chaque joueur contrôle indépendamment ce point, ce que beaucoup de solutions précédentes ne pouvaient pas réaliser.
Voir l'originalRépondre0
MarginMarmot
· Il y a 3h
Doublement direct de deux à quatre personnes, le nouveau champ de bataille de la loi d'échelle
Voir l'originalRépondre0
SentimentIndicatorHarvester
· Il y a 3h
Réseau traditionnel : êtes-vous polis ?
Voir l'originalRépondre0
  • Épinglé