Nvidia lança Gamma-World, um modelo de mundo multiagente que suporta cooperação de quatro pessoas e 24 FPS em tempo real

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com o monitoramento Beating, pesquisadores da Nvidia em colaboração com a Universidade Tsinghua, a Universidade de Toronto e o Instituto Vector publicaram o modelo de mundo generativo multiagente Gamma-World, quebrando a limitação de longo prazo na simulação de ambientes virtuais, que tradicionalmente se restringia à interação de um ou dois jogadores. A equipe atualmente lançou a página do projeto e o artigo, com o código e os pesos planejados para serem abertos em breve. O modelo introduz duas mecânicas: a ampliação de codificação de posição rotacional de alta dimensão e a marcação de intermediários de informação, garantindo que múltiplos jogadores possam ser controlados de forma independente e, pela primeira vez, permitindo a transferência direta de um modelo de dois jogadores para quatro jogadores colaborativos sem necessidade de re-treinamento. O principal desafio do modelo de mundo multiusuário é manter cada jogador sob controle independente e evitar conflitos de ações. A equipe de pesquisa projetou a codificação de agente rotativo simplex (Simplex Rotary Agent Encoding), que leva a codificação de posição rotacional clássica (RoPE) para um espaço angular de alta dimensão. Essa nova codificação garante que todos os jogadores tenham simetrias físicas completamente iguais, sem depender de números fixos de jogadores, possibilitando uma referência e controle mais natural e independente. Para evitar que o aumento do número de jogadores cause uma explosão quadrática no cálculo, a solução introduz o mecanismo de atenção central esparsa (Sparse Hub Attention). O sistema transmite informações de interação através de marcas centrais aprendíveis, reduzindo com sucesso o custo de atenção entre jogadores para um nível linear. Em termos de velocidade de geração, a equipe distilou o modelo de difusão de alta latência em um modelo causal de estudante, usando cache de chaves e valores (KV Cache) para alcançar uma resposta de ação em tempo real de 24 quadros por segundo (24 FPS). Avaliações em ambientes de jogos multiplayer mostram que o novo modelo supera significativamente as redes tradicionais de atenção de slot e atenção densa em termos de realismo visual, controle de resposta de ação e consistência entre jogadores. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-b74aba1c
· 5h atrás
A atenção de núcleo esparso caiu para custo linear, finalmente sem precisar ver PPTs
Ver originalResponder0
MemeFisher
· 6h atrás
Cache KV + distilação de professores, otimização de engenharia no máximo
Ver originalResponder0
GlassDomeObservatory
· 6h atrás
A controlabilidade da tela supera a das redes tradicionais, e o modelo de mundo generativo está se tornando uma realidade
Ver originalResponder0
LiquidityLibrarian
· 6h atrás
Depois de assistir, quero reproduzir, mas percebo que falta o cartão.
Ver originalResponder0
ArbiterOfFees
· 7h atrás
A NVIDIA aposta nesta onda de mundos de jogos gerados por IA
Ver originalResponder0
ProofOfVibes
· 7h atrás
É fundamental que cada jogador controle este ponto de forma independente, algo que muitas soluções anteriores não conseguiam alcançar.
Ver originalResponder0
MarginMarmot
· 7h atrás
De dois para quatro diretamente, o novo campo de batalha da Lei de Escalabilidade
Ver originalResponder0
SentimentIndicatorHarvester
· 7h atrás
Rede de rede tradicional: vocês são educados?
Ver originalResponder0
  • Fixado