A onda de código aberto do WBench da Fudan Meituan é bastante robusta, com 289 casos testando o mundo dos modelos interativos até o limite, a correlação entre os indicadores e a avaliação cega manual é superior a 0,94, dados falam mais alto que papo fiado.

Ver original
CoinNetwork
Fudan em parceria com Meituan LongCat lança o padrão de modelo de mundo interativo de código aberto WBench
Fudan e Meituan LongCat colaboraram na abertura do padrão de modelo de mundo interativo WBench, incluindo 289 casos de teste, 1058 rodadas de interação, cobrindo perspectivas de primeira e segunda pessoa, controle de navegação, ações do sujeito, edição de eventos e troca de perspectiva. 22 métricas automáticas e o coeficiente de correlação com testes cegos humanos são ≥0,94. Os resultados mostram que o controle de interação e a renderização do modelo, física/consistência quase se desacoplam, hy-world1.5 lidera o controle de navegação, lingbot-world lidera a consistência, e matrix-game3.0 lidera em ações de navegação.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado