Qwen3.7-Max oficialmente lançado: 35 horas escrevendo código de forma autônoma 1158 vezes, criando um operador de aceleração 10 vezes mais rápido em chips nacionais

robot
Geração do resumo em andamento
De acordo com o monitoramento Beating, o Alibaba Tongyi Qianwen foi oficialmente lançado com a nova geração de base de agentes inteligentes, Qwen3.7-Max. Os dados de desempenho divulgados oficialmente mostram que, na ausência total de documentação de arquitetura de chip e dados de análise de desempenho, o novo modelo aumentou forçadamente o desempenho do operador Triton do processador doméstico Xing Tong Ge Zhen Wu M890 em uma tarefa de otimização de núcleo totalmente autônoma que durou 35 horas e envolveu 1158 chamadas de ferramenta, em um fator de 10,0 vezes.

Durante o processo de otimização, o modelo passou por cinco fases principais de evolução. Primeiro, ele dividiu o cache KV de prefixo ao longo da dimensão do token usando a partição Split-K para preencher os 36 núcleos SM; em seguida, substituiu o cudaMalloc, que sincronizava entre host e dispositivo, por variáveis pré-alocadas do PyTorch, e eliminou completamente a ação de cudaMemcpy sincronizada ao consultar o comprimento do prefixo, usando metadados de tensor, removendo totalmente o custo de comunicação entre host e dispositivo; na fase final, o modelo reconstruiu operadores para processar simultaneamente todos os 4 tokens de consulta em um único bloco de threads, compartilhando o carregamento para distribuir o custo de acesso à memória, realizando uma reestruturação especializada de arquitetura crítica.

Os testes de otimização do operador mostraram que o Qwen3.7-Max obteve uma aceleração geométrica média de 10,0x, superando significativamente o GLM 5.1 (7,3x) e o Kimi K2.6 (5,0x). Enquanto isso, o DeepSeek V4 Pro atingiu apenas 3,3x e, na segunda metade, terminou proativamente a tarefa devido à ausência de chamadas de ferramenta por cinco rodadas consecutivas.

Para dominar estratégias de resolução de problemas em ambientes variáveis, o Qwen3.7-Max desacoplou tarefas, estruturas de execução e validadores durante o treinamento, e evitou o overfitting por atalhos específicos de benchmarks ao treinar com reforço entre estruturas. Nos benchmarks universais de agentes inteligentes MCP-Mark (60,8 pontos) e SpreadSheetBench (87,0 pontos), o Qwen3.7-Max demonstrou uma forte capacidade de generalização, com desempenho geral chegando perto do Claude-4.6-Opus-Max.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado