Qwen3.7-Max lançamento oficial: 35 horas de escrita de código autônoma 1158 vezes, desenvolvendo um operador de aceleração 10 vezes mais rápido em chips nacionais

robot
Geração de resumo em curso
De acordo com o monitoramento Beating, a Alibaba Tongyi Qianwen foi oficialmente lançada como a nova geração de base de agentes inteligentes de ponta Qwen3.7-Max. Os dados de combate divulgados oficialmente mostram que, na ausência total de documentação de arquitetura de chip e dados de análise de desempenho, o novo modelo aumentou forçadamente o desempenho do operador Triton do processador doméstico Xing Tong Ge Zhen Wu M890 em uma tarefa de otimização de núcleo totalmente autônoma que durou 35 horas e envolveu 1158 chamadas de ferramenta, em um fator de 10,0 vezes.

Durante o processo de otimização, o modelo passou por cinco fases principais de evolução. Primeiro, dividiu o cache KV de prefixo usando a partição Split-K ao longo da dimensão do token para preencher os 36 núcleos SM; em seguida, substituiu o cudaMalloc de sincronização entre host e dispositivo por variáveis PyTorch pré-alocadas, e eliminou completamente a ação de cudaMemcpy sincronizada ao consultar o comprimento do prefixo, usando metadados de tensor, removendo assim completamente o custo de comunicação entre host e dispositivo; na fase final, o modelo reconstruiu operadores para processar simultaneamente todos os 4 tokens de consulta em um único bloco de threads, compartilhando o carregamento para distribuir o custo de acesso à memória, realizando uma reestruturação de arquitetura especializada crítica.

Os testes de otimização do operador mostraram que o Qwen3.7-Max obteve uma aceleração geométrica média de 10,0x, superando significativamente o GLM 5.1 (7,3x) e o Kimi K2.6 (5,0x). Enquanto isso, o DeepSeek V4 Pro atingiu apenas 3,3x e, na segunda metade, terminou proativamente a tarefa após cinco rodadas consecutivas sem chamadas de ferramenta.

Para dominar estratégias de resolução de problemas em ambientes variáveis, o Qwen3.7-Max desacoplou tarefas, estruturas de execução e validadores durante o treinamento, e evitou o overfitting por atalhos específicos de benchmarks ao treinar com reforço entre estruturas diferentes. Nos benchmarks universais de agentes inteligentes MCP-Mark (60,8 pontos) e SpreadSheetBench (87,0 pontos), o Qwen3.7-Max demonstrou uma forte capacidade de generalização, com desempenho geral quase atingindo o Claude-4.6-Opus-Max.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado