De acordo com o Beating, o Qwen3.7-Max foi oficialmente lançado. Tarefa de otimização do núcleo totalmente autônoma, com 35 horas e 1158 chamadas de ferramentas, com uma melhoria de 10x na implementação do operador Triton M890 da Pingtouge. A otimização em cinco fases inclui divisão de cache Split-K, substituição de cudaMalloc por variáveis pré-alocadas, remoção de consultas de prefixo de sincronização usando metadados tensor, e processamento paralelo de 4 tokens de consulta dentro de um único thread de bloco para compartilhamento de carregamento. Testes mostram uma aceleração de 10x, superando GLM5.1, Kimi K2.6, enquanto o DeepSeek V4 Pro alcança apenas 3,3x e termina sem chamadas de ferramentas posteriormente. Treinamento desacoplado de tarefas/frame/validador, reforço de aprendizagem entre quadros, com forte generalização em MCP-Mark, SpreadSheetBench, quase atingindo Claude-4.6-Opus-Max.

BlockBeatNews

2026-05-20 03:36:50

Geração de resumo em curso

De acordo com o monitoramento Beating, a Alibaba Tongyi Qianwen foi oficialmente lançada como a nova geração de base de agentes inteligentes de ponta Qwen3.7-Max. Os dados de combate divulgados oficialmente mostram que, na ausência total de documentação de arquitetura de chip e dados de análise de desempenho, o novo modelo aumentou forçadamente o desempenho do operador Triton do processador doméstico Xing Tong Ge Zhen Wu M890 em uma tarefa de otimização de núcleo totalmente autônoma que durou 35 horas e envolveu 1158 chamadas de ferramenta, em um fator de 10,0 vezes.

Durante o processo de otimização, o modelo passou por cinco fases principais de evolução. Primeiro, dividiu o cache KV de prefixo usando a partição Split-K ao longo da dimensão do token para preencher os 36 núcleos SM; em seguida, substituiu o cudaMalloc de sincronização entre host e dispositivo por variáveis PyTorch pré-alocadas, e eliminou completamente a ação de cudaMemcpy sincronizada ao consultar o comprimento do prefixo, usando metadados de tensor, removendo assim completamente o custo de comunicação entre host e dispositivo; na fase final, o modelo reconstruiu operadores para processar simultaneamente todos os 4 tokens de consulta em um único bloco de threads, compartilhando o carregamento para distribuir o custo de acesso à memória, realizando uma reestruturação de arquitetura especializada crítica.

Os testes de otimização do operador mostraram que o Qwen3.7-Max obteve uma aceleração geométrica média de 10,0x, superando significativamente o GLM 5.1 (7,3x) e o Kimi K2.6 (5,0x). Enquanto isso, o DeepSeek V4 Pro atingiu apenas 3,3x e, na segunda metade, terminou proativamente a tarefa após cinco rodadas consecutivas sem chamadas de ferramenta.

Para dominar estratégias de resolução de problemas em ambientes variáveis, o Qwen3.7-Max desacoplou tarefas, estruturas de execução e validadores durante o treinamento, e evitou o overfitting por atalhos específicos de benchmarks ao treinar com reforço entre estruturas diferentes. Nos benchmarks universais de agentes inteligentes MCP-Mark (60,8 pontos) e SpreadSheetBench (87,0 pontos), o Qwen3.7-Max demonstrou uma forte capacidade de generalização, com desempenho geral quase atingindo o Claude-4.6-Opus-Max.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
184.7K Popularidade
#
30YearTreasuryYieldBreaks5%
359.14K Popularidade
#
IsraelStrikesIranBTCPlunges
48.17K Popularidade
#
#DailyPolymarketHotspot
1M Popularidade
#
RWAMarketCapExceeds65Billion
8.75M Popularidade

Fixado

Qwen3.7-Max lançamento oficial: 35 horas de escrita de código autônoma 1158 vezes, desenvolvendo um operador de aceleração 10 vezes mais rápido em chips nacionais

Tópicos em destaque

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Fixado