A Alibaba lançou o Qianwen 3.5, cujo desempenho rivaliza com o Gemini 3, e o preço do Token é apenas 1/18 do seu valor.

SnapshotLaborer · 2026-02-17T09:25:49+00:00

A Alibaba lançou o novo grande modelo Qwen3.5-Plus na véspera do Ano Novo. Este modelo alcançou avanços no processamento de texto e visual, apresentando desempenho eficiente e baixo custo. Sua tecnologia central inclui mecanismos de atenção híbridos e arquitetura MoE extremamente esparsa, o que melhora significativamente a velocidade de inferência. O Qwen3.5 pode colaborar automaticamente entre múltiplas tarefas e até transformar esboços em código, inaugurando uma nova era na interação homem-máquina.

SnapshotLaborer

2026-02-17 09:25:49

Geração de resumo em curso

Ano do Serpente, o fim do ano, e o lançamento do mais poderoso modelo Qwen3.5 da Alibaba.

No dia 16 de fevereiro, véspera do Ano Novo, a Alibaba lançou open source a nova geração do grande modelo Qwen3.5-Plus. O Qwen3.5 foi pré-treinado com dados mistos de texto e visual, alcançando avanços nativos em multimodalidade, e demonstrando desempenho excelente em avaliações abrangentes de raciocínio, programação, agentes inteligentes e outros benchmarks, além de conquistar várias posições de destaque em avaliações de compreensão visual.

O núcleo da inovação do Qwen3.5 reside na resolução sistemática do paradoxo entre eficiência e precisão na arquitetura de grandes modelos. Através de mecanismos de atenção híbridos, o modelo consegue focar dinamicamente em textos longos, eliminando o desperdício de recursos computacionais na atenção total; enquanto a arquitetura de MoE extremamente esparsa, com menos de 5% de ativação de parâmetros, mobiliza um total de 397 bilhões de parâmetros de conhecimento, reduzindo ao mínimo o custo de raciocínio.

Paralelamente ao aumento de eficiência, a capacidade nativa de previsão de múltiplos tokens permite que o modelo evolua de uma geração palavra por palavra para uma “planificação em múltiplas etapas”, quase dobrando a velocidade de resposta. As otimizações de estabilidade, como o mecanismo de atenção com controle de atenção, premiado com o melhor artigo na NeurIPS pela equipe Tongyi, fornecem uma garantia sistêmica para essas inovações radicais, assegurando que o treinamento de escala ultra grande seja realmente “estável”. Essas quatro tecnologias convergem para um objetivo comum: usar menos poder computacional para despertar uma inteligência mais forte.

O aplicativo Qwen e a versão para PC já integram imediatamente o modelo Qwen3.5-Plus. Desenvolvedores podem baixar o novo modelo na comunidade Mota e no HuggingFace, ou obter acesso à API via Alibaba Cloud Balian.

Desempenho comparável ao Gemini 3 Pro, com excelente relação custo-benefício

Segundo a Alibaba, o novo grande modelo Qwen3.5-Plus, open source, tem desempenho equivalente ao Gemini 3 Pro, conquistando o topo como o modelo open source mais potente do mundo. O Qwen3.5 realiza uma renovação completa na arquitetura do modelo de base, com a versão Qwen3.5-Plus lançada contendo 397 bilhões de parâmetros totais, com apenas 17 bilhões ativados, superando o Qwen3-Max de mais de um trilhão de parâmetros, com redução de 60% no uso de memória de implantação, aumento significativo na eficiência de raciocínio, podendo alcançar até 19 vezes a capacidade de throughput.

Em termos de preço, a API do Qwen3.5-Plus custa apenas 0,8 yuan por milhão de tokens, sendo 1/18 do preço do Gemini 3 Pro.

Quatro avanços tecnológicos principais: da inovação arquitetônica à estabilidade sistêmica

As principais inovações do Qwen3.5 se concentram em quatro dimensões. Primeiro, o mecanismo de atenção híbrido, que ensina o modelo a “ler com detalhes e também com visão geral”. Nos modelos tradicionais, ao lidar com textos longos, cada token precisa fazer atenção total a todo o contexto, o que aumenta exponencialmente o consumo de recursos à medida que o texto fica maior, limitando a capacidade de lidar com longos contextos. O Qwen3.5, ao distribuir dinamicamente os recursos de atenção, consegue focar nas informações importantes para leitura detalhada e nas secundárias para leitura resumida, elevando simultaneamente eficiência e precisão.

Em segundo lugar, a arquitetura de MoE extremamente esparsa. Modelos densos tradicionais ativam todos os parâmetros a cada inferência, o que aumenta o custo computacional proporcional ao número de parâmetros. A inovação do MoE está em ativar apenas os “especialistas” mais relevantes para o conteúdo de entrada. O Qwen3.5 leva essa ideia ao extremo — com 397 bilhões de parâmetros totais, ativando apenas 17 bilhões, consegue usar menos de 5% do poder computacional para acessar toda a base de conhecimento, reduzindo drasticamente o custo de inferência.

O terceiro avanço é a capacidade nativa de previsão de múltiplos tokens. Modelos tradicionais geram token por token, o que limita a eficiência. O Qwen3.5, já durante o treinamento, aprende a fazer previsões conjuntas para múltiplas posições futuras, quase dobrando a velocidade de inferência. Essa “planificação em múltiplas etapas” melhora significativamente tarefas de geração de textos longos, completamento de código e diálogos multi-turno, proporcionando respostas quase instantâneas.

Por fim, a otimização da estabilidade de treinamento em nível de sistema garante que essas inovações arquitetônicas funcionem de forma estável em treinamentos de escala ultra grande. Como exemplo, o mecanismo de atenção com controle de atenção, premiado na NeurIPS 2025, adiciona uma “chave inteligente” na saída da camada de atenção, regulando o fluxo de informações de forma semelhante a uma torneira inteligente — evitando que informações relevantes sejam abafadas ou que informações irrelevantes sejam amplificadas excessivamente, melhorando a precisão e a capacidade de generalização em contextos longos. Além disso, estratégias de normalização e roteamento de especialistas, entre outras melhorias, garantem a estabilidade do treinamento em larga escala.

De “resposta” a “ação”: uma nova paradigma de interação homem-máquina

Ao contrário dos chatbots tradicionais, o Qwen3.5 não se limita a responder. Sua capacidade de agente visual permite que ele “observe” telas de smartphones e computadores, compreendendo com precisão a posição e a função de elementos da interface, e executando ações de forma autônoma. Em demonstrações oficiais, o usuário só precisa dar comandos em linguagem natural, e o modelo pode realizar tarefas entre aplicativos móveis ou processar dados e automatizar fluxos complexos no PC, elevando a colaboração homem-máquina a um novo patamar.

Essa capacidade é possível graças à avançada compreensão visual. O Qwen3.5 consegue localizar elementos na tela, identificar botões, caixas de texto, ícones, e suas funções, simulando cliques, deslizes e entradas de texto. Através da codificação visual e análise semântica do conteúdo da tela, a IA adquire habilidades de interação “visual” e “manual” com o mundo digital. Os usuários podem optar por implantar localmente ou na nuvem, equilibrando eficiência de processamento e controle de dados.

A colaboração entre aplicações é outra inovação do Qwen3.5. Em demonstrações, o modelo consegue extrair informações de e-mails, ler dados de planilhas e enviar mensagens via aplicativos de comunicação, rompendo as barreiras tradicionais entre diferentes sistemas. Essa automação de múltiplos passos transforma a integração de aplicações em uma realidade, pois a IA atua como um “agente do usuário”, coordenando aplicações de forma eficiente e segura, criando uma experiência digital contínua e sem costuras. Essa evolução de ferramentas isoladas para assistentes digitais versáteis abre novas possibilidades para a colaboração homem-máquina.

6 minutos e 48 segundos, de um esboço a um código: quão poderosa é a “leitura da mente” do Qwen3.5?

Ainda mais impressionante é a capacidade de programação visual do Qwen3.5. Em um vídeo de demonstração, o usuário apenas apontou um esboço de uma página web, e o modelo em 6 minutos e 48 segundos gerou um código de página bem estruturado, pronto para execução, incluindo imagens de alta qualidade automaticamente selecionadas. Essa “transformação de esboço em produto” demonstra uma compreensão profunda das informações visuais, reconhecendo círculos como botões, linhas como divisores, inferindo intenções de design, entendendo “isso é uma barra de navegação” ou “aqui é uma área de conteúdo”, e gerando o código HTML, CSS e JavaScript correspondente.

Detalhes técnicos aprofundados revelam que essa capacidade vem da arquitetura multimodal nativa do Qwen3.5. Diferente de abordagens que combinam “codificador visual + modelo de linguagem” de forma simples, o Qwen3.5 integra texto e visual durante o pré-treinamento, permitindo uma compreensão profunda de ambos os tipos de dado simultaneamente. Dados mostram que sua janela de contexto foi ampliada para 1 milhão de tokens, podendo processar vídeos de até duas horas, o que significa assistir a um filme completo e extrair narrativa, relações entre personagens e estilos visuais em documentos ou códigos. Essa memória multimodal de “visão panorâmica” ultrapassa em muito a capacidade de processamento de uma única pessoa.

Aviso de risco e isenção de responsabilidade

        O mercado possui riscos, e investimentos devem ser feitos com cautela. Este conteúdo não constitui recomendação de investimento pessoal, nem leva em consideração objetivos, situação financeira ou necessidades específicas de qualquer usuário. Os usuários devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com suas condições particulares. Investimentos de risco são de responsabilidade do próprio investidor.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.