Grande Modelo丨Meituan lança o modelo multimodal nativo LongCat-Next

robot
Geração de resumo em curso

A Meituan (03690) publicou e abriu totalmente o código de um modelo de linguagem multimodal nativo LongCat-Next, bem como o seu componente central, o segmentador visual discreto nativo de resolução nativa (dNaViT).

Este modelo realiza, pela primeira vez, o mapeamento unificado de imagens, voz e texto para tokens discretos de mesma origem. Em vez de uma arquitetura “montada” tradicional, centrada na linguagem, adota em todo o percurso o paradigma de “predição do próximo token” (Next Token Prediction, NTP). O objetivo é tornar a visão e a voz modalidades de entrada nativas da inteligência artificial (IA), melhorando as capacidades de compreensão e geração multimodal. O modelo é disponibilizado em código aberto para programadores a nível global e é adequado para o desenvolvimento de aplicações multimodais localizadas por idioma.

A Meituan tinha anteriormente lançado e aberto o código do LongCat-Flash-Thinking-2601, que é uma versão atualizada do modelo LongCat-Flash-Thinking. Em critérios de avaliação fundamentais como a pesquisa orientada por agentes (Agentic Search), a utilização de ferramentas por agentes (Agentic Tool Use) e a inferência de interação de ferramentas (TIR), atingiu, em todos os casos, o nível SOTA entre modelos open source.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar