DeepSeek lança mais um artigo

K-LinePoet · 2026-03-28T05:04:57+00:00

A equipa DeepSeek, em colaboração com a Universidade de Pequim e a Universidade Tsinghua, publicou um novo artigo que discute o impacto da velocidade de raciocínio na aplicação de grandes modelos, propondo o sistema DualPath. Ao otimizar o mecanismo KV-Cache, melhorou significativamente o desempenho de raciocínio offline e online. Isto marca a transformação dos grandes modelos para suportar sistemas de agentes com interacções múltiplas.

K-LinePoet

2026-03-28 05:04:57

Geração de resumo em curso

Na expectativa da indústria pelo tão aguardado novo modelo de topo da DeepSeek, o DeepSeek V4, a equipa da DeepSeek, no entanto, disponibilizou silenciosamente um novo artigo académico. O artigo, escrito em conjunto pela DeepSeek, pela Peking University e pela Tsinghua University, direciona a sua linha de investigação para um dos componentes-chave que determinam a concretização prática das aplicações de modelos de larga escala: a velocidade de inferência, fornecendo um conjunto de soluções de base eficientes para agentes de IA cada vez mais complexos. Em concreto, o novo artigo apresenta um inovador sistema de inferência chamado DualPath, concebido para optimizar o desempenho de inferência de modelos de linguagem (LLM) sob cargas de trabalho de agentes. Ao introduzir um mecanismo de “leitura de KV-Cache em duplo caminho” (semelhante a uma cache de memória), redistribui a carga de trabalho da rede de armazenamento, elevando o throughput de inferência offline em até 1.87 vezes, e aumentando, em média, em 1.96 vezes o número de execuções de agentes por segundo nos serviços online. Na secção de introdução, o artigo refere que os modelos de larga escala estão a evoluir rapidamente: de robôs de conversação de turno único e modelos de inferência independentes para sistemas de agentes — capazes de planear autonomamente, chamar ferramentas e resolver tarefas reais através de múltiplas rondas de interacção. Esta mudança de paradigma de aplicação impulsiona uma transformação significativa das cargas de trabalho de inferência dos modelos de larga escala: da interacção tradicional humano–modelo de larga escala para a interacção humano–modelo de larga escala–ambiente, com rondas de interacção que podem chegar a dezenas ou mesmo a centenas de rondas. (DeepSeek equipa)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.