Ollama Cloud colocou DeepSeek V4-Flash à venda, com inferência em servidores nos EUA, disponibilizando três conjuntos de comandos de acesso rápido para ligar ao Claude Code, OpenClaw e Hermes. V4-Flash/V4-Pro adoptam uma arquitectura MoE, com suporte nativo para contexto de 1M, e reduzem custos com compressão Token-wise + atenção esparsa DSA; em cenários de 1M, os FLOPs por token caem 27% e a cache KV reduz 10%. A API é compatível com OpenAI ChatCompletions e Anthropic, facilitando a alternância entre vários fluxos de trabalho, reduzindo custos e riscos de soberania dos dados.

ChainNewsAbmedia

2026-04-24 10:45:01

Geração de resumo em curso

O produto de execução de modelos de IA local Ollama foi anunciado publicamente na plataforma X a 24/4, disponibilizando o modelo V4-Flash, lançado no dia anterior pela nova empresa de IA chinesa DeepSeek, no serviço Ollama Cloud. O servidor de inferência está sediado nos EUA e fornece três conjuntos de comandos de um toque para que os programadores liguem diretamente o V4-Flash a fluxos de trabalho populares de desenvolvimento de software de IA, como Claude Code, OpenClaw e Hermes.

deepseek-v4-flash is agora disponível na nuvem do Ollama! Alojado nos EUA. Experimente com Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Experimente com OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Experimente com Hermes: ollama launch hermes…

— ollama (@ollama) 24 de abril de 2026

Pré-visualização DeepSeek V4: duas dimensões, 1M de contexto

De acordo com o anúncio publicado pela documentação oficial da API da DeepSeek a 24/4, o DeepSeek-V4 Preview é disponibilizado em simultâneo em duas dimensões:

Modelo Número total de parâmetros Parâmetros ativos Enquadramento DeepSeek-V4-Pro 1,6 trilião 490 mil milhões Destinado a competir com a flagship fechada DeepSeek-V4-Flash 2.840 mil milhões 130 mil milhões Rápido, eficiente e de baixo custo

Ambas as versões adoptam uma arquitectura Mixture-of-Experts (MoE) e suportam nativamente um contexto longo de 1 milhão de tokens. A DeepSeek declarou no anúncio: «1M de contexto é agora o valor predefinido para todos os serviços oficiais da DeepSeek.»

Inovação de arquitectura: DSA atenção esparsa + compressão por token

As principais melhorias de arquitectura da série V4 incluem:

Compressão por token combinada com DSA (DeepSeek Sparse Attention) — para reduzir drasticamente o custo da computação de inferência e do consumo de memória do cache KV em contextos extremamente longos

Em comparação com a V3.2, no cenário de 1 milhão de tokens de contexto, o V4-Pro precisa apenas de 27% dos FLOPs por token para inferência, e o cache KV precisa apenas de 10%

Suporta a comutação entre dois modos, Thinking e Non-Thinking, para corresponder a necessidades de raciocínio profundo em diferentes tipos de tarefas

No nível da API, é compatível simultaneamente com as especificações OpenAI ChatCompletions e com as APIs da Anthropic, reduzindo o custo de migração dos clientes existentes do Claude/GPT.

Três comandos de arranque imediato da Ollama Cloud

A página oficial do modelo da Ollama, usando o identificador do modelo deepseek-v4-flash:cloud, fornece um serviço de inferência na nuvem. Os programadores podem usar os seguintes três conjuntos de comandos para ligar directamente o V4-Flash aos actuais fluxos de trabalho de desenvolvimento de software de IA:

Fluxo de trabalho Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Vale notar que o sinal de «servidor nos EUA» é importante. Para empresas e programadores da Europa/América, a maior preocupação ao usar modelos de código aberto chineses é a devolução de dados para a China; ao optar por colocar a camada de inferência do V4-Flash nos EUA, a Ollama significa que o prompt e o conteúdo do código não saem da jurisdição dos EUA, reduzindo o atrito a nível de conformidade e soberania de dados.

Porque é que isto é importante para a indústria de IA

Ao ligar o DeepSeek V4-Flash, a Ollama Cloud e o Claude Code, que antes eram ecossistemas independentes, são gerados três significados em camadas:

Rota de custos: os 130 mil milhões de parâmetros activos do V4-Flash são muito inferiores aos da GPT-5.5 (entrada 5 dólares, saída 30 dólares por 1 milhão de tokens) e a flags como o Claude Opus 4.7; para tarefas de agentes de média/pequena escala, resumos em lote, automação de testes, etc., espera-se que o custo unitário diminua significativamente

Camada intermédia de risco geográfico: como a Ollama é uma camada de inferência intermediária registada nos EUA, permite que os utilizadores empresariais de modelos nativos chineses contornem a preocupação de «enviar dados directamente para o servidor de Pequim do DeepSeek»; esta é uma solução prática para a expansão internacional de modelos de código aberto

Comutação imediata para programadores: os utilizadores do Claude Code e do OpenClaw podem alternar entre modelos numa única linha no terminal, sem necessidade de alterar a estrutura do prompt nem as definições do IDE; para cenários como «testes de regressão com vários modelos» e «tarefas em lote sensíveis a custos», isto liberta efectivamente produtividade em ambiente de produção

Articulação com notícias anteriores do DeepSeek

A divulgação desta vez do V4 e a integração rápida com a Ollama Cloud ocorre num contexto em que a DeepSeek está a negociar a primeira ronda de financiamento externo e uma valorização de 20 mil milhões de dólares. O V4 é a prova de produto fundamental no processo de capitalização da DeepSeek; e, com uma estratégia de código aberto + parceiros de alojamento internacional para difusão rápida, é uma estratégia de disputa de velocidade antes de estabelecer a hegemonia do ecossistema de programadores. Para a OpenAI e a Anthropic, um modelo substituto de código aberto que permite a comutação numa única linha dentro do Claude Code é uma nova variável na disputa pela liderança de fluxos de trabalho de agentes.

Este artigo «DeepSeek V4-Flash chega à Ollama Cloud, servidor nos EUA: Claude Code, OpenClaw com ligação imediata» apareceu primeiro em 鏈新聞 ABMedia.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
401.22K Popularidade
#
#FedHoldsRateButDividesDeepen
20.58K Popularidade
#
IsraelStrikesIranBTCPlunges
36.48K Popularidade
#
#DailyPolymarketHotspot
724.72K Popularidade
#
BitcoinSpotVolumeNewLow
162.66M Popularidade

Fixar

DeepSeek V4-Flash chega ao Ollama Cloud, servidor nos EUA: Claude Code, OpenClaw ligação automática com um clique

Tópicos em destaque

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Fixar