10 квітня офіційний блог DeepSeek опублікував статтю, яка представляє DeepSeek V4, флагманську модель, яка буде запущена компанією DeepSeek. Ця модель не лише перевищує межі масштабів параметрів, але й обіцяє безпрецедентну ефективність. Очікується, що DeepSeek V4 зможе обробляти 1 трильйон (1T) параметрів, нативно підтримує мультимодальні дані, включаючи текст, зображення, відео та аудіо, і має контекстне вікно довжиною в 1 мільйон токенів (еквівалентно 15-20 повним романам), що робить його прямим конкурентом західним гігантам, таким як GPT-5.4 від OpenAI та Claude Opus 4.5 від Anthropic. Ціни на API для DeepSeek V4 у 10-50 разів дешевші, ніж у GPT-5.4 та Claude Opus 4.5; очікується, що DeepSeek V4 буде випущений з відкритим кодом під ліцензією Apache 2.0. DeepSeek V4 може працювати локально на системах з двома RTX 4090 або однією RTX 5090. Крім того, DeepSeek представив три революційні інновації для DeepSeek V4: 1. Пам’ять енграм; 2. Мультиограничена гіперзв’язок (mHC); 3. Розріджений механізм уваги (DSA) та Lightning індексатор. Більше того, у офіційному заявленні DeepSeek зазначається, що через суворі експортні обмеження США на високоякісні графічні процесори NVIDIA (такі як B300 і H200), DeepSeek оптимізував V4, щоб здебільшого покладатися на чіпи, вироблені в Китаї, для виведення. Хоча початкове навчання все ще могло використовувати обладнання NVIDIA (наприклад, H800), модель була високоефективно оптимізована для чіпів Huawei Ascend 950PR і Cambricon MLU.

Переглянути оригінал
post-image
post-image
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити