📰 【Найпотужніша модель з відкритим кодом DeepSeek v4 нарешті тут! Модель з 1,6 трильйонами параметрів, ліцензія MIT, довгий текст зменшено до 1/10 пам’яті V3.2】


Згідно з моніторингом Beating, попередня версія відкритої серії DeepSeek V4, з ліцензією MIT, вже доступна на Hugging Face та ModelScope. Ця серія включає дві MoE моделі: V4-Pro з загалом 1,6 трильйонами параметрів, активує 49B (490 мільярдів) на токен; V4-Flash з загалом 284B (2840 мільярдів), активує 13B (130 мільярдів). Обидві моделі підтримують контекст до 1 мільйона токенів. Архітектура має три оновлення: гібридний механізм уваги (стиснений розріджений механізм уваги CSA + важке стиснення уваги HCA), що значно знижує витрати на довгий контекст, при цьому V4…
Брати, DeepSeek знову підняв шум! Модель V4 з 1,6 трильйонами параметрів, відкритий код за ліцензією MIT, пам’ять для довгого тексту зменшена до 1/10 від V3.2. Це справжня технологічна революція, яку не можуть зрівняти ті сміттєві проекти, що торгують повітрям.
$FET $AGIX Ці криптовалюти з концепцією AI, чи зможуть вони цього разу скористатися цим шансом? Старі фанати знають, що Соро-сан найбільше не любить пусті обіцянки, але справжні технологічні прориви потрібно підтримувати рішуче. Не чекайте, поки інститути почнуть піднімати ціну, ви все ще сидите і дивитесь у порожнечу. 👇👇👇👇👇
FET-2,07%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити