Згідно з моніторингом Beating, попередня версія відкритої моделі DeepSeek V4 серії, з ліцензією MIT, ваги вже доступні на Hugging Face та ModelScope. Ця серія включає дві MoE моделі: V4-Pro з загалом 1,6 трильйонами параметрів, активує 49B (490 мільярдів) на токен; V4-Flash з 284B (2840 мільярдів) параметрів, активує 13B (130 мільярдів). Обидві підтримують контекст до 1 мільйона токенів. Архітектура має три оновлення: гібридний механізм уваги (стиснена розріджена увага CSA + важка стиснена увага HCA), що значно знижує витрати на довгий контекст, при цьому V4...

Брати, DeepSeek знову зробив великий крок, відкритий код моделі V4 з 1,6 трильйонами параметрів, ліцензія MIT, можна використовувати без обмежень, стиснення пам’яті для довгих текстів до однієї десятої від V3.2. Цей чувак справді сміливий — роздає великі моделі, як капусту, для роздрібних інвесторів у AI — швидше сідайте в цю поїздку, не пропустіть цю хвилю технологічних можливостей, як колись пропустили короля криптовалют.👇👇👇👇👇

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
155.74K Популярність
#
CryptoMarketSeesVolatility
221.2K Популярність
#
IsraelStrikesIranBTCPlunges
31.45K Популярність
#
rsETHAttackUpdate
67.65K Популярність
#
US-IranTalksStall
176.3K Популярність

Закріпити

карта сайту

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити