Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Yifan Zhang раскрывает полные технические характеристики DeepSeek V4: 1,6 трлн параметров, 384 эксперта для активации 6
МЕ Новости, 22 апреля (UTC+8), согласно мониторингу 动察 Beating, аспирант Принстона Yifan Zhang обновил технические детали DeepSeek V4 в X. Он 19 апреля анонсировал «V4 на следующей неделе» и перечислил три названия архитектурных компонентов, сегодня был опубликован полный список параметров, а также впервые раскрыта существующая облегчённая версия V4-Lite с 285 миллиардов параметров. Общий размер V4 составляет 1,6 триллиона. Механизм внимания — DSA2, сочетающий ранее в V3.2 использованные DeepSeek Sparse Attention (DSA) и в начале этого года предложенную в статье Native Sparse Attention (NSA), два варианта разреженного внимания, head-dim 512, в сочетании с Sparse MQA и SWA (скользящее окно внимания). MoE слой содержит 384 эксперта, активируется по 6 одновременно, использует Fused MoE Mega-Kernel. Остаточные соединения продолжают использовать Hyper-Connections. Детали, впервые раскрытые на этапе обучения, включают: оптимизатор Muon (тип матричного оптимизатора, применяющего ортогонализацию Newton-Schulz к обновлению моментов), длину предварительного контекста 32K, на этапе обучения с усиленным обучением используется GRPO с добавлением KL-дивергенции для коррекции. Итоговая длина контекста увеличена до 1 миллиона. Модальность — чистый текст. Zhang не занимает должность в DeepSeek, официальные представители DeepSeek не прокомментировали указанную информацию. (Источник: BlockBeats)