Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Чжан Ифань раскрывает полные технические характеристики DeepSeek V4: 1,6 трлн параметров, 384 эксперта с 6 активированными
Согласно мониторингу Dongcha Beating, аспирант Принстона Йифан Чжан обновил технические детали DeepSeek V4 в X. Он анонсировал «V4 на следующей неделе» 19 апреля и перечислил три названия архитектурных компонентов, предоставив полную таблицу параметров сегодня вечером, а также впервые раскрыл существование облегчённой версии V4-Lite с 285 миллиардов параметров. Общие параметры V4 составляют 1,6 триллиона. Механизм внимания — DSA2, который объединяет две схемы разреженного внимания: DSA (DeepSeek Sparse Attention), используемое в V3.2, и NSA (Native Sparse Attention), предложенное в статье ранее в этом году. Размер головы — 512, в паре с разреженным MQA и SWA (Sliding Window Attention). Слой MoE содержит всего 384 эксперта, из которых активируются 6 одновременно, с использованием Fused MoE Mega-Kernel. Остаточные соединения следуют за Hyper-Connections. Детали, раскрытые для этапа обучения, включают: используемый оптимизатор — Muon (матричный оптимизатор, применяющий ортогонализацию Ньютона-Шульца к обновлениям импульса), длина контекста для предобучения — 32K, а этап обучения с подкреплением использует GRPO с добавленной коррекцией по дивергенции Кульбака–Лейблера. Итоговая длина контекста увеличена до 1 миллиона. Модальность — чистый текст. Чжан не занимает должности в DeepSeek, и DeepSeek не ответил на вышеуказанную информацию.