Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Sakana AI совместно с NVIDIA: позволяет GPU пропускать до 80% бесполезных вычислений больших моделей, ускорение вывода H100 на 30%
据动察 Beating 监测,Sakana AI 联合英伟达开源了名为 TwELL 的稀疏数据格式及配套加速内核,成功让 GPU 在运行大模型时,跳过那些「结果接近于零」的无效计算。这套方案在不损失模型准确率的前提下,让 H100 的推理速度最高提升 30%,训练最高提速 24%,并大幅节省峰值显存。
大模型的前馈层(FFN)吃掉了绝大部分的参数和算力。但实际上,每次生成文字时,这里有超过 80% 的神经元都处于「休眠状态」(激活值接近零),对最终结果毫无贡献。
如果能跳过这些神经元,就能省下海量算力。
然而,现代 GPU 天生只擅长计算整齐划一的密集矩阵,如果用传统方法去挑出散落的有用数据,光是来回寻找和读取数据的开销,就会把省下来的算力全搭进去。
TwELL 格式正是为了打破这个硬件魔咒。它完全顺着 GPU 的并行逻辑设计:不再像传统方法那样跨区域拼凑非零数据,而是把数据切成 GPU 最擅长处理的小方块(tile)。
这样,GPU 的各个计算核心就能在本地直接打包有用的数据,彻底省去了耗时的全局显存读写,完美融入现代芯片的加速流水线。
在 15 亿参数模型的实测中,只需在训练时加一点轻微的正则化,就能把真正需要计算的神经元比例压低到不足 2%,且七项下游任务的表现均未下降。
数据还揭示了一个规律:模型参数量越大,休眠的神经元就越多(20 亿参数模型的非零比例比 5 亿模型还要低 38%)。
这意味着,在未来追求更大规模的大模型时,这套针对底层硬件的优化将释放出更可观的性能红利。