Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Google выпустила седьмое поколение руководства по обучению разработчиков TPU Ironwood, подробно описывающее оптимизацию системных характеристик
МЕ Новости, 2 апреля (UTC+8), официальное подразделение Google недавно опубликовало руководство для разработчиков по обучению седьмого поколения TPU Ironwood.
Это руководство предназначено для помощи разработчикам в полном использовании системных возможностей TPU Ironwood для эффективного обучения и развертывания передовых моделей искусственного интеллекта.
TPU Ironwood — это специализированная инфраструктура ИИ, разработанная для удовлетворения потребностей в вычислительной мощности моделей с триллионами параметров, которая благодаря межчиповой связке (ICI), оптическому коммутатору (OCS), сети дата-центра (DCN) и объединенной памяти с высокой пропускной способностью (HBM) создает полноценную систему, поддерживающую до 9216 чипов.
В статье подробно описаны ключевые стратегии оптимизации для этого оборудования, включая: использование встроенного блока матричных умножений (MXU) для поддержки обучения FP8 с целью повышения пропускной способности; применение специально оптимизированной для TPU библиотеки ядер JAX Tokamax, которая обрабатывает длинные контексты и неравномерные тензоры в гибридных моделях экспертов с помощью “прыжкового внимания” и “группового матричного умножения Megablox”; использование четвертого поколения разреженных ядер (SparseCore) для разгрузки операций коллективной коммуникации с целью скрытия задержек; тонкую настройку распределения быстрой внутренней памяти TPU (VMEM) для уменьшения задержек памяти; а также выбор оптимальной стратегии разбиения (например, FSDP, TP, EP) в зависимости от размера модели, архитектуры и длины последовательности. (Источник: InFoQ)