Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
CFD
Деривативы CFD на акции США
Акции США
Доступ к реальным акциям США и ETF
Акции Гонконга
Торгуйте качественными акциями, котирующимися в Гонконге
Корейские акции
SK Hynix
Торгуйте реальными корейскими акциями и инвестируйте в популярные активы
Фьючерсы на акции
Высокое кредитное плечо, круглосуточная торговля
Токенизированные акции
Обеспечено реальными акциями
IPO Access
Откройте полный доступ к глобальным IPO акций
GUSD
Создать GUSD для получения доходности казначейских RWA
Мероприятия, связанные с акциями
Торгуйте популярными акциями и получайте щедрые эирдропы
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
IPO Access
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
OpenAI рухнул! В оригинале Scaling law обнаружен баг, все триллионы вычислительных мощностей сожжены зря.
OpenAI вводила в заблуждение всю индустрию ИИ несколько лет!
За последние пять лет вся индустрия ИИ двигалась вперёд под влиянием Scaling Law.
Альтман верил, что уверенность в AGI исходит из этой кривой.
Теперь кто-то заявил: эта кривая с самого начала была ошибочной.
Это не задним умом. Это говорит исследователь, который в то время занимался оптимизацией больших моделей в OpenAI — Diogo Almeida.
Только что он опубликовал блог с холодным заголовком — «Scaling Laws, Honestly».
Первая строка сразу ставит точку: первоначальная версия scaling law была ошибочной, потому что содержала баг.
Sander Dieleman из DeepMind, прославившийся диффузионными моделями, сразу же опубликовал это в Twitter, назвав интересной историей из LLM:
Один баг — два года сожжены.
Когда баг был вскрыт, мы увидели не только чёрную дыру вычислительных ресурсов, но и гораздо более глубокую границу интеллекта, переосмысленную самим языком, гораздо глубже, чем можно было представить.
Scaling Law — это LLM-версия «геоцентрической системы»
В 2020 году OpenAI сделала вывод: при фиксированном бюджете вычислений вы должны в первую очередь увеличивать модель, а не кормить её большим количеством данных.
Формулой: оптимальное количество параметров пропорционально 0,73 степени вычислительной мощности — параметры — это переменная, которую нужно резко увеличивать.
Эта фраза напрямую определила внешний вид поколения GPT-3. Наращивать параметры. До упора. 1750 миллиардов.
Она сказала разработчикам по всему миру: не спрашивай, просто наращивай параметры; если сделаешь модель достаточно большой, произойдёт чудо.
Два года спустя DeepMind выпустила Chinchilla, перевернув этот вывод вверх дном: модель и данные следует увеличивать примерно с одинаковой важностью, примерно 20 токенов на каждый параметр — это выгодно.
Они обучили 70-миллиардный Chinchilla на 1,4 триллиона токенов — размером менее половины GPT-3, но данных в четыре раза больше.
В результате при том же бюджете вычислений он полностью превзошёл 280-миллиардный Gopher, обученный всего на 300 миллиардах токенов.
Если перевести на человеческий язык: та же сумма денег, один вырос "раздутым" силачом, другой — поджарым бойцом.
Спустя три года, выпускница Пекинского университета Вэн Лай глубоко обсудила в последующих исследованиях основное объяснение различий между ними, а именно, что разница заключается в способе подсчёта общего количества параметров.
И это ещё не всё. Даже «правильный» Chinchilla сам не без греха.
В 2024 году Бейсироглу и другие извлекли точки данных из оригинала Chinchilla и перезапустили, обнаружив, что и в его собственной подгонке был баг:
К этому моменту «первый принцип», который миллионы людей постоянно повторяли, вдруг начал шататься.
Так называемый Scaling Law никогда не был железным физическим законом, как три закона Ньютона, это лишь эмпирически подогнанная кривая.
Когда Diogo Almeida считает, что правда не в этом, не в том, что методы разные, «а в том, что первоначальная версия scaling law сама содержала баг».
Три трюка OpenAI обманули мировое AI-сообщество?
Чтобы создать ложь, в которую поверит весь мир ИИ, достаточно трёх шагов.
Шаг 1: Заключить данные в тюрьму.
Статья OpenAI кормила все модели — будь то ребёнок, ещё только учащийся ходить (маленькая модель), или уже выросший гигант — абсолютно одинаковым «количеством еды». Около 130B токенов данных.
Маленькие модели были «перекормлены» или даже «переполнены», а большие модели, которым действительно нужно море данных для заполнения ёмкости, страдали от серьёзного недоедания в рамках одного бюджета токенов.
Статья Chinchilla позже справедливо указала: они использовали «фиксированное количество обучающих токенов и план скорости обучения для всех моделей» (fixed number of training tokens and learning rate schedule).
Это как заставить детсадовца и аспиранта решать один и тот же тест за одно и то же время, а затем заявить, что «результаты зависят только от таланта».
Шаг 2: Затыкание ушей при краже колокольчика — затухание LR.
Они использовали затухание косинусоидальной скорости обучения (Cosine Decay), чтобы скорость обучения плавно стремилась к нулю по мере приближения к концу обучения.
Когда обучение почти достигало заданного конца, скорость обучения искусственно постепенно обнулялась, и прогресс модели, естественно, «выравнивался».
Как только кривая выравнивалась, это выглядело так: модель уже всему научилась, кормить бесполезно.
Исследователи делали вывод: «Добавление данных бесполезно, модель насыщена».
Это не предел модели, это скорость обучения искусственно перерезала путь роста модели. Она создавала совершенную иллюзию: производительность достигла потолка, добавление данных бесполезно.
Но теперь мы знаем, что те большие модели вовсе не достигли предела.
Шаг 3: Высокомерие авторитета.
Третий, и самый коварный шаг: в статье написали, что результат «в основном не зависит от графика скорости обучения» (largely independent of learning rate schedule).
Хотя многие, включая тогдашнего сотрудника OpenAI Diogo Almeida, смутно чувствовали, что что-то не так, в условиях фиксированного верхнего предела токенов этот вывод технически верен.
Но он как раз не применим к идеальному миру «бесконечных данных», который Scaling Law на самом деле пытается описать.
Они выдали локальную истину в ограниченных условиях за универсальный закон вселенной.
Три шага вместе дают закон, который одновременно ошибочен и чрезвычайно трудно отладить.
Даже сам Diogo признаёт: в то время он тоже занимался оптимизацией в OpenAI и не заметил этот баг — та кривая скорости обучения выглядела слишком «тщательно настроенной», кому придёт в голову её подозревать.
GPU тратятся впустую, неправильное распределение вычислительной мощности
Под руководством ошибочной формулы OpenAI индустрия ИИ вошла в эпоху «великая сила творит великие чудеса».
Это означает, что за последние несколько лет самые умные головы и самые дефицитные вычислительные мощности в мире были потрачены впустую на неэффективное масштабирование.
Это не просто вопрос денег, это в гонке на выживание к AGI (общему искусственному интеллекту) человечество из-за неправильной настройки скорости обучения коллективно мчалось по неправильной трассе тысячи километров.
Если обнаружение бага вызывает боль, то последовавшее глубокое размышление вызывает страх.
Исследователь Адам Захари Вассерман указал на слепое пятно, упущенное всеми: даже если формула исправлена, текущий Scaling Law — это всего лишь «Scaling Law английского языка».
Он провёл противоречащий интуиции эксперимент: обучал модели с одинаковой архитектурой и одинаковыми вычислительными мощностями.
В результате оказалось, что эффективность французской модели в достижении определённых грамматических навыков была в 50–100 раз выше, чем у английской.
Почему? Потому что английский — это язык с «бедной морфологией».
Он слишком полагается на распределительные закономерности, требуя от модели угадывать значения слов в массе данных; тогда как языки с богатой морфологией или строгой структурой, такие как французский или китайский, сами по себе содержат много чёткой информации в лексике.
Это означает, что все наши текущие схемы распределения вычислительных мощностей основаны на одном из самых «прожорливых» данных, наименее эффективных языков.
Когда ты думаешь, что исследуешь физический закон «общего интеллекта», на самом деле ты просто измеряешь, «насколько английский язык расточителен к вычислительным мощностям».
Это как пытаться разработать стандарт питания для всех живых существ во вселенной, изучая аппетит одной свиньи — это не только предвзятость, но и ограниченность познания.
Мы могли бы использовать меньшие модели, больше качественных данных и добиться более высокой производительности.
Мы могли бы сэкономить электричество и тепло, вырабатываемые десятками тысяч H100.
Мы могли бы войти в эру «эффективного ИИ» на два года раньше.
Источник статьи: Новый IQ
Предупреждение о рисках и отказ от ответственности