OpenAI рухнул! В оригинале Scaling law обнаружен баг, все триллионы вычислительных мощностей сожжены зря.

OpenAI вводила в заблуждение всю индустрию ИИ несколько лет!

За последние пять лет вся индустрия ИИ двигалась вперёд под влиянием Scaling Law.

Альтман верил, что уверенность в AGI исходит из этой кривой.

Теперь кто-то заявил: эта кривая с самого начала была ошибочной.

Это не задним умом. Это говорит исследователь, который в то время занимался оптимизацией больших моделей в OpenAI — Diogo Almeida.

Только что он опубликовал блог с холодным заголовком — «Scaling Laws, Honestly».

Первая строка сразу ставит точку: первоначальная версия scaling law была ошибочной, потому что содержала баг.

Ссылка: https://www.completeskeptic.com/p/scaling-laws-honestly

Sander Dieleman из DeepMind, прославившийся диффузионными моделями, сразу же опубликовал это в Twitter, назвав интересной историей из LLM:

Оригинальный scaling law был ошибочным из-за бага, что, скорее всего, заставило индустрию потратить огромные вычислительные мощности на кучу "слишком больших, недостаточно обученных" моделей.

Один баг — два года сожжены.

Когда баг был вскрыт, мы увидели не только чёрную дыру вычислительных ресурсов, но и гораздо более глубокую границу интеллекта, переосмысленную самим языком, гораздо глубже, чем можно было представить.

Scaling Law — это LLM-версия «геоцентрической системы»

В 2020 году OpenAI сделала вывод: при фиксированном бюджете вычислений вы должны в первую очередь увеличивать модель, а не кормить её большим количеством данных.

Формулой: оптимальное количество параметров пропорционально 0,73 степени вычислительной мощности — параметры — это переменная, которую нужно резко увеличивать.

Эта фраза напрямую определила внешний вид поколения GPT-3. Наращивать параметры. До упора. 1750 миллиардов.

Она сказала разработчикам по всему миру: не спрашивай, просто наращивай параметры; если сделаешь модель достаточно большой, произойдёт чудо.

Два года спустя DeepMind выпустила Chinchilla, перевернув этот вывод вверх дном: модель и данные следует увеличивать примерно с одинаковой важностью, примерно 20 токенов на каждый параметр — это выгодно.

Они обучили 70-миллиардный Chinchilla на 1,4 триллиона токенов — размером менее половины GPT-3, но данных в четыре раза больше.

В результате при том же бюджете вычислений он полностью превзошёл 280-миллиардный Gopher, обученный всего на 300 миллиардах токенов.

Если перевести на человеческий язык: та же сумма денег, один вырос "раздутым" силачом, другой — поджарым бойцом.

Спустя три года, выпускница Пекинского университета Вэн Лай глубоко обсудила в последующих исследованиях основное объяснение различий между ними, а именно, что разница заключается в способе подсчёта общего количества параметров.

И это ещё не всё. Даже «правильный» Chinchilla сам не без греха.

В 2024 году Бейсироглу и другие извлекли точки данных из оригинала Chinchilla и перезапустили, обнаружив, что и в его собственной подгонке был баг:

Масштаб потерь в оптимизаторе был установлен слишком высоко, что привело к усреднению Huber loss по выборкам, а не суммированию, из-за чего подгонка остановилась преждевременно.

Научная статья, исправляющая баг, сама содержала другой баг.

К этому моменту «первый принцип», который миллионы людей постоянно повторяли, вдруг начал шататься.

Так называемый Scaling Law никогда не был железным физическим законом, как три закона Ньютона, это лишь эмпирически подогнанная кривая.

Когда Diogo Almeida считает, что правда не в этом, не в том, что методы разные, «а в том, что первоначальная версия scaling law сама содержала баг».

Три трюка OpenAI обманули мировое AI-сообщество?

Чтобы создать ложь, в которую поверит весь мир ИИ, достаточно трёх шагов.

Шаг 1: Заключить данные в тюрьму.

Статья OpenAI кормила все модели — будь то ребёнок, ещё только учащийся ходить (маленькая модель), или уже выросший гигант — абсолютно одинаковым «количеством еды». Около 130B токенов данных.

Маленькие модели были «перекормлены» или даже «переполнены», а большие модели, которым действительно нужно море данных для заполнения ёмкости, страдали от серьёзного недоедания в рамках одного бюджета токенов.

Статья Chinchilla позже справедливо указала: они использовали «фиксированное количество обучающих токенов и план скорости обучения для всех моделей» (fixed number of training tokens and learning rate schedule).

Это как заставить детсадовца и аспиранта решать один и тот же тест за одно и то же время, а затем заявить, что «результаты зависят только от таланта».

Шаг 2: Затыкание ушей при краже колокольчика — затухание LR.

Они использовали затухание косинусоидальной скорости обучения (Cosine Decay), чтобы скорость обучения плавно стремилась к нулю по мере приближения к концу обучения.

Когда обучение почти достигало заданного конца, скорость обучения искусственно постепенно обнулялась, и прогресс модели, естественно, «выравнивался».

Как только кривая выравнивалась, это выглядело так: модель уже всему научилась, кормить бесполезно.

Исследователи делали вывод: «Добавление данных бесполезно, модель насыщена».

Это не предел модели, это скорость обучения искусственно перерезала путь роста модели. Она создавала совершенную иллюзию: производительность достигла потолка, добавление данных бесполезно.

Но теперь мы знаем, что те большие модели вовсе не достигли предела.

Шаг 3: Высокомерие авторитета.

Третий, и самый коварный шаг: в статье написали, что результат «в основном не зависит от графика скорости обучения» (largely independent of learning rate schedule).

Хотя многие, включая тогдашнего сотрудника OpenAI Diogo Almeida, смутно чувствовали, что что-то не так, в условиях фиксированного верхнего предела токенов этот вывод технически верен.

Но он как раз не применим к идеальному миру «бесконечных данных», который Scaling Law на самом деле пытается описать.

Они выдали локальную истину в ограниченных условиях за универсальный закон вселенной.

Три шага вместе дают закон, который одновременно ошибочен и чрезвычайно трудно отладить.

Даже сам Diogo признаёт: в то время он тоже занимался оптимизацией в OpenAI и не заметил этот баг — та кривая скорости обучения выглядела слишком «тщательно настроенной», кому придёт в голову её подозревать.

GPU тратятся впустую, неправильное распределение вычислительной мощности

Под руководством ошибочной формулы OpenAI индустрия ИИ вошла в эпоху «великая сила творит великие чудеса».

Это означает, что за последние несколько лет самые умные головы и самые дефицитные вычислительные мощности в мире были потрачены впустую на неэффективное масштабирование.

Это не просто вопрос денег, это в гонке на выживание к AGI (общему искусственному интеллекту) человечество из-за неправильной настройки скорости обучения коллективно мчалось по неправильной трассе тысячи километров.

Если обнаружение бага вызывает боль, то последовавшее глубокое размышление вызывает страх.

Исследователь Адам Захари Вассерман указал на слепое пятно, упущенное всеми: даже если формула исправлена, текущий Scaling Law — это всего лишь «Scaling Law английского языка».

Он провёл противоречащий интуиции эксперимент: обучал модели с одинаковой архитектурой и одинаковыми вычислительными мощностями.

В результате оказалось, что эффективность французской модели в достижении определённых грамматических навыков была в 50–100 раз выше, чем у английской.

Почему? Потому что английский — это язык с «бедной морфологией».

Он слишком полагается на распределительные закономерности, требуя от модели угадывать значения слов в массе данных; тогда как языки с богатой морфологией или строгой структурой, такие как французский или китайский, сами по себе содержат много чёткой информации в лексике.

Это означает, что все наши текущие схемы распределения вычислительных мощностей основаны на одном из самых «прожорливых» данных, наименее эффективных языков.

Когда ты думаешь, что исследуешь физический закон «общего интеллекта», на самом деле ты просто измеряешь, «насколько английский язык расточителен к вычислительным мощностям».

Это как пытаться разработать стандарт питания для всех живых существ во вселенной, изучая аппетит одной свиньи — это не только предвзятость, но и ограниченность познания.

Мы могли бы использовать меньшие модели, больше качественных данных и добиться более высокой производительности.

Мы могли бы сэкономить электричество и тепло, вырабатываемые десятками тысяч H100.

Мы могли бы войти в эру «эффективного ИИ» на два года раньше.

Источник статьи: Новый IQ

Предупреждение о рисках и отказ от ответственности

        Рынок рискован, инвестиции требуют осторожности. Эта статья не является персональной инвестиционной рекомендацией и не учитывает конкретные инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователи должны учитывать, соответствуют ли какие-либо мнения, точки зрения или выводы в этой статье их конкретной ситуации. Инвестиции на основе этого делаются на свой страх и риск.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено