Оригінальний закон масштабування був помилковим через баг, що, ймовірно, змусило індустрію витрачати величезні обчислювальні потужності на купу моделей, які були «занадто великими та недотренованими».

Один баг — два роки витрачено.

Коли баг було викрито, ми побачили не лише чорну діру обчислювальних ресурсів, а й межу інтелекту, переосмислену самою мовою, набагато глибшу, ніж ми думали.

Scaling Law виявився «геоцентричною системою» для LLM

У 2020 році OpenAI дійшов висновку: при фіксованому бюджеті обчислень варто насамперед збільшувати модель, а не годувати її більшою кількістю даних.

Формулою: оптимальна кількість параметрів пропорційна обчислювальній потужності в степені 0,73 — параметри, це змінна, на яку варто робити ставку.

Це твердження безпосередньо визначило вигляд покоління GPT-3. Стек параметрів. Стек до смерті. 175 мільярдів.

Воно сказало розробникам у всьому світі: не питай, просто стек параметрів; якщо зробиш модель досить великою, станеться диво.

Через два роки DeepMind випустила Chinchilla, яка перевернула цей висновок: модель і дані слід масштабувати приблизно однаково важливо, приблизно 20 токенів на один параметр.

Вони навчили Chinchilla з 70 мільярдами параметрів на 1,4 трильйона токенів — розмір менше половини GPT-3, а даних у чотири рази більше.

Результат: при тому ж бюджеті обчислень вона повністю перевершила Gopher з 280 мільярдами параметрів, який отримав лише 300 мільярдів токенів.

Людською мовою: за ті самі гроші одну модель вигодували як «роздутого» силача, а іншу — як сухорлявого бійця.

Через три роки затримки випускниця Пекінського університету Вен Лі глибоко дослідила основне пояснення різниці в подальших дослідженнях, а саме те, що розбіжність полягає в способі підрахунку загальної кількості параметрів.

І це ще не все. Навіть «правильний» Chinchilla сам не без гріха.

У 2024 році Бесіроглу та інші витягли дані з оригінальної статті Chinchilla та перезапустили, виявивши, що в їхній власній апроксимації також був баг:

Масштаб втрат в оптимізаторі був встановлений занадто високим, а втрати Х'юбера усереднювалися за зразками, а не сумувалися, що призвело до передчасного завершення апроксимації.

Стаття, яка виправляла баг, сама мала інший баг.

На цьому етапі фраза «перші принципи», яку повторювали незліченна кількість людей, раптом похитнулася.

Так званий Закон масштабування ніколи не був непохитним фізичним законом на кшталт законів Ньютона; це лише емпірично підібрана крива.

Коли Diogo Almeida вважає, що правда не така, не в методі різниця, «а в тому, що оригінальний закон масштабування сам мав баг».

OpenAI трьома прийомами обдурило всю AI-спільноту?

Щоб створити брехню, якій повірить вся AI-спільнота, потрібно лише три кроки.

Крок 1: Ув'язнення даних.

Стаття OpenAI давала всім моделям — незалежно від того, чи це дитина, яка тільки вчиться ходити (маленька модель), чи вже дорослий велетень — однакову «порцію їжі». Приблизно 130B токенів даних.

Маленькі моделі були «перегодовані» або навіть «переповнені», тоді як великі моделі, які справді потребували величезної кількості даних для заповнення своєї ємності, зазнавали серйозного недоїдання в тому ж бюджеті токенів.

Пізніше стаття Chinchilla влучно зазначила: вони використовували «фіксовану кількість навчальних токенів та розклад швидкості навчання для всіх моделей».

Це все одно, що посадити дітей з дитсадка та аспірантів за одну й ту ж контрольну, в один і той же час, а потім стверджувати, що «оцінки залежать лише від здібностей».

Крок 2: Затуляння вух при зменшенні швидкості навчання.

Вони використовували косинусне зменшення швидкості навчання (Cosine Decay), плавно зводячи швидкість навчання до нуля ближче до кінця тренування.

Коли тренування наближалося до заданого кінця, швидкість навчання штучно притискали до нуля, і прогрес моделі природним чином «вирівнювався».

Коли крива вирівнюється, виглядало так, ніби модель вже всього навчилася і більше годувати її марно.

Дослідники зробили висновок: «Додавати дані марно, модель насичена».

Це не межа моделі, це штучне переривання шляху зростання моделі швидкістю навчання. Це створює ідеальну ілюзію: продуктивність досягла стелі, і додавання даних не допоможе.

Але тепер ми знаємо, що ці великі моделі навіть не наблизилися до межі.

Крок 3: Зверхність авторитету.

Третій крок, і найпідступніший: у статті написали, що результат «значною мірою не залежить від розкладу швидкості навчання» (largely independent of learning rate schedule).

Хоча багато хто, включаючи Діого Алмейду, який тоді працював в OpenAI, смутно відчували, щось не так, але за фіксованої межі токенів цей висновок технічно був правильним.

Але він абсолютно не застосовувався до ідеального світу «нескінченних даних», який насправді хотів описати закон масштабування.

Вони прийняли локальну істину за обмежених умов за універсальний закон всесвіту.

Складіть три кроки разом — і ви отримаєте закон, який одночасно помилковий і дуже важко піддається налагодженню.

Навіть сам Діого визнав: тоді він також займався оптимізацією в OpenAI і не помітив цього багу — крива швидкості навчання виглядала надто «ретельно налаштованою», кому б спало на думку підозрювати?

GPU витрачалися даремно, серйозна невідповідність обчислювальних потужностей

Під впливом помилкової формули OpenAI AI-індустрія вступила в еру «великої сили, що творить дива».

Це означає, що за останні кілька років найрозумніші уми світу та найдефіцитніші обчислювальні ресурси були витрачені на неефективне масштабування.

Це не просто питання грошей; це гонка на виживання до AGI (загального штучного інтелекту), де людство через налаштування швидкості навчання колективно мчало по неправильній трасі тисячі кілометрів.

Якщо виявлення багу викликало біль, то подальші глибокі роздуми викликають жах.

Дослідник Адам Закарі Вассерман вказав на сліпу пляму, яку всі ігнорували: навіть після виправлення формули, поточний Scaling Law — це лише «англійський Scaling Law».

Він провів контрінтуїтивний експеримент: навчив моделі з однаковою архітектурою та однаковими обчислювальними ресурсами.

Результат показав, що французька модель досягає певних граматичних здібностей з ефективністю, яка в 50-100 разів вища, ніж англійська модель.

Чому? Тому що англійська — це «морфологічно бідна» мова.

Вона надто покладається на розподільчі закономірності, вимагаючи від моделі вгадувати значення слів у величезних масивах даних; тоді як такі мови, як французька чи китайська, з багатою морфологією або строгою структурою, несуть багато чіткої інформації в самих словах.

Це означає, що всі наші поточні схеми розподілу обчислювальних ресурсів базуються на одній найбільш «дата-ненажерливій» та неефективній мові.

Коли ви думаєте, що досліджуєте фізичні закони «загального інтелекту», ви насправді лише вимірюєте, «наскільки англійська мова марнує обчислювальні потужності».

Це все одно, що намагатися встановити стандарти харчування для всіх істот у Всесвіті, вивчаючи апетит свині — це не лише упередження, а й обмеженість пізнання.

Ми могли б досягти кращої продуктивності з меншими моделями та більшою кількістю якісних даних.

Ми могли б заощадити десятки тисяч годин роботи H100, електроенергію та тепло.

Ми могли б увійти в еру «ефективного ШІ» на два роки раніше.

Джерело: Сіньчжіюань

Попередження про ризики та застереження

        Ринок має ризики, інвестиції потребують обережності. Ця стаття не є індивідуальною інвестиційною рекомендацією і не враховує конкретні інвестиційні цілі, фінансовий стан або потреби окремих користувачів. Користувачі повинні враховувати, чи відповідають будь-які думки, погляди або висновки в цій статті їхній конкретній ситуації. Інвестиції на основі цієї інформації здійснюються на власний ризик.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
gStocksTokenizedStocksLive
4,82M Популярність
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Популярність
#
IsraelStrikesIranBTCPlunges
68,82K Популярність
#
PredictWorldCupShare20000U
235,02K Популярність
#
ETHBreaks1700
152,64M Популярність

Закріплено

карта сайту

OpenAI розвалюється! Автор Scaling law виявив баг, трильйони обчислювальних потужностей згоріли даремно.

Популярні теми

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Закріплено