Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
CFD
CFD-деривативи на акції США
Акції США
Отримайте доступ до реальних акцій США та ETF
Акції Гонконгу
Торгуйте якісними акціями з лістингом у Гонконгу
Корейські акції
SK Hynix
Торгуйте реальними корейськими акціями та інвестуйте в популярні активи
Ф'ючерси на акції
Високе кредитне плече, торгівля 24/7
Токенізовані акції
Забезпечено реальними фондовими активами
IPO Access
Отримайте повний доступ до глобальних IPO акцій
GUSD
Мінтіть GUSD для отримання дохідності від казначейських RWA
Активності з акціями
Торгуйте популярними акціями та відкривайте щедрі аірдропи
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
IPO Access
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Gate Wealth
візьміть під контроль своє фінансове майбутнє
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
USD1 9% річних
Стейкінг в 1 клік, дохід щодня
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
OpenAI розвалюється! Автор Scaling law виявив баг, трильйони обчислювальних потужностей згоріли даремно.
OpenAI вводило в оману всю AI-спільноту кілька років!
За останні п'ять років всю AI-індустрію штовхав вперед Закон масштабування (Scaling Law).
Впевненість Альтмана в AGI базувалася на цій кривій.
Тепер хтось вийшов і сказав: ця крива з самого початку була помилковою.
Не заднім розумом. Це сказав дослідник Diogo Almeida, який тоді працював в OpenAI над оптимізацією великих моделей.
Щойно він опублікував блог із крижаним заголовком — «Scaling Laws, Honestly».
Перший рядок прямо каже: оригінальна версія закону масштабування була помилковою через наявність багу.
Sander Dieleman з DeepMind, який прославився дифузійними моделями, одразу підхопив це в Twitter, сказавши, що це цікава історія LLM:
Один баг — два роки витрачено.
Коли баг було викрито, ми побачили не лише чорну діру обчислювальних ресурсів, а й межу інтелекту, переосмислену самою мовою, набагато глибшу, ніж ми думали.
Scaling Law виявився «геоцентричною системою» для LLM
У 2020 році OpenAI дійшов висновку: при фіксованому бюджеті обчислень варто насамперед збільшувати модель, а не годувати її більшою кількістю даних.
Формулою: оптимальна кількість параметрів пропорційна обчислювальній потужності в степені 0,73 — параметри, це змінна, на яку варто робити ставку.
Це твердження безпосередньо визначило вигляд покоління GPT-3. Стек параметрів. Стек до смерті. 175 мільярдів.
Воно сказало розробникам у всьому світі: не питай, просто стек параметрів; якщо зробиш модель досить великою, станеться диво.
Через два роки DeepMind випустила Chinchilla, яка перевернула цей висновок: модель і дані слід масштабувати приблизно однаково важливо, приблизно 20 токенів на один параметр.
Вони навчили Chinchilla з 70 мільярдами параметрів на 1,4 трильйона токенів — розмір менше половини GPT-3, а даних у чотири рази більше.
Результат: при тому ж бюджеті обчислень вона повністю перевершила Gopher з 280 мільярдами параметрів, який отримав лише 300 мільярдів токенів.
Людською мовою: за ті самі гроші одну модель вигодували як «роздутого» силача, а іншу — як сухорлявого бійця.
Через три роки затримки випускниця Пекінського університету Вен Лі глибоко дослідила основне пояснення різниці в подальших дослідженнях, а саме те, що розбіжність полягає в способі підрахунку загальної кількості параметрів.
І це ще не все. Навіть «правильний» Chinchilla сам не без гріха.
У 2024 році Бесіроглу та інші витягли дані з оригінальної статті Chinchilla та перезапустили, виявивши, що в їхній власній апроксимації також був баг:
На цьому етапі фраза «перші принципи», яку повторювали незліченна кількість людей, раптом похитнулася.
Так званий Закон масштабування ніколи не був непохитним фізичним законом на кшталт законів Ньютона; це лише емпірично підібрана крива.
Коли Diogo Almeida вважає, що правда не така, не в методі різниця, «а в тому, що оригінальний закон масштабування сам мав баг».
OpenAI трьома прийомами обдурило всю AI-спільноту?
Щоб створити брехню, якій повірить вся AI-спільнота, потрібно лише три кроки.
Крок 1: Ув'язнення даних.
Стаття OpenAI давала всім моделям — незалежно від того, чи це дитина, яка тільки вчиться ходити (маленька модель), чи вже дорослий велетень — однакову «порцію їжі». Приблизно 130B токенів даних.
Маленькі моделі були «перегодовані» або навіть «переповнені», тоді як великі моделі, які справді потребували величезної кількості даних для заповнення своєї ємності, зазнавали серйозного недоїдання в тому ж бюджеті токенів.
Пізніше стаття Chinchilla влучно зазначила: вони використовували «фіксовану кількість навчальних токенів та розклад швидкості навчання для всіх моделей».
Це все одно, що посадити дітей з дитсадка та аспірантів за одну й ту ж контрольну, в один і той же час, а потім стверджувати, що «оцінки залежать лише від здібностей».
Крок 2: Затуляння вух при зменшенні швидкості навчання.
Вони використовували косинусне зменшення швидкості навчання (Cosine Decay), плавно зводячи швидкість навчання до нуля ближче до кінця тренування.
Коли тренування наближалося до заданого кінця, швидкість навчання штучно притискали до нуля, і прогрес моделі природним чином «вирівнювався».
Коли крива вирівнюється, виглядало так, ніби модель вже всього навчилася і більше годувати її марно.
Дослідники зробили висновок: «Додавати дані марно, модель насичена».
Це не межа моделі, це штучне переривання шляху зростання моделі швидкістю навчання. Це створює ідеальну ілюзію: продуктивність досягла стелі, і додавання даних не допоможе.
Але тепер ми знаємо, що ці великі моделі навіть не наблизилися до межі.
Крок 3: Зверхність авторитету.
Третій крок, і найпідступніший: у статті написали, що результат «значною мірою не залежить від розкладу швидкості навчання» (largely independent of learning rate schedule).
Хоча багато хто, включаючи Діого Алмейду, який тоді працював в OpenAI, смутно відчували, щось не так, але за фіксованої межі токенів цей висновок технічно був правильним.
Але він абсолютно не застосовувався до ідеального світу «нескінченних даних», який насправді хотів описати закон масштабування.
Вони прийняли локальну істину за обмежених умов за універсальний закон всесвіту.
Складіть три кроки разом — і ви отримаєте закон, який одночасно помилковий і дуже важко піддається налагодженню.
Навіть сам Діого визнав: тоді він також займався оптимізацією в OpenAI і не помітив цього багу — крива швидкості навчання виглядала надто «ретельно налаштованою», кому б спало на думку підозрювати?
GPU витрачалися даремно, серйозна невідповідність обчислювальних потужностей
Під впливом помилкової формули OpenAI AI-індустрія вступила в еру «великої сили, що творить дива».
Це означає, що за останні кілька років найрозумніші уми світу та найдефіцитніші обчислювальні ресурси були витрачені на неефективне масштабування.
Це не просто питання грошей; це гонка на виживання до AGI (загального штучного інтелекту), де людство через налаштування швидкості навчання колективно мчало по неправильній трасі тисячі кілометрів.
Якщо виявлення багу викликало біль, то подальші глибокі роздуми викликають жах.
Дослідник Адам Закарі Вассерман вказав на сліпу пляму, яку всі ігнорували: навіть після виправлення формули, поточний Scaling Law — це лише «англійський Scaling Law».
Він провів контрінтуїтивний експеримент: навчив моделі з однаковою архітектурою та однаковими обчислювальними ресурсами.
Результат показав, що французька модель досягає певних граматичних здібностей з ефективністю, яка в 50-100 разів вища, ніж англійська модель.
Чому? Тому що англійська — це «морфологічно бідна» мова.
Вона надто покладається на розподільчі закономірності, вимагаючи від моделі вгадувати значення слів у величезних масивах даних; тоді як такі мови, як французька чи китайська, з багатою морфологією або строгою структурою, несуть багато чіткої інформації в самих словах.
Це означає, що всі наші поточні схеми розподілу обчислювальних ресурсів базуються на одній найбільш «дата-ненажерливій» та неефективній мові.
Коли ви думаєте, що досліджуєте фізичні закони «загального інтелекту», ви насправді лише вимірюєте, «наскільки англійська мова марнує обчислювальні потужності».
Це все одно, що намагатися встановити стандарти харчування для всіх істот у Всесвіті, вивчаючи апетит свині — це не лише упередження, а й обмеженість пізнання.
Ми могли б досягти кращої продуктивності з меншими моделями та більшою кількістю якісних даних.
Ми могли б заощадити десятки тисяч годин роботи H100, електроенергію та тепло.
Ми могли б увійти в еру «ефективного ШІ» на два роки раніше.
Джерело: Сіньчжіюань
Попередження про ризики та застереження