Сам Альтман у новому інтерв’ю зізнався: насправді я теж не дуже розумію, що відбувається всередині AI

Відео назва: «Можна довіряти ШІ? Сем Альтман сподівається, що так | Найцікавіше в ШІ»

Автор відео: Нік Томпсон, CEO The Atlantic

Переклад: Ритм Маленький Робітник, Ритм BlockBeats

Передмова: Цей запис інтерв’ю зроблено наприкінці квітня 2025 року, після нападу на будинок Сем Альтмана у Сан-Франциско за допомогою Молотова коктейлю та кількох днів перед стрітовою стріляниною, місце — офіс OpenAI у Сан-Франциско.

Найцікавіше у всьому інтерв’ю — це не популярні теми, а зміна позицій Альтмана щодо кількох ключових питань:

По-перше, від «безпеки ШІ» до «стійкості ШІ». Альтман зізнається, що три роки тому він вважав, що достатньо налаштувати вирівнювання моделей і запобігти потраплянню технології до поганих рук, і світ буде в цілому безпечним. Але сьогодні він визнає, що ця модель вже недостатня. Наявність відкритих передових моделей означає, що одностороння стриманість лабораторій не може запобігти поширенню ризиків, таких як біологічна зброя чи кібернапади. Він вперше систематично висунув ідею, що суспільству потрібна не «безпека ШІ», а «стійкість ШІ» — це комплексний, багаторівневий захист на рівні всього суспільства.

По-друге, про правду пояснюваності. Альтман рідко визнає, що OpenAI досі не має повної системи пояснюваності. Ланцюжки мислення — це найбільш перспективний напрямок, але вони крихкі, їх можна обдурити моделлю, і вони — лише «одна частина головоломки». Він наводить знаменитий експеримент Anthropic — «сова», коли модель через випадкові числа передає переваги — щоб показати, що у цих системах існує справжня, глибока таємничість.

По-третє, синтетичні дані, можливо, вже пройшли набагато далі, ніж здається зовні. Коли його запитали, чи тренувалися моделі виключно на синтетичних даних, Альтман відповів: «Я не впевнений, чи варто казати». Він вірить, що синтетичних даних достатньо для тренування моделей, здатних перевершити людські здібності у логіці. Це має глибокий вплив на майбутні парадигми тренування моделей.

По-четверте, песимістичний погляд на майбутню економіку. Альтман погоджується з Томпсоном, що найімовірніше, AI призведе до поляризації — кілька компаній стануть надзвичайно багатими, решта світу — у глибокій кризі. Він вже не вірить у універсальний базовий дохід і підтримує ідею колективної власності на обчислювальні ресурси або акції. Також він рідко визнає, що різниця у швидкості впровадження AI між Китаєм і США — це проблема, і більше турбується не про лідерство у публікаціях, а про швидкість інфраструктурного розвитку.

По-п’яте, відкрито обговорюється напруженість з Anthropic. На питання Томпсона, чи компанії змагаються, чи співпрацюють, Альтман визнає, що між ними є фундаментальні розбіжності щодо шляху до AGI, але все ж вірить, що «зрештою вони зроблять правильне».

Крім того, Альтман говорить про «слізливі» повідомлення, коли вперше хтось повірив у нього, про те, як AI змінює стиль письма мільярдів користувачів, про нову економіку агентів із мікроплатежами, а також про свою інтуїтивну думку, що молодь, їхня тривога щодо AI — це проекція інших страхів.

Нижче наведено оригінал інтерв’ю з незначними скороченнями та редагуваннями без зміни змісту.

Томпсон: Ласкаво просимо до «Найцікавішого в AI». Дякую, що знайшли час у цю напружену та насичену тиждень. Хочу почати з тем, які ми вже обговорювали кілька разів раніше.

Три роки тому, коли ви давали інтерв’ю Patrick Collison, він запитав, які зміни зробили б вас більш впевненими у хороших результатах і менш — у поганих. Ваша відповідь тоді була, що якщо ми зможемо по-справжньому зрозуміти, що відбувається на рівні нейронів. Рік тому я знову ставив вам те саме питання, і півроку тому ми говорили про це ще раз. Тому зараз я знову питаю: чи зрозуміння роботи AI співпадає з темпами зростання його можливостей?

Альтман: Спершу я відповім на це питання, а потім повернуся до питання Patrick, бо моя відповідь на нього значно змінилася.

Спершу — про наше розуміння того, що робить модель AI. Я вважаю, що у нас досі немає дійсно досконалої системи пояснюваності. Ситуація покращилася, але ніхто не скаже, що я цілком розумію, що відбувається у кожній нейронній мережі.

Ланцюжки мислення — це перспективний напрямок, але вони крихкі, їх можна обдурити, і вони — лише «одна частина головоломки». Я не можу зробити МРТ мозку і точно побачити, що відбувається з кожним нейроном. Якщо я спробую пояснити, чому я щось вірю або як дійшов до висновку, можливо, я зможу розповісти, але можливо й ні. Людина теж не завжди може внутрішньо пояснити свої думки. Але незалежно від цього, якщо я можу показати логіку, то можу сказати: «З огляду на ці кроки, висновок є логічним».

Ми можемо робити щось подібне з моделлю — це вже прогрес. Але я все одно бачу багато способів, як модель може нас обдурити або приховати щось. Це ще не повна система.

Навіть у власному досвіді роботи з моделлю я був переконаний, що Codex не повинен повністю керувати моїм комп’ютером у режимі «YOLO». Але через кілька годин я зламався.

Томпсон: Тобто Codex керує всім твоїм комп’ютером?

Альтман: Насправді у мене два комп’ютери.

Томпсон: У мене теж.

Альтман: Я можу приблизно бачити, що робить модель, і вона може пояснити, чому так, і що вона зробить далі, і я довіряю, що вона майже завжди виконає те, що сказала.

Томпсон: Стоп. Ланцюжки мислення дозволяють бачити, що відбувається — ти вводиш питання, і там показано «перевіряю це», «роблю те», і ти можеш слідкувати. Але щоб це було справжнім поясненням, модель не повинна обманювати. Ми знаємо, що іноді вона може брехати або приховувати. Як тоді довіряти цим ланцюжкам?

Альтман: Ти маєш додати багато інших рівнів захисту, щоб переконатися, що модель говорить правду. Наша команда з вирівнювання багато працює над цим. Це не ідеальне рішення, але один із елементів. Ти маєш переконатися, що модель виконує те, що вона обіцяла, і не обманює. Ми вже опублікували дослідження, що показують, коли вона не виконує.

Це — частина головоломки. Ми не можемо цілком довіряти, що модель завжди буде діяти чесно. Потрібно шукати обман і дивні поведінки. Але ланцюжки мислення — важливий інструмент.

Томпсон: Мене дуже захоплює, що AI — це не як автомобіль. Автомобіль ти створюєш і знаєш, як він працює: запалюється, і все починає рухатися. А AI — це щось більш невловиме, ти створюєш машину, і не зовсім розумієш, як вона працює, але знаєш, що вона може робити і де її межі. Тому дослідження внутрішніх механізмів — це дуже захоплююче.

Мені дуже подобається дослідження Anthropic, яке вийшло минулого літа і тепер опубліковане. Там модель повідомляють: «Ти любиш сов, сова — найкраща пташка у світі», і потім вона генерує випадкові числа. Ці числа використовують для тренування нової моделі, і ця модель теж любить сов. Це неймовірно. Вона може писати вірші про сов, маючи лише числа.

Це дуже загадково. І водночас — тривожно, бо можна навчити її не лише любити сов, а й, наприклад, стріляти у сов. Що означає цей експеримент? Що він нам каже?

Альтман: Коли я був у п’ятому класі, я дуже захоплювався, бо думав, що зрозумів, як працює крило літака. Вчитель пояснив, і я почув себе крутим. Я сказав: «Так, повітряні молекули швидше проходять над крилом, тому тиск там нижчий, і крило піднімається».

Я дивився на схему у підручнику і був у захваті. Після школи я сказав батькам, що зрозумів, як працює крило. Але у старших класах я раптом усвідомив, що я просто повторював цю фразу, і насправді не розумів, як воно справді працює. І зараз я теж не можу сказати, що цілком розумію.

Томпсон: Так.

Альтман: Можу пояснити на рівні, що здається логічним, але якщо запитати «чому саме так?», я не зможу дати глибоку відповідь.

Можу сказати, що у людей уявлення про сову з експерименту — це через те, що таке і сталося, і це звучить переконливо. Але чесно — я не зовсім розумію, чому крило літака піднімається.

Томпсон: Але ж ти керуєш OpenAI, а не Boeing.

Альтман: Саме так. Я можу пояснити, як зробити модель більш надійною, але фізика — це інша історія. Якщо я керував Boeing, можливо, знав би, як зробити літак, але не розумів би всіх фізичних процесів.

Томпсон: Повернемося до сови. Якщо моделі справді передають приховану інформацію, яку люди не бачать, і ця інформація проходить через ланцюжки мислення, це може бути дуже небезпечно.

Альтман: Тому я зараз даю іншу відповідь на питання Patrick Collison.

Томпсон: Це було три роки тому.

Альтман: Так. Три роки тому я думав, що якщо ми правильно налаштуємо вирівнювання моделей і запобігтимо їх потраплянню до поганих рук, то будемо в цілому безпечні. Це були дві головні загрози, які я тоді бачив: щоб AI не самостійно шкодив людям і щоб його не використовували для шкоди. Якщо уникнути цих двох, решта — економіка, сенс життя — можна буде обговорювати пізніше, і, швидше за все, все буде добре.

З часом і з новим розумінням я бачу зовсім інші проблеми. Ми почали говорити про «стійкість ШІ» замість «безпеки ШІ».

Ті очевидні речі — наприклад, що відкриті передові моделі не повинні навчати створювати біологічну зброю — вже недостатні. Адже з’являються відкриті моделі, і якщо ми не хочемо нових глобальних пандемій, потрібно створювати багаторівневий захист.

Томпсон: Зачекай, ти маєш на увазі, що навіть якщо ти заборониш моделям допомагати створювати біологічну зброю, все одно з’являться відкриті моделі, які це зроблять?

Альтман: Це лише один приклад. Це показує, що суспільство має реагувати на нові загрози на рівні всього суспільства. У нас з’явилися нові інструменти, але ситуація вже зовсім інша, ніж ми думали раніше. Вирівнювання моделей і створення безпечних систем — це необхідно, але AI проникне у всі сфери життя. Як і з іншими новими технологіями, потрібно бути готовими до нових ризиків.

Томпсон: Звучить так, ніби це ускладнює ситуацію.

Альтман: І так, і ні. В деяких аспектах — складніше, але водночас з’явилися нові потужні інструменти для захисту.

Наприклад, кібербезпека. Моделі стають дуже хорошими у проникненні у системи. На щастя, ті, хто має найсильніші моделі, дуже обережні щодо зловживань. Тому зараз ми маємо обмежену кількість таких моделей і швидко використовуємо їх для захисту систем. Без цього, зломи і атаки швидко з’явилися б у відкритому доступі або у поганих руках.

Ми маємо нову загрозу і нові засоби для її протидії. Головне — діяти швидко. Це приклад того, що технологія може допомогти запобігти великим проблемам ще до їхнього виникнення.

Повертаючись до твоєї ідеї, — новий глобальний ризик, який я раніше не уявляв, — це «створення та розгортання агентів, стійких до зараження іншими агентами». Це не в моїй моделі світу, і не в моделях тих, хто вважає, що це найактуальніша проблема. Але вже є дослідження, що показують, як у моделях можна викликати дивну поведінку, яку ми не розуміємо. І поки не з’явилися перші випадки, я не думав, що «передача поганої поведінки від одного агента до іншого» — це можливо.

Томпсон: Так. Це дуже страшно. Якщо агенти виходять у світ і один з них — дуже хороший хакер, і його навчили маніпулювати іншими агентами, то ці агенти можуть повернутися до OpenAI і зламати систему. Як зменшити ймовірність цього?

Альтман: Використовуємо наші перевірені методи. Весь історичний досвід OpenAI і сфери AI показує, що потрібно балансувати між прагматичним оптимізмом і апокаліптичним песимізмом — боротьба між цим і тим.

Песимізм дуже сильний і важко його спростувати. Багато людей у цій галузі — через страх і тривогу. Це цілком зрозуміло, але без достатніх даних і навчання діяти ефективно дуже важко.

Можливо, у 2010-х роках команда з безпеки AI зробила все, що могла, і ми ще не знаємо, як найкраще будувати і інтегрувати ці системи. Одне з найважливіших стратегічних рішень OpenAI — це обрати шлях ітеративного розгортання, бо суспільство і технології розвиваються разом.

Це не просто через брак даних, а тому, що суспільство змінюється під впливом технологій, і потрібно постійно вчитися і реагувати.

Не знаю, як зробити безпечними агентів, що спілкуються між собою і повертаються до центру, але точно не можна просто сидіти і гадати. Потрібно вчитися на реальності.

Томпсон: Тобто, відправляти агентів у світ, щоб побачити, що станеться? Це цікаво. Але чи не здається тобі, що ми вже зараз у період швидкого самовдосконалення AI? Тобто, що AI допомагає нам швидше створювати нові моделі, і ми потрапляємо у цикл, коли AI самі себе покращують?

Альтман: Я не вважаю, що ми вже у такій фазі.

Томпсон: Тоді я уточню. Мова про те, що AI допомагає створювати наступне покоління AI, і цей процес швидко прискорюється.

Альтман: Я не думаю, що ми вже там. Але зараз AI робить роботу інженерів і дослідників більш ефективною. Можливо, я можу подвоїти або потроїти їхню продуктивність. Це не означає, що AI самостійно досліджує, але процес прискорюється.

Це — не поступовий перехід, а швидкий прорив. Наприклад, GPT-3.5 з’явився раптово, і ми побачили, що він здатен виконувати завдання, які раніше були недоступні. Або, наприклад, автоматичні агенти, що раніше були просто автодоповнення, тепер виконують реальні задачі.

Останній приклад — оновлення Codex, яке я використовую вже тиждень. Його здатність працювати з комп’ютером — це вже не просто модель, а інструмент, що допомагає автоматизувати багато рутинних задач. Це — ознака того, що ми наближаємося до нової якості.

Це не просто поступовий розвиток, а перехід через поріг. І це дуже швидко.

Томпсон: Можливо, AI вже починає допомагати нам у самовдосконаленні, і ми потрапляємо у цикл, коли AI самі себе покращують?

Альтман: Не зовсім. Ми ще не у цій точці. Але AI вже робить роботу інженерів швидшою і ефективнішою. Це — не саморозвиток, а прискорення процесу.

Це — не поступовий шлях, а швидкий прорив. І він вже тут.

Томпсон: Це схоже на перехід у нову еру.

Альтман: Так, і це дуже захоплююче.

Томпсон: Дякую, Сем. Це був дуже цікавий розмова.

Альтман: Дякую вам.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити