Після двох аварій за тиждень, переглядаємо, як сім співзасновників Anthropic рік тому говорили про «безпеку»

Оригінальна назва відео: Building Anthropic | Розмова з нашими співзасновниками
Оригінальне джерело відео: Anthropic
Оригінальний переклад: Глибокий приплив TechFlow

Підсумок ключових моментів

Минулого тижня Anthropic двічі поспіль сталася аварія:

Спочатку майже 3000 внутрішніх документів були зроблені доступними для перегляду через помилку в налаштуваннях CMS, а відразу після цього Claude Code v2.1.88, коли виходив у npm, містив 59,8MB source map, 510 тисяч рядків коду напряму були виставлені назовні.

Компанія, яка «вписала “безпеку” в гени», послідовно провалює операційку вдома — сарказм просто зашкалює.

Але перш ніж поспішати з насмішками, варто повернутися назад і послухати внутрішню розмову семи співзасновників, яка відбулася понад рік тому. Цей подкаст записано в грудні 2024 року: семеро людей говорили про те, як створилася ця компанія, як політику RSP (Responsible Scaling Policy, дослівно «політика відповідального розширення») шліфували до готовності, чому слово «безпека» не можна використовувати просто так, а також про ту фразу CEO Dario, яку неодноразово цитували:

«Якщо в будинку щотижня лунає сигнал пожежної тривоги, то це, по суті, дуже небезпечна будівля».

Тепер, якщо слухати цю фразу знову, відчуття справді вже не такі.

Сім співзасновників — швидка ідентифікація обличчям

Dario Amodei|CEO, колишній віцепрезидент з досліджень в OpenAI, з освітою в нейронауках, фінальний ухвалювач рішень у стратегії та безпековому напрямі Anthropic. У цій розмові говорить найбільше.

Daniela Amodei|президентка, сестра Dario. Раніше пропрацювала в Stripe п’ять з половиною років, вела команди довіри та безпеки, а ще раніше працювала в некомерційному секторі та в міжнародному розвитку. Організаційне компонування в Anthropic і зовнішня комунікація здебільшого перебували в її руках.

Jared Kaplan|професор фізики, перетворився на дослідника AI, один із ключових авторів scaling laws. Часто дає оцінки з позиції стороннього спостерігача, і сам каже, що колись займався AI, бо «робити фізику набридло».

Chris Olah|представник досліджень з інтерпретованості (interpretability): у 19 років прийшов у скам’ю AI у районі затоки, працював у Google Brain і OpenAI. Найбільш виражений техно-ідеалізм у технологічному баченні серед людей в Anthropic.

Tom Brown|автор першої версії (paper first author) у роботі про GPT-3, тепер відповідає за обчислювальні ресурси Anthropic. Його перспективи більше з інженерії та інфраструктури; у подкасті він багато розповідає про шлях від «я не дуже вірю, що AI буде так швидко» до зміни поглядів.

Jack Clark|колишній технологічний журналіст Bloomberg, керівник політики та публічних справ у Anthropic. У цій розмові виступає ведучим: поєднує теми та ставить уточнювальні запитання.

Sam McCandlish|співзасновник у дослідженнях: говорить найменше, але часто однією фразою влучає в суть — «удар з лави».

Зведення цікавих тез

Чому ми робимо AI: від нудьги в фізиці до «наслухався — і повірив»

Jared Kaplan: «Я довго займався фізикою, трохи було нудно, і я хотів працювати з більшою кількістю друзів, тож я й зробив AI».

Dario Amodei: «Я не думаю, що я чітко тебе переконував. Я просто постійно показував тобі результати роботи AI-моделей. У якийсь момент, коли я показав їх достатньо, ти сказав: “Ну, схоже, що це правильно”».

Ставка проти консенсусу: більшість консенсусів — це ефект стада, замаскований під зрілість

Jared Kaplan: «Багато AI-дослідників психологічно дуже сильно постраждали під час AI-зими; ніби мати амбіції — це недозволено».

Dario Amodei: «Найглибший урок, який я виніс за минулі десять років, ось який: багато “всім відомих” консенсусів — це ефект стада, замаскований під зрілість. Ти бачив кілька разів, як консенсус раптом за одну ніч перевертається, а потім люди кажуть: “Ні, ми ставимо саме на це”. Навіть якщо в тебе лише 50% правильності, ти все одно внесеш багато того, чого інші не внесуть».

Безпека та масштабування переплетені

Dario Amodei: «Однією з мотивацій розширювати модель тоді було те, що модель має спершу стати достатньо розумною, щоб RLHF запрацював. Саме в це ми й досі віримо: безпека і масштабування переплетені».

RSP, політика відповідального розширення — це “конституція” Anthropic

Tom Brown: «RSP для Anthropic — як наша конституція. Це ключовий документ із настановним характером, тому ми готові вкладати багато часу й зусиль у те, щоб його постійно вдосконалювати й доводити до ладу».

Dario Amodei: «RSP не дає планам, які не відповідають стандартам безпеки, рухатися далі. Ми не говоримо порожні гасла: ми насправді вбудовуємо безпеку в кожен етап».

Пожежні тривоги лунають забагато разів — а коли справді горить, ніхто не біжить

Daniela Amodei: «Ми не можемо бездумно використовувати слово “безпека”, щоб направляти прогрес. Наша реальна мета — щоб усі чітко розуміли, яку саме безпеку ми маємо на увазі».

Dario Amodei: «Те, що насправді шкодить безпеці, часто — саме ті “тренування з безпеки”, які відбуваються занадто часто. Якщо є будівля, в якій щотижня лунає сигнал пожежної тривоги, то це, по суті, дуже небезпечна будівля».

“Почесна поразка” — пастка

Chris Olah: «Існує версія, що найбільш моральні дії — це приносити в жертву інші цілі заради безпеки, демонструючи свою “чистоту” у служінні справі. Але на практиці це саморуйнування. Бо це призводить до того, що керівні рішення опиняються в руках людей, які не приділяють безпеці належної уваги».

Співзасновники зобов’язуються пожертвувати 80% доходу

Tom Brown: «Ми спільно зобов’язуємося передавати 80% доходів у благодійні справи, які просувають розвиток суспільства — це те, що всі без вагань підтримують».

Ніхто не хоче засновувати стартап, але відчуває, що треба так зробити

Sam McCandlish: «Насправді серед нас ніхто спочатку не мав бажання створити компанію. Ми просто відчували, що це наш обов’язок: це єдиний шлях гарантувати, що розвиток AI рухається в правильному напрямі».

Daniela Amodei: «Наша місія і ясна, і чиста — у технологічній індустрії таке трапляється нечасто».

Інтерпретованість: в нейромережах захована ціла “штучна біологія”

Chris Olah: «Нейромережі — неймовірні. У них є багато того, що ми ще не бачили. Іноді я уявляю, що через десять років заходиш у книжкову крамницю й купуєш підручник про біологію нейромереж, де буде купа дивовижних речей».

AI для посилення демократії, а не як інструмент диктатури

Dario Amodei: «Ми переживаємо: якщо AI розробити неправильно, він може стати інструментом диктаторства. Як зробити AI інструментом для свободи й самовизначення? Важливість цього напряму анітрохи не менша, ніж у біології та інтерпретованості».

Від зустрічі в Білому домі до Нобелівської премії: вплив AI давно вийшов за межі технічного кола

Jared Kaplan: «У 2018 році ти б не подумав, що президент покличе тебе в Білий дім і скаже, що вони стежать за мовними моделями».

Dario Amodei: «Ми вже бачили, як Нобелівська премія з хімії дісталася AlphaFold — і нам потрібно докласти зусиль, щоб розробляти інструменти, які допоможуть нам створювати сотні AlphaFold».

Навіщо досліджувати AI?

Jack Clark: Чому ми спочатку вирішили робити AI? Jared, чому ти робив AI?

Jared Kaplan: «Я довго займався фізикою, трохи було нудно, і я хотів працювати з більшою кількістю друзів, тож я й зробив AI».

Tom Brown: «Я думав, що це Dario тебе переконав».

Dario Amodei: «Я не думаю, що в мене було чітке “переконання” тебе. Я просто весь час показував тобі результати роботи AI-моделей, хотів донести, що це універсально, а не під конкретну задачу. У якийсь момент, коли я показав їх достатньо, ти сказав: “Ну, схоже, що це правильно”».

Jack Clark:Chris, коли ти займався інтерпретованістю, ти знайомився з усіма в Google?

Chris Olah: «Ні. Насправді я у 19 років уперше приїхав до району затоки й уже знав багатьох із вас. Тоді я бачив Dario і Jared: вони були постдоками, і в той момент мені здавалося це дуже крутим. Потім я працював у Google Brain: коли Dario приєднався, ми деякий час сиділи поруч, і я теж працював із Tom. А потім, коли пішов в OpenAI, почав працювати разом із усіма вами».

Jack Clark: «Я пам’ятаю, у 2015 році на одній конференції бачив Dario: він хотів взяти в тебе інтерв’ю, а Google PR навіть сказав мені, що я маю спочатку прочитати всі твої роботи».

Dario Amodei: «Того часу в Google я писав “Concrete Problems in AI Safety”».

Sam McCandlish: «Я почав працювати з тобою перед цим, і ти запрошував мене до офісу поговорити — ти ніби розповів про AI в цілому. Я пам’ятаю, що після розмови подумав: “Виявляється, це серйозніше, ніж я усвідомлював”. Ти тоді розповідав про “великий обчислювальний наріст”, кількість параметрів, масштаби нейронів у людському мозку».

Проривне розширення

Jack Clark: Я пам’ятаю, як у OpenAI, коли ми робили scaling laws, збільшення розміру моделі почало реально працювати. І працювало постійно, дивно ефективно в багатьох проєктах: від GPT-2 до scaling laws до GPT-3 — ми так крок за кроком і зближувалися.

Dario Amodei: «Це був той самий клуб “тих, хто вміє доводити справи до результату”».

Jared Kaplan: «Ми всі також були дуже схвильовані безпекою. Тоді була така думка: AI буде дуже сильним, але може не розуміти людські цінності й навіть не вміти з нами нормально спілкуватися. Мовні моделі певною мірою можуть гарантувати, що вони зрозуміють багато прихованих знань».

Dario Amodei: «І ще — RLHF поверх мовних моделей. Однією з мотивацій розширювати модель тоді було те, що модель має спершу стати достатньо розумною, щоб RLHF запрацював. І це те, у що ми й досі віримо: безпека і масштабування переплетені».

Chris Olah: «Так, тоді scaling-робота теж фактично була частиною безпекової команди. Бо ми вважали: щоб люди справді почали сприймати безпеку всерйоз, спершу треба вміти прогнозувати тренди AI».

Jack Clark: Я пам’ятаю, як я в аеропорту у Великій Британії генерував фейкові новини через sampling з GPT-2 і потім у Slack надіслав Dario, кажучи: “Це справді працює, і може мати величезний політичний вплив”. Я пам’ятаю, що відповідь Dario була: “Так”.

Пізніше ми також зробили багато робіт, пов’язаних із публікаціями, і це було безумно.

Daniela Amodei: «Я пам’ятаю ту частину про релізи — це було наше перше справжнє співробітництво, тоді виходив GPT-2».

Jack Clark: «Я думаю, це було для нас дуже корисно. Ми спочатку разом зробили одну річ — “трохи дивну, але з безпековою орієнтацією”, а потім разом зробили Anthropic — ще більший за масштабом проєкт, теж “трохи дивний, але з безпековою орієнтацією”».

Етап старту AI

Tom Brown: «Повернімося до статті “Concrete Problems”. Я прийшов в OpenAI у 2016 році; тоді ми з тобою були серед найперших людей. У мене склалося враження, що це була перша “провідна” стаття з безпеки AI. Як вона з’явилася?»

Dario Amodei: «Chris знає — він долучився. Тоді, в Google, я вже й забув, що саме був моїм основним проєктом. Це виглядало так, ніби статтю “зробили з моєї прокрастинації”».

Ми хотіли зафіксувати, які в безпеці AI залишаються відкриті проблеми. Тоді безпека AI постійно обговорювалася дуже абстрактно — ми хотіли приземлити це на той момент на реальні ML. Зараз уже шість-сім років працюємо в цій лінії, але тоді це був просто дивакуватий задум.

Chris Olah: «Я думаю, що в певному сенсі це майже політичний проєкт. Тоді багато людей не сприймали безпеку серйозно. Ми хотіли скласти список проблем, які всі вважали розумними й прийнятними. Багато з них і так існували в літературі, а далі ми шукали авторитетних людей поза однією інституцією, щоб вони спільно підписали документ».

Я пам’ятаю, що мені знадобилося дуже багато часу, щоб поспілкуватися з понад двадцятьма дослідниками в Brain, щоб отримати підтримку для публікації. Якщо дивитися лише на проблеми як такі, то сьогодні, повернувшись назад, не все може бути однаково коректним — можливо, це не найкращі питання. Але якщо сприймати це як будівництво консенсусу: показати, що “тут є реальні проблеми і їх варто розглядати всерйоз”, тоді це був важливий момент.

Jack Clark: «У підсумку ти опинишся в дуже дивному світі на межі наукової фантастики. Я пам’ятаю, як на ранніх етапах Anthropic говорили про Constitutional AI. Jared сказав: “Ми пишемо мову моделі конституцію, і тоді вона поводиться відповідно”. Тоді це звучало божевільно. Чому ви вважали це можливим?»

Jared Kaplan: «Я довго обговорював це з Dario. Я вважаю, що в AI прості підходи часто працюють дуже добре. Найперші версії були надто складні, потім ми постійно спрощували — і врешті все зводилося до такого: використовуй те, що модель добре робить тести з вибором відповіді; дайте їй чіткий промпт, що саме вона має знайти — і цього вже достатньо. А принципи можна прямо записати».

Dario Amodei: «Це знову повертає нас до “великого обчислювального наросту” (The Big Blob of Compute), до “болючого уроку” (The Bitter Lesson), до “припущення про масштабування” (Scaling Hypothesis):** якщо ти можеш дати AI чітку ціль і дані, він навчиться. Пара інструкцій, набір принципів — мовна модель може їх прочитати, зіставити з власною поведінкою, і навчальна ціль там уже визначена.** Тому для мене й Jared погляди збігаються: це реально зробити, якщо деталізацію повторювати знов і знов».

Jared Kaplan: «Для мене ранній етап був трохи дивним. Я прийшов у AI з фізики, і зараз усі захоплені AI, легко забути, яка тоді була атмосфера. Коли я говорив з Dario про це, у мене виникло відчуття, що багато AI-дослідників психологічно дуже сильно травмовані AI-зимою: ніби “мати амбіції” — це не дозволено. Обговорення безпеки треба починати з віри в те, що AI може бути дуже сильним і дуже корисним. Але тоді існувала якась внутрішня заборона на амбіції. Перевага фізиків у “наглості”: вони часто роблять дуже амбітні речі, звикли говорити масштабними картинами».

Dario Amodei: «Я думаю, що це правда. У 2014 році багато речей не можна було промовляти. Це схоже на типову проблему академічного середовища. Крім деяких сфер, інституції все більше не люблять ризик, а індустріальний AI успадкував таку установку. Я думаю, що вийти з цього вдалося лише десь до 2022 року».

Chris Olah: «І є “консерватизм” у двох формах: один — серйозно дивитися на ризики, а інший — ставитися до справи серйозно й одночасно вважати власні ідеї такими, що мають успіх, і це сприймається як наглість. Ми тоді були саме в другому таборі. І історично в обговореннях ядерної фізики 1939 року також було схоже: Фермі опирався, а Szilard або Teller більш серйозно ставилися до ризиків».

Dario Amodei: «Найглибший урок, який я виніс за минулі десять років, ось який: багато “всім відомих” консенсусів — це ефект стада, замаскований під зрілість. Ти бачив кілька разів, як консенсус за одну ніч перевертається, а потім люди кажуть: “Ні, ми ставимо саме на це”. Можливо, це не обов’язково правильно, але ігноруй шум і став. Навіть якщо в тебе лише 50% правильності — ти все одно внесеш багато того, чого інші не внесуть».

Зміна ставлення суспільства до штучного інтелекту

Jared Kaplan: «Сьогодні на деякі безпекові питання це теж так: зовнішній консенсус вважає, що багато проблем безпеки не виростають “природно” з технологій, але коли ми в Anthropic проводимо дослідження, ми бачимо, що вони справді виростають природно».

Daniela Amodei: «Але за минулі 18 місяців це змінюється. І водночас змінюються й емоції світу щодо AI. Коли ми проводимо user research, ми все частіше чуємо від звичайних користувачів, що вони турбуються про загальний вплив AI на світ».

Іноді це робота, упередження, токсичність; іноді — «чи не зламає AI світ, чи не змінить спосіб людської співпраці», — і чесно кажучи, я цього до кінця не передбачав.

Sam McCandlish: «Чомусь коло ML-дослідників часто більш песимістичне, ніж широка публіка, щодо того, що “AI стане дуже сильним”.»

Jared Kaplan: «У 2023 році я разом із Dario був у Білому домі. На зустрічі Harris і Raimondo фактично мали на увазі таке: “Ми дивимося на вас. AI — це велика справа. Ми серйозно стежимо. Але в 2018 році ти б і не подумав, що президент покличе тебе в Білий дім і скаже, що вони стежать за мовними моделями”».

Tom Brown: «Цікаве тут те, що багато людей з нас приєдналися ще тоді, коли було незрозуміло, що саме станеться. Це як Фермі щодо атомної бомби: він сумнівався. Деякі докази свідчили, що бомба може бути створена, але було також багато доказів, що її не створять. І все одно він вирішив спробувати. Бо якщо це правда, наслідки будуть надто великими — тож це варте того».

У 2015–2012017 було й далі збільшувалося кілька доказів того, що AI може бути великою справою. У 2016 я говорив із наставником: я вже пробував стартапи, хотів займатися безпекою AI, але мені не вистачало математичної сили — не знав, що робити. Тоді хтось говорив: “Тобі треба бути майстром теорії прийняття рішень”. Хтось інший: “Френетичного AI-інциденту не буде, і справді підтримуючих мало”.

Jack Clark: «Я в 2014 робив репортаж про тренд ImageNet, і мене вважали божевільним. У 2015 я хотів написати про NVIDIA, бо вони в своїх статтях говорили про GPU — і мене теж вважали божевільним. У 2016 я пішов з новин в AI, і мені навіть приходили листи з фразою “ти здійснив найбільшу помилку в житті”. З багатьох точок зору, якщо вдумливо, серйозно ставити на те, що масштабування “спрацює”, справді виглядало як божевілля».

Jared Kaplan: «А як ти вирішив? Ти сумнівався?»

Jack Clark: «Я зробив “обратну ставку”: виставив вимогу — зробіть мене фултайм AI-журналістом і подвойте зарплату. Я знав, що вони не погодяться. Потім ліг спати і зранку пішов у відставку. Бо я щодня читав архівні документи, і мені весь час здавалося, що відбувається щось божевільно важливе — і в якийсь момент треба робити ставку з високою впевненістю».

Tom Brown: «Я не був таким рішучим. Я хитався шість місяців».

Daniela Amodei: «І ще тоді “ інженери теж можуть суттєво просувати AI” — це було не в мейнстрімі. Тоді вважалося: “лише дослідники можуть робити AI”, тож твої сумніви були не дивними».

Tom Brown: «Потім OpenAI сказав: “Ти можеш допомогти AI безпеці через інженерію”. І саме це змусило мене приєднатися. Daniela, ти в OpenAI була моїм менеджером; чому ти тоді приєдналася?»

Daniela Amodei: «Я працювала в Stripe п’ять з половиною років, Greg був моїм керівником. Я також познайомила Greg і Dario. Тоді він засновував OpenAI, і я сказала йому: “Найрозумніші люди, яких я знаю, — це Dario. Якщо ти зможеш залучити його в команду, то тобі дуже пощастить”. Пізніше Dario і приєднався до OpenAI».

Можливо, так само як і тобі, мені теж приходило в голову, що після мого відходу з Stripe я могла б робити щось інше. Я приєдналася до Stripe, бо до цього працювала в некомерційних організаціях і в міжнародному розвитку, і тоді думала, що мені потрібно більше навичок. Насправді я навіть думала, що в підсумку повернуся до тієї сфери.

Перед тим як прийти в Stripe, я відчувала, що в мене недостатньо здібностей, щоб допомагати людям, яким бракує можливостей більше, ніж мені. Тому я дивилася на інші технологічні компанії — хотіла знайти новий спосіб мати більший вплив. А OpenAI здавалося мені дуже гарним вибором: це некомерційна організація, яка присвячена дуже важливій і далекоглядній меті.

Я завжди сильно вірила в потенціал AI, бо знала Dario, і їм справді потрібні були люди, щоб допомогти з управлінням, тому я вважала, що ця робота дуже добре відповідає моєму бекграунду. Тоді в голові було таке: “Це некомерційна структура. Тут зібралися дуже сильні й надихнуті люди з чудовим баченням — але, судячи з усього, їхня робота трохи хаотична”. І саме виклик мене й надихав: я могла б приєднатися до цього й вирівняти процеси.

Тоді я відчувала себе як універсальний гравець: я не лише керувала членами команди, а й вела кілька технічних команд, займалася керуванням розширенням організації. Я відповідала за розширення організації, працювала в команді, пов’язаній із мовними моделями, а згодом взяла на себе ще кілька інших завдань. Я також брала участь у певних політичних питаннях і співпрацювала з Chris. Я бачила, що в компанії дуже багато талановитих людей, і це дуже мотивувало мене приєднатися й допомогти зробити компанію ефективнішою та більш впорядкованою.

Jack Clark:「Пам’ятаю, що після GPT-3 ти сказав: “Ви чули про trust and safety?”»

Daniela Amodei: «Я раніше в Stripe вела команду trust and safety. Для такої технології вам, мабуть, потрібно розглянути й питання довіри та безпеки. Це фактично місток між дослідженнями безпеки штучного інтелекту (AI Safety Research) і більш практичною щоденною роботою — тобто як зробити модель справді безпечною».

Важливо також обговорювати, що ця технологія в майбутньому матиме суттєвий вплив. Паралельно нам треба робити більше практичної роботи в повсякденному режимі, щоб підготуватися до сценаріїв із вищими ризиками.

Політика відповідального розширення: забезпечення безпечного розвитку AI

Jack Clark:「Тоді давайте поговоримо, як саме виникла стратегія відповідального розширення (RSP, Responsible Scaling Policy), чому ми про неї задумали, як застосовуємо її зараз — особливо з огляду на те, що ми вже робимо в моделі з точки зору довіри та безпеки. Отже, хто вперше запропонував цей RSP (політику відповідального розширення)?»

Dario Amodei: «Початково це запропонували я та Paul Christiano. Це було приблизно наприкінці 2022 року. Спочатку виникла ідея: чи не варто тимчасово обмежити розширення моделі до певного масштабу, поки ми не знайдемо способи вирішити конкретні безпекові проблеми?»

Але згодом ми вирішили, що просто “обмежити масштаб у певній точці”, а потім “зняти обмеження” — це виглядає дивно. Тому ми обрали модель із низкою порогів: щоразу, коли модель досягає певного порогу, треба провести низку тестів, щоб оцінити, чи має вона відповідні безпекові можливості.

Коли модель досягає кожного порогу, ми маємо застосовувати ще суворіші заходи з безпеки та захисту. Проте на старті в нас був один задум: якщо це виконуватиме третя сторона, то, можливо, буде краще. Тобто така стратегія не має лягати на відповідальність однієї конкретної компанії: інакше іншим компаніям не захочеться її впроваджувати. Тому Paul і спроєктував цю стратегію. З часом багато деталей також змінювалися. А наша команда постійно досліджувала, як зробити, щоб стратегія працювала краще.

Коли Paul оформив цю концепцію у цілісний вигляд, він фактично оголошував цю ідею — і паралельно ми протягом місяця-двох опублікували власну версію. Насправді багато наших людей глибоко брали участь у цьому процесі. Я пам’ятаю, що написав принаймні один із перших чернеток, але документ потім пройшов через багато раундів редагування.

Tom Brown: «RSP для Anthropic — як наша “конституція”. Це керівний ключовий документ, тож ми готові витрачати багато часу й зусиль, щоб його постійно шліфувати, гарантуючи його точність і повноту».

Daniela Amodei: «Мені здається, що процес розвитку RSP в Anthropic справді дуже цікавий. Він проходив кілька етапів і, щоб реалізувати його, потрібні різні навички. Наприклад, є великі ідеї — за це здебільшого відповідають Dario, Paul, Sam і Jared. Вони міркують так: “Які наші ключові принципи? Яке повідомлення ми хочемо передати? Як зрозуміти, що наш напрям правильний?”»

Але окрім цього, є дуже практична робота на рівні операцій. Наприклад, під час ітерацій ми оцінюємо й коригуємо деталі. Ми, скажімо, прогнозували, що при певному рівні безпеки досягнемо певних цілей, але якщо їх не виходить досягти, ми переглядаємо й заново переконуємося, що відповідаємо за результати своєї роботи.

Крім того, є чимало змін, пов’язаних із організаційною структурою. Наприклад, ми вирішили переробити організаційну структуру RSP, щоб чіткіше розподілити відповідальність. Мені подобається порівнювати цей документ із конституцією. Як у США для того, щоб конституція працювала, створили цілу систему інститутів і структур: суди, Верховний суд, президента, Палату представників і Сенат. Хоча ці інституції виконують й інші функції, їх існування великою мірою спрямоване на те, щоб підтримувати конституцію. І наш RSP в Anthropic проходить дуже схожий процес.

**Sam McCandlish:「Я думаю, це відображає наш ключовий погляд на питання безпеки: проблеми безпеки можна вирішити. Це дуже складне й важке завдання, яке потребує вкладати багато часу й зусиль.»

Як і в сфері безпеки автомобілів, відповідні інституції й правила вибудовуються роками. Але проблема, з якою ми зіткнулися зараз, ось яка: чи в нас є достатньо часу, щоб виконати все це? Тож ми маємо максимально швидко визначити ключові інституції, які потрібні для безпеки AI, і першими створити їх у себе. При цьому треба забезпечити, щоб інші могли їх запозичити та впровадити.

Dario Amodei: «Це також допомагає узгодженню співпраці всередині організації. Бо якщо якась частина компанії починає діяти так, що це не відповідає нашим цінностям безпеки, RSP через якийсь механізм “виведе” проблему назовні, так? RSP зупинить їхній подальший рух у планах, які не відповідають стандартам безпеки. Тому RSP стає інструментом, який постійно нагадує кожному: безпека має бути базовою вимогою у процесі розробки продуктів і планування. Ми не говоримо про гасла: ми справді вбудовуємо безпеку в кожен етап. Якщо людина приєднується до команди і не може погодитися з цими принципами, вона просто не зможе інтегруватися. Вона або адаптується під цей напрям, або зрозуміє, що їй складно продовжувати далі».

Jack Clark: «З часом RSP стає все важливішим. Ми вклали в нього тисячі годин. І коли я пояснював RSP сенаторам, я казав: “Ми впровадили певні заходи, щоб наша технологія не була легко доступною для зловживань, але щоб водночас забезпечити безпеку”. Їхня реакція зазвичай була така: “Звучить цілком нормально. Хіба не так робить кожна компанія?” Це трохи змушує мене розсміятися й одночасно засмути́тись: насправді не кожна компанія робить так».

Daniela Amodei: «Ще я вважаю, що, окрім узгодження цінностей усередині команди, RSP також підвищує прозорість компанії. Бо він чітко фіксує, які в нас цілі: кожен у компанії розуміє їх, а зовнішні люди також можуть чітко знати, яких саме безпекових цілей ми дотримуємося і який у нас напрям. Хоч документ ще не ідеальний, ми постійно його оптимізуємо й покращуємо».

Я думаю, якщо ми прямо визначимо, що саме є нашими ключовими проблемами — ми не можемо бездумно використовувати слово “безпека”, щоб рухати прогрес, наприклад, “через проблеми безпеки ми не можемо зробити щось” чи “через проблеми безпеки ми мусимо зробити щось”. Наша справжня ціль — зробити так, щоб усі розуміли, яку саме безпеку ми маємо на увазі.

Dario Amodei: «У довгостроковій перспективі те, що насправді шкодить безпеці, — часто ті самі “тренування безпеки”, які відбуваються надто часто. Я колись казав: “Якщо в будинку щотижня лунає сигнал пожежної тривоги, то це, по суті, дуже небезпечна будівля”. Бо коли справді починається пожежа, можливо, ніхто не зверне уваги. Тому ми маємо бути дуже уважними до точності тривоги й її “калібрування”».

Chris Olah: «Якщо подивитися з іншого боку, я думаю, RSP на багатьох рівнях створює здорові механізми стимулювання. Наприклад, усередині компанії RSP узгоджує стимули кожної команди з безпековими цілями: це означає, що якщо у безпеці немає достатнього прогресу, відповідні роботи будуть призупинені».

А назовні RSP теж краще за інші методи створює здорові механізми стимулювання. Наприклад, якщо колись нам доведеться ухвалити серйозні дії — визнати: “наша модель розвинулася до певного етапу, але ми ще не можемо гарантувати її безпеку” — тоді RSP надасть чітку рамку та докази, щоб підтримати це рішення. Така рамка існує заздалегідь, і вона ясна та зрозуміла. Повертаючись назад до того, як ми обговорювали ранню версію RSP, я тоді не повністю усвідомлював її потенціал. Але зараз я думаю, що вона справді ефективніша за будь-які інші методи, які я міг би уявити».

Jared Kaplan: «Я погоджуюся з цими думками, але думаю, що це може недооцінювати виклики, з якими ми стикаємося при формуванні правильних політик, встановленні критеріїв і проведенні меж. Ми вже зробили багато ітерацій у цих питаннях і продовжуємо оптимізувати. Складне завдання — для певних нових технологій інколи дуже важко чітко визначити, чи є вони небезпечними, чи безпечними. Часто ми зустрічаємо величезну “сірість”. Ці виклики на початку розробки RSP дуже мене захоплювали — і зараз теж. Але водночас я усвідомив, що чітко імплементувати цю стратегію і змусити її реально працювати — складніше й викликіше, ніж я спершу уявляв».

Sam McCandlish: «Сірі зони неможливо повністю прогнозувати, бо вони скрізь. Проблеми можна побачити лише тоді, коли ти вже реально починаєш впроваджувати. Тому наша мета — реалізувати все якнайраніше, щоб ми могли якнайшвидше виявити потенційні проблеми».

Dario Amodei: «Тобі потрібно зробити три-чотири ітерації, щоб справді зробити ідеально. Ітерація — це дуже потужний інструмент; практично неможливо з першого разу бути повністю правим. Тож якщо ризики зростають, потрібно завершити ці ітерації якнайраніше, а не чекати до кінця».

Jack Clark: «І водночас, тобі потрібно створити внутрішні інститути й процеси. Хоч конкретні деталі можуть змінюватися з часом, ключове — розвивати здатність команди виконувати ці дії».

Tom Brown: «Я відповідаю за керування обчислювальними ресурсами в Anthropic. Для мене важливо комунікувати з зовнішніми зацікавленими сторонами, тому що різні зовнішні люди мають різні погляди на швидкість розвитку технологій. Спершу я теж думав, що технології не розвиватимуться так швидко, але потім моя думка змінилася, і я добре це розумію. Я думаю, що для мене RSP особливо корисний, особливо коли я спілкуюся з людьми, які вважають, що технології розвиватимуться повільно. Ми можемо сказати: “Поки технології не стануть максимально терміновими, нам не потрібно вживати надзвичайно жорстких безпекових заходів”. Якщо вони кажуть: “Я вважаю, що ще довго нічого не стане терміновим”, я можу відповісти: “Добре, тоді нам тимчасово не потрібно вживати екстремальних безпекових заходів”. Це робить комунікацію із зовнішнім світом значно плавнішою».

Jack Clark:「Тоді в яких інших аспектах RSP вплинув на людей?»

Sam McCandlish: «Усе побудовано на оцінках. Кожна команда робить оцінювання. Наприклад, ваша тренувальна команда постійно займається оцінками: ми намагаємося визначити, чи стала модель достатньо потужною, щоб потенційно створити небезпеку».

Daniela Amodei: «Це означає, що ми маємо оцінювати показники моделей за стандартами RSP, включно з перевіркою, чи немає ознак, які можуть викликати в нас занепокоєння».

Sam McCandlish: «Оцінити мінімальні можливості моделі відносно легко, але оцінити її максимальні можливості — дуже складно. Тому ми витратили багато наукових зусиль, намагаючись відповісти на такі питання: “Чи здатна ця модель виконувати певні небезпечні завдання? Чи є методи, які ми ще не врахували — наприклад, карти думок, best event чи використання якихось інструментів — і чи зможуть вони дати моделі можливість виконувати надто небезпечну поведінку?”»

Jack Clark: «Ці оціночні інструменти дуже допомагають у процесі розробки політик. Бо “безпека” — це дуже абстрактне поняття. Коли я кажу: “У нас є оціночний інструмент, який визначає, чи можна розгортати цю модель”, — тоді ми можемо співпрацювати з тими, хто формує політику, з експертами з національної безпеки та з фахівцями зі сфери CBRN (хімія, біологія, радіологія та ядерна сфера), щоб спільно визначити точні критерії оцінювання. Без цих конкретних інструментів така співпраця може просто не відбутися. А коли з’являються чіткі стандарти, людям стає простіше долучитися й допомогти переконатися, що вони точні. Тому в цьому сенсі роль RSP дуже помітна».

Daniela Amodei: «Для мене RSP теж дуже важливий і часто впливає на мою роботу. Цікаво, що я думаю про RSP трохи нетрадиційно: більше через його “тон”. Тобто через спосіб, як він сформульований. Нещодавно ми суттєво змінили тональність RSP, бо раніше він був надто технічним — аж до відчуття конфронтації. Я витратила багато часу на те, як побудувати таку систему, щоб людям було цікаво долучитися до процесу».

Якби RSP був документом, який у компанії міг би легко прочитати та зрозуміти кожен, було б просто чудово. Так само як зараз у нас є OKR (цілі та ключові результати). Наприклад, яка головна ціль RSP? Як ми дізнаємося, що її досягнуто? Який зараз рівень безпеки AI (ASL)? ASL-2 чи ASL-3? Якщо всі знають, на що саме звертати увагу, тоді виявляти потенційні проблеми стає легше. Натомість якщо RSP надто технічний і його можуть зрозуміти лише кілька людей, його практична користь дуже зменшується.

Мені приємно бачити, що RSP рухається в напрямку більш зрозумілого формату. Зараз я вважаю, що більшість людей у компанії, а можливо й усі — незалежно від їхніх посад — можуть прочитати цей документ і відчути: “Це логічно. Я хочу розробляти AI за цими принципами, і я розумію, чому ми звертаємо увагу на ці питання. Якщо я натраплю на проблему в роботі, я приблизно знаю, на що мені дивитися”. Ми хочемо, щоб RSP був достатньо простим, так щоб люди, які працюють на виробничих лініях, могли легко визначити: “Ремінь безпеки має бути під’єднаний тут, але зараз він не під’єднаний”. І тоді проблему можна виявити вчасно.

Ключове — створити здоровий механізм зворотного зв’язку, щоб між керівництвом, радою директорів, іншими підрозділами компанії та командами, які реально займаються R&D, був плавний обмін. Я вважаю, що більшість проблем виникає через погану комунікацію або зсув у передачі інформації. Якщо проблема з’являється лише з таких причин, це було б дуже прикро, правда ж? У підсумку нам треба втілити ці ідеї в реальну практику і зробити так, щоб вони були простими й зрозумілими для кожного.

Історія заснування Anthropic

Sam McCandlish: «Насправді серед нас ніхто спочатку не мав бажання створювати компанію. Ми просто вважали, що це наш обов’язок: ми мусимо діяти, бо це єдиний шлях забезпечити, що AI розвивається в правильному напрямі. Саме тому ми й дали таку обіцянку».

Dario Amodei: «Моя початкова ідея була дуже проста: я хотів “вигадувати й досліджувати щось нове” корисним способом. Це підштовхнуло мене в напрям AI, а дослідження AI потребують дуже багато інженерної підтримки — а зрештою й дуже багато фінансування».

Проте я зрозумів, що якщо немає чіткої мети й плану, щоб заснувати компанію та керувати середовищем, то багато речей можна “зробити”, але вони повторюють ті помилки технологічної індустрії, від яких мене відчужує. Ці помилки зазвичай походять від одних і тих самих людей, одних і тих самих установок і одних і тих самих моделей мислення. Тому в якийсь момент я усвідомив: ми маємо зробити це зовсім новим способом — і це майже неминуче.

Jared Kaplan: «Пам’ятаєш, коли ми були в аспірантурі, у тебе була повна програма, ти намагався дослідити, як через наукові дослідження просувати суспільну користь. Я думаю, що це дуже схоже на те, як ми мислимо зараз. Я пам’ятаю, що тоді в тебе був проєкт під назвою “Project Vannevar” — його ціль була в тому самому. Тоді я був професором. Я спостерігав, як розвиваються події, і глибоко вірив у те, що вплив AI зростає надзвичайно швидко».

Але через те, що дослідження AI потребують дуже багато фінансування, і ще як професор фізики, я зрозумів, що не зможу сам за рахунок академічних досліджень рухати ці прогреси. Я хотів мати можливість створити інституцію разом із людьми, яким можна довіряти, щоб забезпечити, що розвиток AI рухатиметься в правильний бік. Але чесно кажучи, я ніколи не пропонував би іншим засновувати компанію і ніколи не мав такого бажання. Для мене це була лише “машина” для досягнення цілі. Я думаю, зазвичай ключ успіху в тому, що ти справді дбаєш про реалізацію якоїсь значущої для світу мети, а потім знаходиш найкращий спосіб втілити саме її.

Як створити культуру довіри

Daniela Amodei: «Я часто думаю про наші стратегічні сильні сторони як команди. І один фактор, який може звучати дещо несподівано, але він дуже важливий — це наша висока довіра одне до одного. Дуже складно зібрати велику групу людей із спільною місією, але в Anthropic ми змогли донести це відчуття місії все більшій кількості людей. У цьому тимі, включно з керівництвом і всіма учасниками, усі збираються разом саме через спільну місію. Наша місія ясна й чиста — у технологічній індустрії таке трапляється нечасто».

Я думаю, що ми намагаємося досягти мети, яка наповнена певним чистим сенсом. Ми ніхто не почав усе це через бажання заснувати компанію. Ми просто вважали, що так робити треба. Ми не могли продовжувати нашу роботу на старому місці — нам треба було зробити це самим.

Jack Clark: «Тоді, коли з’явився GPT-3, і коли всі ми торкнулися або брали участь у проєктах, як-от scaling laws — ми в 2020 році вже чітко бачили напрям розвитку AI. Ми розуміли: якщо не діяти якнайшвидше, ми можемо дуже швидко дійти до незворотної межі. Нам треба

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити