Семеро співзасновників обговорюють: як з'явилася Anthropic?

«Ніхто не хоче відкривати бізнес, але вважає, що так треба зробити.»

Упорядкував і скомпілював: глибокий приплив TechFlow

Гість: співзасновники Anthropic — Кріс Олах, Джек Кларк, Даніела Амодей, Сем Маккендлиш, Том Браун, Даріо Амодей, Джаред Кеплан

Джерело подкасту: Anthropic

Заголовок: Building Anthropic | A conversation with our co-founders

Дата виходу: 20 грудня 2024 року

Ключові тези

Минулого тижня Anthropic двічі поспіль потрапляв в інциденти:

Спочатку майже 3000 внутрішніх документів стали доступними публічно через помилку в налаштуваннях CMS, а відразу за цим Claude Code v2.1.88 під час публікації в npm прихопив 59,8 MB source map — 510 тисяч рядків коду напряму оголилися.

Компанія, яка «вписала безпеку в гени», у власному DevOps продовжувала стабільно «влітати» — аж до максимальної іронії.

Але перш ніж поспішати з глузуванням, варто озирнутися назад і послухати, як семеро співзасновників Anthropic говорили всередині компанії понад рік тому. Цей подкаст записаний у грудні 2024 року: усі троє (насправді — семеро) обговорюють, як була створена ця компанія, як шліфувався RSP (Responsible Scaling Policy, дослівно «політика відповідального масштабування»), чому слово «безпека» не можна використовувати будь-коли — і також ту фразу CEO Даріо, яку потім неодноразово цитували:

«Якщо в будівлі щотижня лунає пожежна сигналізація, то це насправді дуже небезпечна будівля».

Тепер, коли чуєш цю фразу знову, смак трохи інший.

Сім співзасновників — швидко розпізнаємо

Dario Amodei|CEO, колишній віцепрезидент з досліджень в OpenAI; навчався нейронауці — «фінальний голос» у стратегії та напряму безпеки Anthropic. У цій розмові говорить найбільше.

Daniela Amodei|президентка, сестра Даріо. Раніше в Stripe пропрацювала п’ять з половиною років, вела команди довіри та безпеки; ще раніше працювала в некомерційній сфері та в міжнародному розвитку. Побудова організації Anthropic і зовнішня комунікація здебільшого — її ініціатива.

Jared Kaplan|професор фізики, який став дослідником AI; один із ключових авторів scaling laws. Часто дає оцінки з перспективи «стороннього», і сам називає, що колись почав робити AI, бо «набридло займатись фізикою».

Chris Olah|одна з ключових постатей у дослідженнях інтерпретованості (interpretability); у 19 років прийшов у бай-ареа AI-спільноту, працював у Google Brain і OpenAI. У Anthropic найбільш виражений техноідеалізм.

Tom Brown|перший автор у статті про GPT-3; нині керує обчислювальними ресурсами Anthropic. Його погляд більше про інженерію та інфраструктуру; у подкасті багато говорить про шлях від «я не вірив, що AI так швидко» до зміни позиції.

Jack Clark|колишній технологічний репортер Bloomberg; відповідальний за політику та публічні справи Anthropic. У розмові виконує роль ведучого: підводить нитку та ставить запитання.

Sam McCandlish|співзасновник у дослідженнях; найменше говорить, але часто однією фразою влучає в суть — «позиція для прицільного добивання».

Підсумок цікавих думок

Чому ми робимо AI: від нудьги у фізиці до «наглядався — тож вірю»

Jared Kaplan: «Я раніше дуже довго займався фізикою, стало трохи нудно, і я хотів працювати разом із більшою кількістю друзів — тому й зробив AI».

Dario Amodei: «Я не думаю, що я мав чітку ідею переконати тебе — я просто постійно показував тобі результати AI-моделей. Десь у певний момент, коли я показав тобі їх достатньо, ти кажеш: “ну, схоже, це правильно”».

Ставки проти консенсусу: більшість «консенсусів» — це стадний ефект, замаскований під зрілість

Jared Kaplan: «Чимало дослідників AI психологічно дуже сильно постраждали під час AI-зими: ніби амбіції виявляються недозволеними».

Dario Amodei: «Найглибший урок за мої десять років — це те, що багато консенсусів із серії “усі це знають” насправді є стадним ефектом, замаскованим під зрілість. Ти кілька разів бачив, як консенсус після однієї ночі перевертається — і тоді кажеш: “ні, ми ставимо на це”. Навіть якщо в тебе лише 50% правоти, ти все одно внесеш багато того, що інші не внесли».

Безпека і масштабування переплетені

Dario Amodei: «Однією з мотивацій, через яку ми тоді розширювали модель, було те, що модель має спершу стати достатньо розумною, щоб RLHF взагалі міг працювати. Саме це — те, у що ми й досі віримо: безпека та масштабування переплетені разом».

RSP: політика відповідального масштабування — «конституція» Anthropic

Tom Brown: «RSP для Anthropic — це як наша конституція. Це керівний документ, центральний документ, тому ми готові вкладати багато часу й зусиль у те, щоб знову й знову його відшліфовувати».

Dario Amodei: «RSP зупиняє плани, які не відповідають стандартам безпеки. Ми не ведемо мову про гасла — ми реально інтегруємо безпеку в кожен елемент процесу».

Пожежна тривога надто часто лунає: коли вже реально горить, ніхто не побіжить

Daniela Amodei: «Ми не можемо довільно використовувати слово “безпека”, щоб керувати прогресом. Наша справжня мета — щоб усі чітко розуміли, що саме ми маємо на увазі під безпекою».

Dario Amodei: «Те, що реально шкодить безпеці, — це ті, хто часто влаштовує “навчання з безпеки”. Якщо в одній великій будівлі кожного тижня лунають пожежні тривожні сигнали — тоді це, по суті, дуже небезпечна будівля».

“Почесна поразка” — пастка

Chris Olah: «Існує думка, що найморальніша дія — це принести в жертву інші цілі заради безпеки, тим самим демонструючи чистоту намірів щодо справи. Але на практиці такий підхід є самознищенням. Бо це призводить до того, що повноваження ухвалювати рішення переходять до рук тих, хто не цінує безпеку».

Співзасновники обіцяють віддати 80% доходу

Tom Brown: «Ми разом зобов’язуємося пожертвувати 80% доходу тим напрямам, які просувають справи, що підтримують розвиток суспільства — це те, що кожен без вагань підтримує».

Ніхто не хоче відкривати бізнес, але вважає, що так треба зробити

Sam McCandlish: «Насправді серед нас немає жодного, хто спочатку мав намір заснувати компанію. Ми просто вважаємо, що це наша відповідальність: це єдиний спосіб гарантувати, що розвиток AI рухається в правильному напрямі».

Daniela Amodei: «Наша місія водночас чітка й чиста — у технологічній індустрії таке трапляється нечасто».

Інтерпретованість: у нейромережах сховано цілий набір “штучної біології”

Chris Olah: «Нейромережі дуже гарні: у них є багато того, чого ми ще не бачили. Іноді я уявляю так: через десять років заходиш у книгарню, купуєш підручник про біологію нейромереж — і там є різні захопливі речі».

AI для посилення демократії, а не як інструмент диктатури

Dario Amodei: «Ми хвилюємося, що якщо AI буде розроблено неправильно, він може стати інструментом диктаторизму. Як зробити так, щоб AI став інструментом для посилення свободи й самовизначення? Важливість цього напрямку не менша за біологію та інтерпретованість».

Від зустрічі в Білому домі до Нобелівської премії: вплив AI давно вийшов за межі технічного кола

Jared Kaplan: «У 2018 році ви б не подумали, що президент покличе вас у Білий дім і говоритиме, що вони стежать за мовними моделями».

Dario Amodei: «Ми вже бачили Нобелівську премію в галузі хімії, присуджену AlphaFold. Ми маємо докладати зусиль, щоб розробляти інструменти, які допоможуть нам створити сотні “AlphaFold”».

Чому варто досліджувати AI?

Jack Clark: Чому ми взагалі почали робити AI? Jared, чому ти робиш AI?

Jared Kaplan:

Я раніше дуже довго займався фізикою, стало трохи нудно, і я хотів працювати разом із більшою кількістю друзів — тому й зробив AI.

Tom Brown:

Я ще думав, що це Dario тебе переконав.

Dario Amodei:

Я не думаю, що я мав чітке “переконання” тебе. Я просто постійно показував тобі результати AI-моделей і хотів донести, що вони дуже універсальні — не лише для одного конкретного питання. Десь у певний момент, коли я показав тобі їх достатньо, ти кажеш: “ну, схоже, це правильно”.

**Jack Clark: Chris, коли ти займався дослідженнями інтерпретованості, ти знайомився з усіма в Google? **

Chris Olah:

Ні. Насправді, коли мені було 19, я вперше приїхав у затоку (Bay Area) і вже знав чимало людей із тих, хто там був. Тоді я бачив Даріо й Джареда: вони були постдоками, і мені це здавалося неймовірно крутим. Пізніше, коли я працював у Google Brain, після того як до нас приєднався Dario, ми певний час сиділи поруч. Я також працював разом із Tom. А потім, коли я перейшов в OpenAI, ми вже працювали разом усі.

Jack Clark:

Я пам’ятаю, що в 2015 році бачив Даріо на якійсь конференції: він хотів вас інтерв’ювати, і навіть Google PR сказав, що мені спочатку треба прочитати всі ваші статті.

Dario Amodei:

Тоді я писав у Google «Concrete Problems in AI Safety».

Sam McCandlish:

Перш ніж почати з тобою працювати, ти запросив мене поговорити в офісі — наче переповідав цілу історію про AI. Я пам’ятаю, що після розмови подумав: «Виявляється, це навіть серйозніше, ніж я усвідомлював». Ти тоді говорив про «великий блок обчислень», про кількість параметрів, про масштаб нейронів людського мозку.

Проривне масштабування

Jack Clark:: я пам’ятаю, що в OpenAI, коли ми працювали зі scaling laws, і почали робити моделі більшими — це реально почало працювати. І це працювало далі, на багатьох проєктах, — дивно й послідовно ефективно: від GPT-2 до scaling laws до GPT-3 — ми так і йшли дедалі ближче.

Dario Amodei: : ми це була та сама «купка людей, які роблять справу».

Jared Kaplan: : усі ми тоді дуже хотіли безпеки. І в той час була ідея: AI буде сильним, але може не розуміти людські цінності, а також навіть не вміти з нами спілкуватися. Мовні моделі певною мірою можуть гарантувати, що вони зможуть зрозуміти багато прихованих знань.

Dario Amodei:

І ще RLHF поверх мовних моделей. Однією з мотивацій, через яку ми тоді розширювали модель, було те, що модель має спершу стати достатньо розумною — і тільки тоді RLHF можна зробити. Це і є те, у що ми й досі віримо: безпека та масштабування переплетені разом.

Chris Olah:

Так. Тоді scaling-робота була фактично частиною команди з безпеки. Бо ми вважали, що щоб люди сприймали безпеку всерйоз, насамперед потрібно вміти прогнозувати тренди AI.

Jack Clark: :

Я пам’ятаю, я був в аеропорту у Великій Британії: з GPT-2 генерував вибірку й робив фейкові новини, а потім у Slack надіслав Доріо: «Це реально працює, може мати величезний вплив на політику», — я пам’ятаю, що відповідь Доріо була: «так».

Після цього ми також зробили багато робіт, пов’язаних із релізами — і це було божевільно.

Daniela Amodei:

Я пам’ятаю той реліз: це було, мабуть, вперше, коли ми реально почали працювати разом. Тоді випускали GPT-2.

Jack Clark:

Я думаю, це дуже нам допомогло: ми спершу зробили щось «трохи дивне, але з акцентом на безпеку», а потім разом зробили Anthropic — ще масштабніше, і з тим самим «трохи дивним, але безпековим» підходом.

Етап старту AI

Tom Brown: Повернімося до статті «Concrete Problems». Я прийшов в OpenAI у 2016 році: тоді ми з тобою були серед найперших людей. Я відчув, що це схоже на першу основну (mainstream) статтю з AI safety. Звідки вона взялася?

Dario Amodei:

Chris знав — він брав участь. Тоді в Google я вже й забув, що в мене було як основний проєкт. Ця стаття виглядає як те, що я затягнув через прокрастинацію.

Ми хотіли записати, які в AI safety є відкриті питання. Тоді AI safety постійно звучала дуже абстрактно. Ми хотіли прив’язати це до тогочасної реальної ML. Зараз ця лінія роботи триває вже шість чи сім років, але тоді це був дивний задум.

Chris Olah:

Мені здається, що це в якомусь сенсі майже політичний проєкт. Тоді багато хто не сприймав безпеку всерйоз. Ми хотіли впорядкувати список питань, які багато людей вважали розумними, і які фактично вже існували в літературі, а потім знайти авторитетних людей з різних інституцій і підписати цю роботу разом.

Я пам’ятаю, що витратив дуже багато часу на комунікацію з більш ніж двадцятьма дослідниками з Brain, щоб домогтися підтримки для публікації. Якщо дивитися лише на самі питання, то сьогодні, озираючись назад, не все може виявитися так, як ми думали: можливо, це були не найправильніші питання. Але якщо розглядати це як побудову консенсусу: «тут є реальні проблеми, і їх потрібно сприймати серйозно», — тоді це був важливий момент.

Jack Clark:

Зрештою ти потрапиш у дуже дивовижний світ наукової фантастики. Я пам’ятаю, що на ранніх етапах Anthropic говорив про Constitutional AI. Jared сказав: “Ми пишемо конституцію для мовної моделі — і тоді її поведінка буде такою”. Тоді це звучало божевільно. Чому ви вважали це здійсненним?

Jared Kaplan:

Я довго обговорював це з Dario. Мені здається, що в AI прості методи часто працюють дуже добре. Найперші версії були складними, потім їх безперервно скорочували, і зрештою все зводилося до такого: використовуй те, що модель добре справляється з тестами на вибір відповіді; даси їй чіткі підказки, що саме шукати — і цього достатньо. А тоді принципи можна прямо записати.

Dario Amodei:

Це знову до «великого блока обчислень» (The Big Blob of Compute), до «болючого уроку» (The Bitter Lesson), до «припущення про масштабування» (Scaling Hypothesis): якщо ти можеш дати AI чітку мету та дані, він навчиться. Інструкції й принципи: мовна модель їх читає, а також може співвіднести їх із власною поведінкою — і ціль навчання тоді вже там. Тож мій і Jared погляд такий: зробити це можна, якщо деталі багато разів шліфувати й повторювати.

Jared Kaplan:

Для мене на початку це було трохи дивно. Я прийшов із фізики, а зараз усі захопилися AI — і легко забути, якою тоді була атмосфера. Коли я говорив із Dario про це, у мене виникало відчуття, що чимало дослідників AI психологічно дуже сильно постраждали під час AI-зими: ніби “мати амбіції” не дозволено. Обговорення безпеки вимагало спершу вірити, що AI може бути дуже сильним і дуже корисним, але тоді існувала якась заборона на амбіції. Перевага фізиків — це “впевнена зверхність”: вони часто беруться за дуже амбітні справи, звикли говорити про великі загальні картини.

Dario Amodei:

Мені здається, це справді так. У 2014 році деякі речі просто не можна було вимовляти. Це також типова академічна проблема: окрім певних напрямків, інституції ставали дедалі більше огидними до ризику. Індустріальний AI успадкував ці настрої. Я думаю, що з цього змогли вийти лише десь до 2022 року.

Chris Olah:

Є ще два прояви «консерватизму»: один — серйозно дивитися на ризики; інший — ставитися до думки, що потрібно серйозно приділяти увагу ризикам, і одночасно вірити, що ідея може спрацювати, як до зарозумілості. Ми тоді були радше в другій моделі. І в історії 1939 року, коли обговорювали ядерну фізику, було щось подібне: Фермі опирався; Szilard або Teller дивилися на ризики серйозніше.

Dario Amodei:

Найглибший урок за мої десять років такий: багато консенсусів із серії “усі це знають” насправді є стадним ефектом, замаскованим під зрілість. Ти кілька разів бачив, як консенсус перевертається після однієї ночі — і тоді кажеш: «ні, ми ставимо на це». Можливо, не обов’язково, що це правильно, але ігноруй шум і роби ставки. Навіть якщо в тебе лише 50% правоти, ти все одно внесеш багато того, що інші не внесли.

Зміна ставлення суспільства до штучного інтелекту

Jared Kaplan:

Сьогодні це так само в деяких питаннях безпеки: зовнішній консенсус вважає, що багато проблем безпеки “не виростають” із технологій самі собою, але ми в Anthropic, коли проводили дослідження, бачимо, що вони справді виростають природно.

Daniela Amodei:

Але за останні 18 місяців це змінюється, і водночас змінюються емоції світу до AI. Під час наших досліджень із користувачами ми частіше чуємо, що звичайні користувачі переймаються загальним впливом AI на світ.

Іноді це питання роботи, упереджень, токсичності; інколи це: «а чи не зламає він світ, чи не змінить спосіб, як люди співпрацюють» — і це, чесно кажучи, я не повністю передбачав.

am McCandlish:

Чомусь ML-спільнота в дослідженнях зазвичай більш песимістична, ніж широка аудиторія, щодо того, що AI “стане дуже сильним”.

Jared Kaplan:

У 2023 році я разом із Dario їздив у Білий дім. На зустрічі Harris, Raimondo (за суттю) мали таку думку: ми дивимося на вас; AI — це велика справа; ми серйозно за цим стежимо, але в 2018 році ви б не подумали, що президент покличе вас у Білий дім і скаже, що він стежить за мовними моделями.

Tom Brown:

Це цікаво: багато хто з нас прийшов у цю історію ще тоді, коли було не зовсім ясно, чим усе закінчиться. Це як Фермі щодо атомної бомби: він сумнівався. З’являлися певні докази, що бомбу можуть створити, але було й багато доказів, що ні. І зрештою він вирішив спробувати. Бо якщо це правда, то вплив буде величезний — тому це варто робити.

У 2015–2017 роках з’являлися (і далі ставали дедалі більше) докази, що AI може бути великою справою. У 2016 році я говорив із наставником: я пробував робити стартапи, хотів займатися AI safety, але в математиці мені не вистачало сили, і я не знав, що робити. Тоді хтось казав: тобі треба досконало знати теорію рішень. Хтось казав: божевільних подій із AI не буде, а людей, які реально підтримують це, дуже мало.

Jack Clark:

У 2014 році мене сприймали як божевільного, коли я робив звіти про тренди ImageNet. У 2015 році я хотів написати про NVIDIA, бо в статтях пропонували GPU — і мене теж назвали божевільним. У 2016 році я пішов із новин у AI, і навіть були листи типу: «ти зробив найбільшу помилку в житті». У той час із багатьох кутів зору серйозно ставити на те, що “масштабування станеться”, дійсно виглядало як безумство.

Jared Kaplan: Як ти прийняв рішення? Ти вагався?

Jack Clark:

Я зробив зворотну ставку: висунув вимогу бути full-time AI-репортером і подвоїв зарплату — я знав, що вони не погодяться. Потім ліг спати й на ранок звільнився. Бо я щодня читаю архівні файли, і я постійно думав, що відбувається щось божевільно важливе: настає момент, коли треба робити ставку з дуже високою впевненістю.

Tom Brown:

Я не був таким категоричним: я коливався шість місяців.

Daniela Amodei:

І тоді це не було мейнстрімом: що «інженери теж можуть суттєво просувати AI». Тоді було: «AI можуть робити лише дослідники», тож вагатися — цілком нормально.

Tom Brown:

Пізніше OpenAI сказав: «ти можеш допомагати AI безпеці через інженерію» — саме тоді я й приєднався. Daniela, ти ж була моїм менеджером в OpenAI. Чому ти тоді приєдналася?

Daniela Amodei:

Я пропрацювала в Stripe п’ять з половиною років. Greg колись був моїм босом. Я також познайомила Greg із Dario. Тоді Greg засновував OpenAI, і я сказала йому: «Найрозумніша людина з усіх, кого я знаю, — це Dario. Якщо ти зможеш привести його в команду — тобі неймовірно пощастить». А потім Dario приєднався до OpenAI.

Можливо, як і тобі, мені теж приходило в голову думати про те, що робити після того, як я піду з Stripe. Я приєдналася до Stripe, бо до цього працювала в некомерційних організаціях і в міжнародному розвитку — мені здавалося, що мені потрібні додаткові навички. І, чесно кажучи, я навіть думала, що врешті повернуся в той напрям.

До того як прийти в Stripe, я вважала, що в мене недостатньо здібностей, аби допомагати людям, які мають гірші стартові умови, ніж я. Тож я була в пошуку інших технологічних компаній, сподіваючись знайти новий спосіб створювати більший вплив. А тоді OpenAI здався мені дуже хорошим вибором. Це некомерційна організація, присвячена досягненню дуже важливої мети, що має далекоглядне значення.

Я давно вірю в потенціал AI — і мені було відомо про Dario. Вони справді потребували людей, які б могли допомагати з управлінням. Тож я відчула, що ця робота дуже добре підходить під мій бекграунд. Я думала: «Це некомерційна організація. Тут зібралася команда дуже талановитих людей із прекрасним баченням. Але їхня робота виглядає трохи хаотично». І саме тому мене це збуджувало — бо я могла б туди зайти.

Тоді мені здавалося, що я універсальний гравець: я відповідала не лише за управління членами команди, а й за керування деякими технічними командами, а також за менеджмент розширення організації. Я відповідала за роботу з масштабування організації, а також працювала в мовній команді, і згодом брала на себе й інші завдання. Я також брала участь у політичних питаннях, і працювала разом із Chris. Я бачила, що в компанії багато дуже сильних людей — і це особливо мотивувало мене прийти, щоб допомогти компанії стати ефективнішою, більш структурованою.

Jack Clark: Пам’ятаю, після GPT-3 ти сказав: “Ви чули про trust and safety?”

Daniela Amodei:

Раніше в Stripe я вела команду trust and safety. Для подібних технологій вам, мабуть, потрібно враховувати питання довіри й безпеки. Це, по суті, міст між дослідженнями безпеки штучного інтелекту (AI Safety Research) та більш практичною повсякденною роботою. Тобто — як зробити так, щоб моделі були справді безпечними.

Оголосити, що ця технологія в майбутньому матиме серйозний вплив, — дуже важливо. Але водночас нам треба щодня робити більш практичну роботу, щоб закласти основу для ситуацій із вищими ризиками в майбутньому.

Політика відповідального масштабування: забезпечення безпечного розвитку AI

Jack Clark: Це якраз підводить до розмови про те, як була сформульована стратегія відповідального масштабування (RSP, Responsible Scaling Policy), чому ми думали про неї, і як зараз її застосовуємо — особливо з огляду на те, яку роботу ми робимо в довірі та безпеці моделей. Також: хто вперше запропонував цей RSP (політику відповідального масштабування)?

Dario Amodei:

Спочатку його запропонував я разом із Paul Christiano. Це приблизно наприкінці 2022 року. Спершу ідея була такою: чи не варто тимчасово обмежувати масштабування моделі до досягнення нею певного рівня, доки ми не знайдемо спосіб розв’язати деякі проблеми безпеки?

Але згодом ми вирішили, що лише обмежити масштабування на певному етапі, а потім зняти обмеження, виглядає дивно. Тож ми вирішили встановити низку порогів: щоразу, коли модель досягає порога, потрібно проводити серію тестів, щоб оцінити, чи вона має необхідні навички з безпеки.

Коли модель досягає кожного порогу, ми застосовуємо дедалі жорсткіші заходи безпеки та гарантій. Але на початку у нас була ще одна думка: якщо це виконуватиме третя сторона, може бути краще. Тобто така стратегія не повинна відповідати лише за одну компанію, інакше інші компанії можуть не захотіти її прийняти. Тому Paul особисто спроєктував цю стратегію. З часом, звісно, багато деталей змінювалися. А з нашого боку команда постійно досліджувала, як зробити так, щоб стратегія працювала краще.

Коли Paul оформив цю концепцію, він практично оголошував її одночасно з тим, що ми протягом одного-двох місяців опублікували власну версію. Фактично, багато учасників нашої команди були глибоко залучені в цей процес. Я пам’ятаю, що принаймні один із перших варіантів чернетки писав я, але весь документ зазнав багаторазових редагувань.

Tom Brown:

Для Anthropic RSP — це як наша «конституція». Це керівний документ, ядро. Тому ми готові вкладати дуже багато часу й сил, щоб його ретельно доводити й підтримувати точність та повноту.

Daniela Amodei:

Мені здається, процес розвитку RSP в Anthropic справді дуже цікавий. Він проходить через різні етапи, а також потребує різних навичок, щоб його реалізувати. Наприклад, є великі ідеї — і цей блок здебільшого тримають на собі Dario, Paul, Sam і Jared. Вони міркують: «Які наші базові принципи? Яке повідомлення ми хочемо передати? Як ми визначаємо, що наш напрям правильний?»

Але окрім цього, є дуже практична робота на рівні операцій: під час ітерацій ми оцінюємо й коригуємо деталі. Наприклад, ми могли очікувати, що на певному рівні безпеки досягнемо певних цілей, але якщо цього не трапляється — ми переглядаємо підхід і переконуємося, що можемо відповідати за результати своєї роботи.

Також є багато змін, пов’язаних із організаційною структурою. Наприклад, ми вирішили перебудувати організацію навколо RSP, щоб більш чітко розділити відповідальність. Мені дуже подобається аналогія з конституцією: як Сполучені Штати, щоб гарантувати виконання конституції, створили судову систему — суди, Верховний суд, президента, Палату представників і Сенат — цілу низку інституцій і механізмів. Навіть якщо вони виконують інші завдання, їхнє існування значною мірою для того, щоб підтримувати конституцію. І RSP в Anthropic проходить через дуже схожий процес.

Sam McCandlish:

Я вважаю, що це відображає одну з наших ключових позицій щодо безпеки: проблеми безпеки можна вирішити. Це надскладне і важке завдання, яке потребує великої кількості часу й зусиль.

Як у сфері автомобільної безпеки: відповідні інститути й процеси створювалися роками. Але питання, з яким ми стикаємося, таке: чи достатньо часу в нас, щоб це зробити? Тому ми маємо якомога швидше знайти ключові інститути, потрібні для AI safety, й одразу побудувати їх у себе, забезпечивши, що їх зможуть запозичити й поширити в інших місцях.

Dario Amodei:

Це також допомагає узгодити співпрацю всередині організації. Якщо якась частина організації діятиме так, що це не відповідатиме нашим цінностям безпеки, RSP якимось чином оголить проблему, правильно? RSP зупинить їхній подальший рух до планів, які не відповідають стандартам безпеки. Таким чином, це також стає інструментом, який постійно нагадує всім про необхідність тримати безпеку в центрі продуктового розвитку й планування. Ми не балакаємо про якісь гасла — ми реально інтегруємо безпеку в кожен етап. Якщо хтось приєднався до команди і не може прийняти ці принципи, він зрозуміє, що не може “влитися”. Або підлаштується під цей напрям, або побачить, що далі буде дуже складно.

Jack Clark:

З плином часу RSP стає дедалі важливішим. Ми вклали в нього кілька тисяч годин. А коли я пояснював RSP сенаторам, я казав: «Ми впровадили певні заходи, щоб наші технології не було так легко зловживати, і водночас щоб вони могли гарантувати безпеку». Їхня реакція зазвичай така: «Звучить цілком нормально. Хіба не кожна компанія так робить?» Мені інколи стає смішно й трохи сумно: насправді ж не кожна компанія так робить.

Daniela Amodei:

Крім узгодження цінностей команди, я ще вважаю, що RSP посилює прозорість компанії. Бо він чітко фіксує наші цілі — і кожен у компанії це розуміє. Так само зовнішні люди можуть чітко бачити, які в нас цілі та напрям у сфері безпеки. Хоч воно ще не ідеальне, ми постійно його оптимізуємо й покращуємо.

Я думаю, що важливо чітко сказати: «які саме ключові проблеми нас турбують». Ми не можемо довільно використовувати слово «безпека», щоб керувати прогресом, наприклад: «Через проблеми безпеки ми не можемо зробити щось» або «Через проблеми безпеки ми маємо зробити щось». Наша справжня мета — щоб усі розуміли, що саме ми маємо на увазі під безпекою.

Dario Amodei:

У довгостроковій перспективі саме ті «навчання з безпеки», які трапляються занадто часто, зазвичай шкодять безпеці. Я казав колись: «Якщо є будівля, в якій щотижня лунає пожежна сигналізація, то це по суті дуже небезпечна будівля». Бо коли справді трапиться пожежа, можливо, ніхто не зверне уваги. Тому ми маємо бути дуже уважні до точності й калібрування сигналів.

Chris Olah:

Якщо подивитися з іншого боку, я вважаю, що RSP на багатьох рівнях створює здорові стимули. Наприклад, всередині компанії RSP узгоджує стимули кожної команди з цілями безпеки. Це означає, що якщо ми не досягаємо достатнього прогресу в безпеці, відповідні роботи можуть бути зупинені.

А зовні RSP також створює здорові стимули краще, ніж інші підходи. Наприклад, якщо колись нам доведеться здійснити великі дії: визнати, що «наша модель вже перейшла на певний етап розвитку, але ми ще не можемо гарантувати її безпеку». Тоді RSP надає чітку рамку й докази, що підтримують таке рішення. Така рамка існує заздалегідь, вона чітка й зрозуміла. Пам’ятаю, коли ми обговорювали ранні версії RSP, я не до кінця усвідомлював його потенціал. Але зараз мені здається, що він справді ефективніший, ніж інші підходи, які я міг би уявити.

Jared Kaplan:

Я погоджуюся з цими тезами, але вважаю, що це може недооцінювати виклики, з якими ми стикаємося під час формування правильних політик, визначення критеріїв і проведення меж. Ми вже зробили багато ітерацій у цих напрямках і продовжуємо оптимізувати. Складне питання — для деяких нових технологій іноді важко визначити, що вони небезпечні, а що безпечні. Дуже часто ми стикаємося з величезною сірою зоною. Ці виклики в захватили мене на початку розробки RSP, і я досі так само це відчуваю. Але водночас я усвідомив, що впровадити стратегію так, щоб вона була чіткою й реально працювала, — складніше й далі викликальніше, ніж я спочатку уявляв.

Sam McCandlish:

Сіру зону неможливо повністю прогнозувати, бо вона всюди. Ви знаходите проблеми лише тоді, коли реально починаєте впроваджувати. Тому наша мета — запустити все якнайраніше, щоб якнайшвидше виявити потенційні проблеми.

Dario Amodei:

Тобі потрібно зробити три-чотири ітерації, щоб справді довести до досконалості. Ітерація — дуже потужний інструмент: майже неможливо з першого разу зробити все правильно. Тому, якщо ризики зростають, треба робити ітерації якнайраніше, а не чекати до кінця.

Jack Clark:

І водночас, тобі треба створити внутрішні інститути та процеси. Хоч деталі можуть змінюватися з часом, найважливіше — розвинути здатність команди виконувати це на практиці.

Tom Brown:

Я відповідаю в Anthropic за управління обчислювальними ресурсами. Для мене важливо спілкуватися із зовнішніми стейкхолдерами, бо різні зовнішні люди по-різному дивляться на швидкість розвитку технологій. На старті я теж думав, що технології не розвиватимуться так швидко, але згодом моя думка змінилася — і я це дуже добре розумію. Я вважаю, що для мене RSP особливо корисний, зокрема коли спілкуєшся з людьми, які думають, що розвиток технологій буде повільним. Ми можемо їм сказати: «Поки технології не стануть настільки терміновими, що вже потрібні екстремальні заходи безпеки, нам не потрібно робити нічого екстремального». Якщо вони відповідають: «Я думаю, що ще довгий час нічого термінового не буде», я можу відповісти: «Окей, тоді нам поки що не треба вживати екстремальних заходів безпеки». Це робить комунікацію із зовнішнім середовищем значно плавнішою.

Jack Clark:

А в яких ще сферах RSP вплинув на людей?

Sam McCandlish:

Усе зводиться до оцінювання. Кожна команда проводить оцінки. Наприклад, ваша команда з тренування постійно робить оцінювання: ми намагаємося визначити, чи модель вже стала достатньо сильною, щоб можливо створювати небезпеку.

Daniela Amodei:

Це означає, що нам треба вимірювати продуктивність моделі за стандартами RSP: перевірити, чи є якісь ознаки, що можуть викликати наші застереження.

Sam McCandlish:

Оцінити мінімальні здібності моделі відносно просто. А от оцінити максимальні можливості моделі — дуже складно. Тому ми витратили багато зусиль у дослідженнях, щоб відповісти на питання: «Чи може ця модель виконувати певні небезпечні завдання? Чи є методи, які ми ще не розглядали, наприклад карти розуму (mind maps), найкраща подія (best event) або використання певних інструментів, які можуть дозволити моделі виконувати дуже небезпечні дії?»

Jack Clark:

У процесі формування політики такі інструменти оцінки дуже допомагають. Бо «безпека» — це надто абстрактне поняття. А коли я кажу: «Ось інструмент оцінки, який визначає, чи ми можемо розгортати цю модель», тоді ми можемо співпрацювати з тими, хто формує політику, із фахівцями у національній безпеці та експертами в CBRN (хімія, біологія, радіація та ядерна сфера), щоб спільно створити точні критерії оцінки. Без цих конкретних інструментів така співпраця могла б взагалі не відбутися. Але коли критерії зрозумілі й чіткі, люди більше готові долучатися і допомогти нам забезпечити точність. Тому в цьому плані роль RSP дуже відчутна.

Daniela Amodei:

RSP для мене теж надзвичайно важливий і часто впливає на мою роботу. Цікаво, що я думаю про RSP трохи нестандартно: більше з точки зору його «тону», тобто того, як він висловлюється. Нещодавно ми суттєво змінили тон RSP. Раніше він був занадто технічним — аж до відчуття протистояння. Я витратила багато часу на те, щоб зрозуміти, як побудувати систему, в яку людям буде реально хотіти включатися.

Якби RSP був документом, який кожен у компанії може легко зрозуміти — було б дуже добре. Як і наші OKR (цілі та ключові результати). Наприклад, що є головною метою RSP? Як ми розуміємо, що досягли цілі? Який поточний рівень безпеки AI (ASL)? Це ASL-2 чи ASL-3? Якщо всі знають, на що саме звертати увагу, то знаходити потенційні проблеми стає простіше. Навпаки, якщо RSP занадто технічний і його здатні зрозуміти лише кілька людей, тоді фактична користь різко падає.

Мені дуже приємно бачити, що RSP рухається в напрямку, де його простіше зрозуміти. Зараз я вважаю, що більшість людей у компанії — навіть можливо всі незалежно від посад — можуть прочитати цей документ і відчути: «це логічно. Я хочу розробляти AI під керівництвом цих принципів. Я також розумію, чому треба звертати увагу на ці питання. Якщо в моїй роботі виникнуть проблеми, я приблизно знаю, на що саме слід дивитися». Ми хочемо зробити RSP настільки простим, щоб люди, які працюють на фабриці, могли легко вирішити: «приміром, ремінь безпеки має бути тут під’єднаний, але зараз він підключений неправильно». Це дозволяє вчасно виявляти проблеми.

Ключ у створенні здорового механізму зворотного зв’язку, щоб керівництво, рада директорів, інші підрозділи компанії та ті, хто реально займається розробкою, могли безперешкодно спілкуватися. Я думаю, що більшість проблем виникає через погану комунікацію або через спотворення в передачі інформації. Якщо проблеми з’являються лише з цих причин — це дуже шкода, правда? У підсумку нам треба просто втілити ці ідеї в практику й переконатися, що вони прості та зрозумілі для всіх.

Історія створення Anthropic

Sam McCandlish:

Насправді серед нас немає жодного, хто з самого початку мав намір заснувати компанію. Ми просто відчували: це наша відповідальність, ми маємо діяти, бо це єдиний спосіб забезпечити, щоб розвиток AI рухався в правильному напрямі — і саме тому ми дали ту обіцянку.

Dario Amodei:

Моя перша думка була дуже простою: я хотів «сконструювати» і дослідити щось нове корисним способом. Цей задум привів мене в AI-сферу. Але дослідження AI потребує дуже багато інженерії, а з часом також дуже багато фінансування.

Втім я зрозумів, що якщо не було чіткої мети й плану для заснування компанії та для управління середовищем, багато речей могли б бути зроблені, але при цьому вони повторювали б ті самі помилки індустрії, які відштовхують мене. Ці помилки часто виникають через тих самих людей, ті самі підходи й ті самі шаблони мислення. Тому в якийсь момент я усвідомив: ми маємо робити це зовсім по-новому — і це фактично було неминучим.

Jared Kaplan:

Пам’ятаєш, коли ми були студентами магістратури: у тебе був цілісний план, щоб дослідити, як наука може просувати суспільні блага. Мені здається, це дуже схоже на те, як ми мислимо зараз. Я пам’ятаю, тоді в тебе був проєкт під назвою «Project Vannevar». Його мета — досягти цього. Тоді я був професором, я спостерігав за ситуацією і був переконаний, що вплив AI зростає неймовірно швидко.

Але через те, що AI-дослідження потребують великого фінансування, і через те, що я професор фізики, я усвідомив: я не зможу самотужки, лише академічними дослідженнями, просувати ці досягнення вперед. Я хотів створити інституцію разом із людьми, яким можна довіряти, щоб забезпечити, що розвиток AI рухатиметься в правильному напрямі. Але чесно кажучи, я ніколи не радив би іншим засновувати компанію і в мене не було такого бажання. Для мене це просто був спосіб реалізувати ціль. Я вважаю, що ключ до успіху полягає в тому, що тобі справді небайдуже до досягнення важливої цілі для світу — і ти знаходиш найкращий спосіб зробити це.

Як побудувати культуру довіри

Daniela Amodei:

Я часто думаю про стратегічні переваги нашої команди. Один фактор, який може здатися несподіваним, але є дуже важливим, — це наша висока довіра між собою. Дуже складно зібрати велику кількість людей навколо спільної місії. Але в Anthropic нам вдалося успішно передавати це відчуття місії дедалі більшій кількості людей. У цій команді — включно з лідерами та всіма учасниками — усі збираються разом саме через спільну місію. Наша місія водночас чітка й чиста — у технологічній індустрії таке трапляється нечасто.

Я думаю, що цілі, які ми намагаємося реалізувати, мають дуже чистий сенс: ніхто з нас не почав це робити, бо хотів заснувати компанію. Ми просто відчували: треба робити саме так. Ми не могли продовжувати роботу на старому місці — і нам довелося зробити це самостійно.

Jack Clark:

Тоді, коли з’явився GPT-3, і ми всі стикалися або брали участь у проєктах на кшталт scaling laws тощо, у 2020 році нам стало зрозуміло, куди рухається розвиток AI. Ми усвідомили: якщо не почати діяти якнайшвидше, то досить швидко можна дійти до точки неповернення. Ми мусили діяти, щоб вплинути на цей контекст.

Tom Brown:

Я хочу підтримати тезу Даніели: я справді вважаю, що всередині команди існує дуже високий рівень довіри. Кожен із нас чітко розуміє, що приєдналися до команди, бо хочуть робити внесок у світ. Ми також спільно взяли зобов’язання віддавати 80% доходу тим сферам, які підтримують розвиток суспільства. Це те, що всі підтримують без жодних вагань: «так, звісно, ми так і зробимо». Ця довіра дуже особлива й д

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити