Совещание семи соучредителей: как возникла Anthropic?

«Никто не хочет начинать бизнес, но считает, что так надо.»

Оформление и компиляция: Deep Tide TechFlow

Гости: Anthropic сооснователи Крис Олах, Джек Кларк, Даниэла Амодей, Сэм МакКандлиш, Том Браун, Дарио Амодей, Джаред Каплан

Источник подкаста: Anthropic

Оригинальный заголовок: Building Anthropic | A conversation with our co-founders

Дата выхода: 20 декабря 2024 года

Краткое резюме ключевых моментов

За прошлую неделю Anthropic подряд дважды попала в инциденты:

Сначала почти 3000 внутренних документов оказались в открытом доступе из‑за ошибки в настройках CMS, а сразу следом Claude Code v2.1.88 при публикации в npm «пронес» 59,8MB source map, и 510 тысяч строк исходного кода напрямую оказались незащищёнными.

Компания, которая написала «безопасность» в своих генах, снова и снова проваливается в собственной эксплуатации — ирония зашкаливает.

Но прежде чем спешить посмеяться, давайте оглянемся и послушаем внутренний разговор семи сооснователей больше чем год назад. Этот подкаст записан в декабре 2024 года: семеро обсуждают, как создавалась эта компания, как «шлифовали» RSP (Responsible Scaling Policy, досл. «политика ответственного масштабирования»), почему слово «безопасность» нельзя использовать как попало, и ту фразу CEO Дарио, которую затем многократно цитировали:

«Если в здании каждую неделю звучит сигнал пожарной тревоги, то на самом деле это очень небезопасное здание».

Теперь, когда слышишь эту мысль снова, впечатление действительно другое.

Семь сооснователей — быстрое знакомство

Dario Amodei|CEO, бывший вице‑президент по исследованиям в OpenAI, с образованием в нейронауках; главный человек, который в итоге принимает решения по стратегическому и безопасностному направлению в Anthropic. В этом разговоре говорит больше всех.

Daniela Amodei|президент; сестра Дарио. Ранее проработала пять с половиной лет в Stripe, вела команды доверия и безопасности; ещё раньше трудилась в некоммерческом секторе и в международном развитии. Организация работы в Anthropic и внешние коммуникации в основном были её инициативой.

Jared Kaplan|профессор физики, ставший исследователем в области AI; один из ключевых авторов scaling laws. Часто даёт оценку с позиции «со стороны», называет себя человеком, который занялся AI, потому что «наделалcя заниматься физикой».

Chris Olah|один из ведущих представителей исследований в области интерпретируемости (interpretability). Пришёл в AI‑сообщество залива в 19 лет; работал в Google Brain и OpenAI. В Anthropic — человек с самым сильным техническим идеализмом.

Tom Brown|первый автор статьи про GPT‑3, сейчас управляет вычислительными ресурсами Anthropic. Взгляд больше инженерный и инфраструктурный; в подкасте много говорит о том, как он прошёл путь от «не очень верю, что AI будет так быстро» до изменения позиции.

Jack Clark|бывший технологический репортёр Bloomberg, руководитель политики и public affairs в Anthropic. В этом разговоре выступает в роли ведущего: связывает темы и задаёт уточняющие вопросы.

Sam McCandlish|исследователь сооснователь; говорит меньше всех, но часто одной фразой попадает прямо в цель — позиция «добивающего».

Сводка ярких тезисов

Почему мы делаем AI: от скуки в физике к «раз уж насмотрелся — можно и поверить»

Jared Kaplan: «Я довольно долго занимался физикой, мне стало немного скучно, и я захотел работать вместе с большим числом друзей — поэтому и занялся AI».

Dario Amodei: «Я не думаю, что я однозначно тебя убедил. Я просто всё время показывал тебе результаты работы AI‑моделей. В какой‑то момент, когда я показал их тебе достаточно много, ты сказал: „Да, похоже, это верно“».

Ставка против консенсуса: большинство «согласий» — это стадный эффект, замаскированный под зрелость

Jared Kaplan: «Многих исследователей AI психологически сильно ранит период AI‑зимы: будто наличие амбиций как бы не допускается».

Dario Amodei: «Самый глубокий урок за прошлые десять лет — что многие „все и так знают“ консенсусы на самом деле являются стадным эффектом, замаскированным под зрелость. Ты видел несколько случаев, когда консенсус за одну ночь переворачивался — и тогда люди начинали говорить: „Нет, мы ставим на это“. Даже если у тебя только 50% правильности, ты всё равно внесёшь много того, чего никто другой не внёс».

Безопасность и масштабирование переплетены

Dario Amodei: «Одной из мотиваций, когда мы увеличивали модель, было то, что модель должна сначала стать достаточно умной, чтобы заработал RLHF. Именно это мы до сих пор и считаем: безопасность и масштабирование переплетены».

RSP, политика ответственного масштабирования — «конституция» Anthropic

Tom Brown: «Для Anthropic RSP — как наша конституция. Это руководящий документ, базовый core‑файл, поэтому мы готовы вкладывать много времени и сил, чтобы снова и снова его доводить до совершенства».

Dario Amodei: «RSP не позволит продвигать планы, которые не соответствуют стандартам безопасности. Мы не разговариваем лозунгами — мы реально встраиваем безопасность в каждый этап».

Слишком часто звенит пожарная сигнализация — а когда реально горит, никто не бежит

Daniela Amodei: «Мы не можем произвольно использовать слово „безопасность“, чтобы направлять прогресс работы. Наша реальная цель — чтобы все чётко понимали, что именно мы имеем в виду под безопасностью».

Dario Amodei: «Настоящий ущерб безопасности обычно причиняют те, кто часто устраивает „учения по безопасности“. Если в здании каждую неделю звучит сигнал пожарной тревоги, то это, по сути, очень небезопасное здание».

«Благородный провал» — ловушка

Chris Olah: «Есть мнение, что самое моральное поведение — ради безопасности пожертвовать другими целями, чтобы показать чистоту своей приверженности делу. Но такой способ на деле саморазрушителен. Потому что он приводит к тому, что контроль над решениями попадает в руки людей, которые не ценят безопасность».

Сооснователи обещают пожертвовать 80% доходов

Tom Brown: «Мы совместно обязуемся отдавать 80% выручки на цели, которые продвигают развитие общества — это то, что все поддерживают без колебаний».

Никто не хочет начинать бизнес, но считает, что так надо

Sam McCandlish: «По правде говоря, среди нас не было никого, кто вначале мечтал основать компанию. Мы просто чувствуем, что это наша ответственность: это единственный способ гарантировать, что развитие AI будет двигаться в правильном направлении».

Daniela Amodei: «Наша миссия одновременно ясна и чиста — в технологической индустрии такое встречается нечасто».

Интерпретируемость: в нейронных сетях спрятан целый набор «искусственной биологии»

Chris Olah: «Нейронные сети удивительны: там есть много того, чего мы ещё не видели. Иногда я представляю, что через десять лет заходишь в книжный магазин и покупаешь учебник по биологии нейронных сетей — и в нём будет множество поразительных вещей».

AI для усиления демократии, а не для превращения в инструмент диктатуры

Dario Amodei: «Нас беспокоит, что если AI будет разработан неправильно, он может стать инструментом диктаторских сил. Как сделать так, чтобы AI стал инструментом, который поддерживает свободу и самоопределение? Важность этой области ничуть не меньше, чем у биологии и интерпретируемости».

От встреч в Белом доме до Нобелевской премии: влияние AI давно вышло за пределы техносферы

Jared Kaplan: «В 2018 году вы бы не подумали, что президент позовёт вас в Белый дом и скажет, что они следят за языковыми моделями».

Dario Amodei: «Мы уже видели, как Нобелевскую премию по химии присуждали AlphaFold. Мы должны постараться разработать инструменты, которые помогут создавать сотни AlphaFold».

Почему нужно исследовать AI?

Jack Clark: Почему мы вообще решили начать с AI? Джаред, почему ты занялся AI?

Jared Kaplan:

Я раньше довольно долго занимался физикой, мне стало немного скучно, и я хотел работать с большим количеством друзей — поэтому и занялся AI.

Tom Brown:

Я думал, это Дарио тебя убедил.

Dario Amodei:

Я не думаю, что я тебя ясно «убедил». Я просто всё время показывал тебе результаты работы AI‑моделей — чтобы выразить мысль, что они универсальны, подходят не только для одной задачи. В какой‑то момент, когда я показал их тебе достаточно много, ты сказал: «Да, похоже, это верно».

**Jack Clark: Chris, когда ты занимался интерпретируемостью, вы познакомились в Google? **

Chris Olah:

Нет. На самом деле, когда мне было 19, я впервые приехал в залив — и тогда я уже знал немалую часть людей из тех, кто сейчас среди вас. Тогда, когда я видел Дарио и Джареда, они были постдоками — и мне казалось это особенно крутым. Потом, когда я был в Google Brain, после прихода Дарио какое‑то время мы сидели рядом; я ещё работал вместе с Томом. А потом, когда я перешёл в OpenAI, мы стали делать всё вместе со всеми вами.

Jack Clark:

Я помню, что в 2015 году я встретил Дарио на конференции — он хотел взять у тебя интервью, а Google PR говорил, что мне сначала нужно прочитать все твои статьи.

Dario Amodei:

Тогда я писал в Google «Concrete Problems in AI Safety».

Sam McCandlish:

Когда я начал работать с тобой, ты пригласил меня в офис и мы поговорили — как будто ты в целом рассказал мне про AI. Я помню, что после разговора подумал: «Оказывается, это дело гораздо серьёзнее, чем я осознавал». Тогда ты говорил про «большой комок вычислений», про число параметров, про масштаб нейронов в человеческом мозге.

Прорывное масштабирование

Jack Clark: Я помню, как в OpenAI, когда делали scaling laws, увеличивать модель — и это действительно начало работать: на многих проектах оно продолжало искажённо/странно работать, от GPT‑2 к scaling laws и к GPT‑3 — мы двигались всё ближе.

Dario Amodei: Мы как раз те ребята, которые «делают так, чтобы оно работало».

Jared Kaplan: Нам всем было очень интересно и в области безопасности. Тогда была идея: AI станет очень сильным, но может не понимать человеческие ценности, а также, возможно, не сможет с нами общаться. Языковые модели в некоторой степени могут гарантировать, что они понимают много скрытых знаний.

Dario Amodei:

И ещё — RLHF поверх языковых моделей. Одной из мотиваций, когда мы расширяли модель, была как раз мысль, что модель должна сначала стать достаточно умной, чтобы RLHF мог заработал. Это как раз то, во что мы и сейчас всё ещё верим: безопасность и масштабирование переплетены.

Chris Olah:

Да, тогда scaling‑работа на самом деле тоже была частью команды безопасности. Потому что мы думали: чтобы люди всерьёз относились к безопасности, прежде всего нужно уметь предсказывать тренды AI.

Jack Clark:

Я помню, что в аэропорту в Великобритании я собрал семплинг от GPT‑2 и сгенерировал фейковые новости, а потом отправил это Дарио в Slack и сказал: «Это реально можно использовать, и оно может иметь огромное влияние на политику». Я помню, что ответ Дарио был: «Да, это так».

Потом мы сделали ещё много публикационных работ, связанных с релизами — и это было довольно безумно.

Daniela Amodei:

Я помню тот релиз — это было впервые, когда мы начали работать по‑настоящему вместе: тогда как раз выходил GPT‑2.

Jack Clark:

Мне кажется, это нам сильно помогло. Мы сначала сделали вместе кое‑что «чуть странное, но ориентированное на безопасность», а потом вместе сделали Anthropic — уже масштабнее, и снова «чуть странное, но ориентированное на безопасность».

Этапы старта AI

Tom Brown: Возвращаясь к статье «Concrete Problems». Я пришёл в OpenAI в 2016 году. Тогда вы и я были из самой первой группы. Я чувствовал, что эта статья — как первая мейнстримная paper по AI‑безопасности. Откуда она взялась?

Dario Amodei:

Chris знал — он принимал участие. Тогда в Google я, честно, не помню, что было моим основным проектом — эта статья была как будто «протянута» мной из задержек/прокрастинации.

Мы хотели записать, какие у AI‑безопасности есть открытые вопросы. Тогда AI‑безопасность всё время обсуждали слишком абстрактно, и мы хотели приземлить это на реальный ML‑мир того времени. Сейчас уже шесть‑семь лет существует эта линия работы, но тогда это было просто странной идеей.

Chris Olah:

Я думаю, что в некотором смысле это почти политический проект. Тогда многие люди не относились к безопасности всерьёз. Мы хотели собрать список вопросов, которые, как мы считаем, являются разумными и которые признают многие. Многие из них изначально уже существовали в литературе — а затем мы искали людей с авторитетом, чтобы они подписались совместно. Это были кросс‑институциональные подписи.

Я помню, что потратил на это очень много времени: общался с более чем двадцатью исследователями из Brain, добиваясь поддержки для публикации. Если смотреть только на сами вопросы, возможно, сегодня назад оглядываясь, не все из них окажутся верными — возможно, это не самые правильные вопросы. Но если рассматривать это как построение консенсуса — доказательство того, что «здесь есть реальные проблемы и их стоит воспринимать всерьёз», — то это был важный момент.

Jack Clark:

В итоге ты приходишь в очень необычный научно‑фантастический мир. Я помню, что в ранние дни Anthropic вы обсуждали Constitutional AI — и Jared говорил: «Мы пишем конституцию для языковой модели, и тогда её поведение становится таким». Тогда это звучало как безумие. Почему вы считали, что это возможно?

Jared Kaplan:

Мы с Дарио долго обсуждали это, и я думаю, что в AI простые подходы часто дают лучший эффект. Самые ранние версии были довольно сложными, но потом их постоянно сокращали, пока не дошло до следующего: модель умеет решать вопросы формата теста, поэтому если дать ей ясный prompt, что именно нужно найти, этого достаточно — и тогда мы можем напрямую записать принципы.

Dario Amodei:

Это снова возвращает к «большому комку вычислений» (The Big Blob of Compute), к «горькому уроку» (The Bitter Lesson) и к «гипотезе масштабирования» (Scaling Hypothesis): если вы можете дать AI чёткую цель и данные, он сможет научиться. Набор инструкций, набор принципов: языковая модель может их прочитать и сверить со своим собственным поведением — и тогда цель обучения прямо там. Поэтому у нас с Jared подход такой: сделать это можно, если детали доводить итеративно.

Jared Kaplan:

Для меня это в ранние моменты было странным. Я пришёл из физики, а сейчас все вокруг вдохновлены AI — это легко заставляет забыть, каков тогда был настрой. Я тогда обсуждал это с Дарио и чувствовал, что многих исследователей AI психологически сильно ранит AI‑зима: будто «иметь амбиции» нельзя. Обсуждать безопасность нужно, сначала поверив, что AI может быть очень сильным и очень полезным, — но тогда существовал запрет на анти‑амбицозность. Преимущество физиков в том, что у них «дерзость/самоуверенность», они часто делают действительно амбициозные вещи и привыкли говорить о больших картинах.

Dario Amodei:

Я думаю, это правда. В 2014 году многим вещам просто нельзя было придавать голос. Это похоже и на академический мир: кроме некоторых областей, институты всё больше начинают избегать рисков. Индустриальный AI унаследовал этот подход — и, как я считаю, только примерно к 2022 году из этого начали выходить.

Chris Olah:

И есть ещё две формы «консерватизма». Одна — серьёзно смотреть на риски. Другая — считать, что относиться к рискам серьёзно и при этом верить в идеи и считать их успешными — это тоже разновидность самоуверенности. Тогда мы были больше в парадигме второго. Исторически в обсуждениях ядерной физики в 1939 году тоже было что‑то похожее: Ферми сопротивлялся, а Szilard или Teller смотрели на риски серьёзнее.

Dario Amodei:

Самый глубокий урок за прошлые десять лет — это: многие «консенсусы, что все и так знают», на деле являются стадным эффектом, замаскированным под зрелость. Ты видел несколько раз, когда консенсус переворачивался за одну ночь — и тогда люди начинали говорить: «Нет, мы ставим на это». Возможно, это не обязательно окажется верным — но игнорируй шум и делай ставки. Даже если у тебя только 50% правильности, ты всё равно внесёшь много того, чего никто другой не внёс.

Перемена отношения общества к искусственному интеллекту

Jared Kaplan: Сегодня в некоторых безопасностных вопросах это тоже так: внешне консенсус считает, что многие проблемы безопасности «не будут рождаться из технологий», но в Anthropic, когда мы занимаемся исследованиями, мы видим, что это действительно может появляться «естественно».

Daniela Amodei:

Но за последние 18 месяцев это меняется. И параллельно меняются эмоции мира по отношению к AI. В ходе наших пользовательских исследований мы всё чаще слышим, что обычные пользователи беспокоятся о влиянии AI на мир в целом.

Иногда это про работу, предвзятость, токсичность. Иногда — «а не устроит ли он хаос в мире, не изменит ли он способ человеческого сотрудничества». И это — в целом — я не до конца предвидела.

am McCandlish:

Почему‑то круг ML‑исследователей часто более пессимистичен, чем общество, относительно того, что «AI станет слишком сильным».

Jared Kaplan:

В 2023 году я с Дарио был в Белом доме. Встреча — Harris, Raimondo, и смысл был примерно такой: «Мы смотрим на вас, AI — это большая тема, мы внимательно следим. Но в 2018 году вы бы не подумали, что президент позовёт вас в Белый дом и скажет, что они следят за языковыми моделями».

Tom Brown:

Забавно, что многие из нас вошли в эту историю, когда она ещё выглядела не до конца определённой. Как Ферми с атомной бомбой: у него были сомнения. Была часть доказательств, что бомбу, возможно, сделают, и было много доказательств, что не сделают. И всё же он решил попробовать. Потому что если окажется, что это правда, влияние будет огромным — значит, стоит попытаться.

В 2015–2017 было немало, и оно нарастало, свидетельств того, что AI может оказаться большим делом. Я в 2016 году разговаривал со своим научным руководителем: я пробовал предпринимательство, хотел заниматься AI‑безопасностью, но математика была недостаточно сильной — и я не знал, что делать. Тогда люди говорили: тебе нужно освоить теорию принятия решений; другие говорили, что безумные AI‑сценарии не возникнут, и что сторонников очень мало.

Jack Clark:

Меня в 2014 году считали сумасшедшим, когда я делал репортажи о трендах ImageNet. В 2015‑м я хотел написать про NVIDIA: в том числе из‑за того, что в их статье говорится про GPU — и это тоже называли сумасшествием. В 2016‑м я ушёл из новостей в AI — и были письма: «Ты совершил самую большую ошибку в жизни». С многих точек зрения, серьёзно ставить на то, что «масштабирование сработает», действительно выглядело как безумие.

Jared Kaplan: Как ты принял решение? Колебался?

Jack Clark:

Я сделал обратную ставку: потребовал стать full‑time AI‑журналистом и удвоить зарплату — я знал, что они не согласятся. А потом я поспал одну ночь и уволился. Потому что я каждый день читаю архивные файлы, и мне всегда казалось, что происходит какое‑то безумно важное событие, и в какой‑то момент тебе нужно сделать ставку с высокой уверенностью.

Tom Brown:

Я не был таким решительным: я качался шесть месяцев.

Daniela Amodei:

А ещё тогда это не было мейнстримом — «инженеры могут заметно продвигать AI». Тогда было: «AI могут делать только исследователи». Поэтому твои сомнения неудивительны.

Tom Brown:

А потом OpenAI сказал: «Ты можешь помогать через инженерию, чтобы продвигать AI‑безопасность» — именно это и заставило меня присоединиться. Daniela, ты у меня была менеджером в OpenAI, почему ты тогда присоединилась?

Daniela Amodei:

Я работала в Stripe пять с половиной лет; Greg раньше был моим руководителем. Я ещё сводила Greg и Dario. В то время он как раз создавал OpenAI, и я сказала ему: «Самый умный человек, которого я знаю, — это Дарио. Если у тебя получится привлечь его в команду, то тебе повезёт». Потом Дарио действительно присоединился к OpenAI.

Возможно, как и ты, я тоже думала о том, что делать после того, как уйду из Stripe. Я присоединилась к Stripe, потому что до этого работала в некоммерческих организациях и в международном развитии — и мне казалось, что мне нужны дополнительные навыки. Тогда я ещё думала, что в итоге вернусь в ту сферу.

Перед тем как присоединиться к Stripe, я считала, что у меня недостаточно компетенций, чтобы помогать людям, у которых возможности меньше, чем у меня. Поэтому я смотрела на другие технологические компании в надежде найти новый способ оказывать ещё более сильное влияние — и в тот момент OpenAI казалась мне очень подходящим вариантом. Это некоммерческая организация, которая стремится к очень важной и масштабной цели.

Я всегда верила в потенциал AI. Я знала Дарио, и они действительно нуждались в людях, которые помогут с управлением, поэтому я подумала, что эта работа идеально соответствует моему бэкграунду. Тогда в голове звучало: «Это некоммерческая организация, здесь собрана команда очень талантливых людей с прекрасным видением, но их операционные процессы, похоже, немного хаотичны». И именно этот вызов меня вдохновлял: я могу войти в команду и помочь.

Тогда я чувствовала себя как универсальный игрок: не только управляю членами команды, но и веду некоторые технические команды, и ещё управляю расширением организации. Я отвечала за работу по масштабированию организации, а также работала в языковой команде; позже взяла на себя ещё несколько задач. Я также участвовала в некоторых вопросах политики, и сотрудничала с Chris. Мне казалось, что внутри компании очень много сильных людей — и это особенно сильно тянуло меня присоединиться, чтобы помочь компании стать более эффективной и более организованной.

Jack Clark: Помню, после GPT‑3 ты сказал: «Вы слышали про trust and safety?»

Daniela Amodei:

Раньше в Stripe я вела команды trust and safety. Для таких технологий вам, возможно, нужно подумать о доверии и безопасности. Это мост между исследованиями в области безопасности искусственного интеллекта (AI Safety Research) и более практичной повседневной работой — то есть о том, как сделать так, чтобы модели стали действительно безопасными.

Также очень важно поднимать мысль о том, что эта технология в будущем окажет существенное влияние. Но одновременно нам нужно делать в повседневной работе более практичные вещи — закладывать фундамент, чтобы потом иметь возможность встретиться с сценариями повышенного риска.

Политика ответственного масштабирования: обеспечить безопасное развитие AI

Jack Clark: Давай как раз поговорим о том, как появилась стратегия ответственного масштабирования (RSP, Responsible Scaling Policy), почему мы о ней подумали и как сейчас её применяем — особенно учитывая то, что мы сейчас делаем в области доверия и безопасности моделей. Итак, RSP (политика ответственного масштабирования) — кто впервые её предложил?

Dario Amodei:

Первоначально её предложил я вместе с Paul Christiano, примерно в конце 2022 года. Сначала идея была такой: стоит ли временно ограничивать масштабирование модели до достижения определённого масштаба — пока мы не найдём способы решить некоторые вопросы безопасности?

Но потом мы подумали, что просто ограничивать масштабирование в какой‑то точке, а потом снова снимать ограничения — это выглядит странно. Поэтому мы решили задать набор порогов: каждый раз, когда модель достигает порога, нужно проводить серию тестов, чтобы оценить, есть ли у модели соответствующие возможности безопасности.

При достижении каждого порога мы принимаем более строгие меры безопасности и защиты. Но изначально у нас была мысль: если это будет выполнять третья сторона, это, возможно, будет лучше. То есть такая стратегия не должна лежать на ответственности одной компании, потому что в противном случае другие компании не захотят её принимать. Поэтому Paul спроектировал этот подход лично. Конечно, со временем многие детали менялись. А наша команда продолжала исследовать, как сделать так, чтобы эта стратегия работала ещё лучше.

Когда Paul оформил этот концепт в понятный вид, он почти одновременно с «объявлением» этого концепта и мы в течение одного‑двух месяцев выпустили свою версию. На самом деле многие члены нашей команды глубоко участвовали в процессе. Я помню, что как минимум черновик одного из первых вариантов я точно писал, но документ затем проходил через многократные пересмотры.

Tom Brown:

Для Anthropic RSP — это как наша «конституция». Это документ, который задаёт ориентиры, поэтому мы готовы вкладывать много времени и сил в то, чтобы его многократно доводить, гарантируя точность и полноту.

Daniela Amodei:

Мне кажется, что путь RSP в Anthropic действительно очень интересен. Он прошёл через несколько этапов, и для внедрения требуются разные навыки. Например, в части больших идей — это в основном на Дарио, Paul, Sam и Jared и на тех, кто вместе с ними размышляет: «Какие наши базовые принципы? Какую информацию мы хотим передать? Как мы определяем, что выбранное направление верное?»

Но кроме этого, есть и очень практическая операционная работа: в процессе итераций мы оцениваем и корректируем детали. Например, мы изначально рассчитывали, что на определённом уровне безопасности мы достигнем некоторых целей, но если этого не происходит — мы пересматриваем подход и гарантируем, что можем отвечать за результаты своей работы.

Кроме того, есть много корректировок, связанных с организационной структурой. Например, мы решили заново спроектировать организацию вокруг RSP, чтобы более чётко разделить ответственность. Мне нравится проводить аналогию с конституцией: как в США, чтобы обеспечить выполнение конституции, создают целую систему институтов — суды, Верховный суд, президент, обе палаты Конгресса и так далее. Эти институты, конечно, выполняют и другие обязанности, но в значительной степени они существуют ради того, чтобы поддерживать конституцию. И RSP в Anthropic тоже проходит через очень похожий процесс.

Sam McCandlish:

Я считаю, что это отражает один из ключевых взглядов на безопасность: проблемы безопасности можно решать. Это невероятно сложная и тяжёлая задача, требующая много времени и усилий.

Как и в сфере безопасности автомобилей, соответствующие правила и институты формировались годами, прежде чем возникла система. Но перед нами вопрос: есть ли у нас достаточно времени, чтобы всё это сделать? Поэтому мы должны по возможности быстро найти те ключевые институты, которые нужны для AI‑безопасности, создать их у себя в приоритетном порядке и при этом обеспечить, чтобы их можно было заимствовать и внедрять в других местах.

Dario Amodei:

Это также помогает выровнять сотрудничество внутри организации. Если какая‑то часть организации действует так, что это не соответствует нашим ценностям безопасности, RSP через определённый механизм проявит проблему, верно? RSP остановит продвижение тех планов, которые не соответствуют стандартам безопасности. Поэтому RSP становится и инструментом постоянного напоминания всем, чтобы безопасность была базовым требованием в разработке продукта и планировании. Мы не просто говорим лозунги — мы реально внедряем безопасность в каждый этап. Если кто‑то присоединяется к команде и не может согласиться с этими принципами, то он обнаружит, что не может «вписаться». Либо ты подстраиваешься под это направление, либо понимаешь, что дальше трудно продолжать.

Jack Clark:

Со временем RSP становится всё важнее. Мы вложили в него тысячи часов работы, и когда я объяснял RSP сенаторам, говорил: «Мы придумали меры, чтобы наши технологии не были слишком подвержены злоупотреблению, и одновременно чтобы они оставались безопасными». Их реакция обычно была: «Звучит совершенно нормально. Разве так делает не каждая компания?» Это заставляло меня одновременно улыбаться и плакать: ведь далеко не каждая компания делает так.

Daniela Amodei:

Кроме того, я считаю, что RSP повышает прозрачность компании. Потому что он ясно фиксирует, какие у нас цели. Все внутри компании понимают это, а внешние участники также могут чётко видеть, каковы наши цели и направление в области безопасности. Хотя документ ещё несовершенен, мы постоянно оптимизируем и улучшаем его.

Я думаю, важно чётко говорить: «Какие ключевые проблемы нас волнуют». Мы не можем просто использовать слово «безопасность», чтобы двигать прогресс так, как нам хочется — например, «из‑за вопросов безопасности мы не можем сделать что‑то» или «из‑за вопросов безопасности мы обязаны сделать что‑то». Наша настоящая цель — чтобы все понимали, что именно мы подразумеваем под безопасностью.

Dario Amodei:

В долгосрочной перспективе наибольший ущерб безопасности обычно причиняют те, кто устраивает частые «учения по безопасности». Я говорил: «Если в здании каждую неделю будет звучать сигнал пожарной тревоги, то это на самом деле очень небезопасное здание». Потому что когда случится реальный пожар, возможно, никто не обратит внимания. Мы должны уделять огромное внимание точности и калибровке сигналов тревоги.

Chris Olah:

Если смотреть с другой стороны, я думаю, RSP на многих уровнях создаёт здоровые механизмы мотивации. Например, внутри компании RSP выравнивает мотивации каждой команды с целями безопасности. Это означает, что если мы недостаточно продвигаемся в безопасности, соответствующие работы будут приостанавливать.

А снаружи RSP также создаёт более здоровую мотивацию, чем другие подходы. Например, если однажды нам придётся предпринять существенные шаги — признать: «наша модель дошла до некоторой стадии развития, но мы ещё не можем гарантировать её безопасность» — тогда RSP даёт чёткую рамку и доказательную основу для такого решения. Эта рамка заранее существует и её легко понять. Когда мы обсуждали раннюю версию RSP, я не до конца осознавал её потенциал, но сейчас думаю, что она действительно эффективнее, чем любые другие идеи, которые я мог представить.

Jared Kaplan:

Я согласен с этим, но считаю, что мы можем недооценить сложности при формулировке правильных политик, оценочных критериев и границ. Мы провели множество итераций в этих вопросах и продолжаем оптимизировать. Одна из сложных задач — иногда трудно понять, является ли новая технология опасной или безопасной. Очень часто мы сталкиваемся с огромной зоной серого. Эти вызовы в начале разработки RSP меня особенно вдохновляли — и сейчас это тоже так. Но одновременно я осознаю, что сделать реализацию достаточно ясной, чтобы стратегия реально работала, сложнее и более требовательно, чем я изначально представлял.

Sam McCandlish:

Зоны серого невозможно предсказать полностью, потому что они повсюду. Вы понимаете, в чём проблема, только когда начинаете действительно внедрять. Поэтому наша цель — внедрить всё как можно раньше, чтобы как можно скорее выявить потенциальные проблемы.

Dario Amodei:

Вам нужно сделать три‑четыре итерации, чтобы реально довести до совершенства. Итерации — очень мощный инструмент: почти невозможно сделать всё идеально с первой попытки. Поэтому если риски растут, вам нужно как можно раньше сделать эти итерации, а не ждать до самого конца.

Jack Clark:

Одновременно нужно построить внутренние институты и процессы. Да, конкретные детали могут меняться со временем, но главное — развивать способность команды исполнять.

Tom Brown:

Я отвечаю за управление вычислительными ресурсами Anthropic. Для меня важно, что нужно взаимодействовать с внешними стейкхолдерами: разные внешние люди по‑разному видят скорость технологического развития. Сначала я тоже думал, что технология не будет развиваться так быстро, но потом моё мнение изменилось — и я этому очень сочувствую и понимаю. Я считаю, RSP особенно полезна для меня именно в разговоре с людьми, которые считают, что технологический прогресс будет более медленным. Мы можем сказать им: «Пока технология не станет развиваться до очень срочного уровня, нам не нужно принимать крайние меры безопасности». Если они говорят: «Я считаю, что ещё долго всё не станет срочным», — я могу ответить: «Хорошо, тогда пока нам не нужны крайние меры безопасности». Так общение с внешним миром становится более гладким.

Jack Clark:

Так в каких ещё аспектах RSP повлияла на всех нас?

Sam McCandlish:

Всё крутится вокруг оценки, и каждая команда делает оценку. Например, ваши тренировочные команды постоянно занимаются оценкой. Мы пытаемся понять, стал ли этот модель настолько сильной, что может нести опасность.

Daniela Amodei:

Это означает, что нам нужно мерить производительность модели по стандартам RSP: проверять, есть ли признаки, которые могут вызывать наши опасения.

Sam McCandlish:

Оценить минимальные способности модели относительно проще. Но оценить её максимальные возможности — очень трудно. Поэтому мы вкладывали много исследовательских усилий, пытаясь ответить на такие вопросы: «может ли эта модель выполнять некоторые опасные задачи?», «есть ли способы, которые мы пока ещё не рассматривали — например, карты разума (mind maps), best event или использование определённых инструментов — которые могут позволить модели делать очень опасные вещи?»

Jack Clark:

На этапе разработки политики эти оценочные инструменты очень помогают. Потому что «безопасность» — очень абстрактное понятие. И когда я говорю: «У нас есть оценочный инструмент, который решает, можно ли деплоить эту модель», — тогда мы можем сотрудничать с политиками, экспертами по национальной безопасности и предметными экспертами по CBRN (химия, биология, радиология и ядерная сфера), чтобы совместно сформировать точные оценочные критерии. Без таких конкретных инструментов это сотрудничество могло бы вообще не состояться. Но как только критерии ясны, людям гораздо легче подключиться и помочь обеспечить точность. Поэтому роль RSP здесь очень заметна.

Daniela Amodei:

RSP для меня тоже чрезвычайно важна, и она часто влияет на мою работу. Забавно, что я думаю о RSP немного иначе: больше отталкиваюсь от её «тона», то есть от того, как она выражена. Недавно мы существенно изменили тон RSP, потому что раньше тон был слишком техническим и даже вызывал ощущение противостояния. Я потратила много времени, думая, как построить систему, в которой людям будет комфортно участвовать.

Если RSP — это документ, который каждый в компании может легко понять, то было бы намного лучше. Как и наши OKR (цели и ключевые результаты). Например: какова главная цель RSP? Как понять, достигли ли мы её? Какой сейчас уровень безопасности AI (ASL)? Это ASL‑2 или ASL‑3? Если каждый понимает, на что ему нужно смотреть, обнаруживать потенциальные проблемы станет проще. Напротив, если RSP окажется слишком техническим документом, который понимают только несколько человек, его практическая ценность сильно пострадает.

Мне приятно видеть, что RSP движется в сторону более понятной формы. Сейчас я думаю, что большинство людей в компании — и возможно, вообще все независимо от должности — могут прочитать этот документ и сказать: «Это разумно. Я хочу разрабатывать AI под руководством этих принципов, и я понимаю, почему мы должны смотреть на эти вещи. Если в моей работе возникнет проблема, я примерно буду знать, на что обращать внимание». Мы хотим, чтобы RSP была достаточно простой — чтобы человек, работающий на производственной фабрике, мог сразу понять: «ремень безопасности должен быть подключён вот здесь, но сейчас он не подключён как надо». Так мы своевременно выявим проблему.

Ключ — построить здоровый механизм обратной связи, чтобы лидеры, совет директоров, другие подразделения компании и команды, которые реально занимаются разработкой, могли взаимодействовать гладко. Я считаю, большинство проблем возникает из‑за плохой коммуникации или отклонений в передаче информации. Если проблема появляется именно из‑за этого, это будет очень жаль, правда? В итоге нам нужно воплотить эти идеи на практике и убедиться, что они простые и понятные для всех.

История создания Anthropic

Sam McCandlish: По правде говоря, среди нас не было никого, кто изначально хотел основать компанию. Мы просто чувствовали, что это наша ответственность: мы обязаны действовать, потому что это единственный путь гарантировать, что развитие AI будет двигаться в правильном направлении. Поэтому мы и дали то обещание.

Dario Amodei:

Моя изначальная мысль была очень простой: я хотел изобретать и исследовать новое способом, который будет полезным. Этот настрой привёл меня в сферу AI, а исследования AI требуют очень много инженерной поддержки, а в итоге — и очень много финансовой поддержки.

Однако я увидел, что если не задать чёткую цель и план, как создавать компанию и управлять средой, то многие вещи могут быть сделаны, но при этом будут повторяться те же ошибки в технологической индустрии, из‑за которых я чувствовал отчуждение. Эти ошибки обычно возникают из‑за одних и тех же людей, одной и той же манеры мышления и одних и тех же паттернов поведения. Поэтому в какой‑то момент я понял, что нам нужна принципиально новая форма, чтобы сделать это — и это, по сути, неизбежно.

Jared Kaplan:

Помнишь, когда мы были аспирантами: у тебя был продуманный план, чтобы исследовать то, как научная работа может приносить общественную пользу. Я думаю, что это очень похоже на то, как мы мыслим сейчас. Я помню, что у тебя был проект под названием «Project Vannevar» — и цель была именно в этом. Тогда я был профессором. Я наблюдал за ситуацией и был глубоко убеждён, что влияние AI

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить