После двух инцидентов за неделю, оглядываясь назад, как семь соучредителей Anthropic говорили о «безопасности» год назад

BlockBeatNews · 2026-04-02T04:50:53+00:00

> 原视频标题：Building Anthropic | A conversation with our co-founders > 原视频来源：Anthropic > 原文编译：深潮 TechFlow > Ключевые моменты---- За прошедшую неделю Anthropic дважды столкнулась с инцидентами: Сначала почти 3000 внутренних документов были опубликованы из-за ошибки конфигурации CMS, а затем при публикации Claude Code v2.1.88 на npm в сборке оказались 59.8MB исходного кода.

BlockBeatNews

2026-04-02 04:50:53

Оригинальное название видео: Building Anthropic | Разговор с нашими сооснователями
Оригинальный источник видео: Anthropic
Перевод оригинала: Глубокий прилив TechFlow

Ключевые моменты

За прошлую неделю Anthropic дважды подряд попала в инциденты:

Сначала около 3000 внутренних документов из‑за ошибки в настройках CMS стали доступными для публичного просмотра, а затем Claude Code v2.1.88 при публикации в npm вместе с релизом тайком нес 59.8MB source map, 510 тысяч строк исходного кода напрямую «вышли в открытую».

Компания, которая записала «безопасность» в свои гены, продолжает проваливать собственные операции — подряд, за раз. Сарказма хоть отбавляй.

Но прежде чем спешить с насмешками, неплохо вернуться и послушать: семь сооснователей Anthropic обсуждали это в формате внутреннего разговора более года назад. Этот подкаст был записан в декабре 2024 года — семеро участников говорили о том, как была создана эта компания, как шлифовался RSP (Responsible Scaling Policy — дословно «политика ответственного масштабирования»), почему слово «безопасность» нельзя использовать как попало, и о той фразе CEO Даро, которую потом неоднократно цитировали:

«Если в здании каждую неделю срабатывает пожарная сигнализация, то это на самом деле очень небезопасное здание».

Теперь, когда снова слышишь эту фразу, вкус действительно уже не тот.

Семь сооснователей, быстрое распознавание лиц

Dario Amodei｜CEO, бывший вице‑президент по исследованиям в OpenAI, по образованию нейробиолог; финальный «решающий голос» в стратегии и трекe безопасности Anthropic. В этом разговоре он выступает больше всех.

Daniela Amodei｜президент, сестра Даро. Ранее проработала в Stripe пять с половиной лет, вела команды по доверию и безопасности, а ещё раньше трудилась в некоммерческом секторе и в сфере международного развития. Организационное построение и внешняя коммуникация Anthropic в основном проходили при её руководстве.

Jared Kaplan｜профессор физики, ставший исследователем в области AI; один из ключевых авторов scaling laws. Часто даёт оценку со стороны «внешнего наблюдателя», а сам шутит, что занялся AI потому, что «наделаться физикой уже было достаточно».

Chris Olah｜один из ведущих исследователей в области интерпретируемости (interpretability); в 19 лет пришёл в AI‑круги залива, работал в Google Brain и OpenAI. Самый ярко выраженный техно‑идеализм среди людей Anthropic.

Tom Brown｜автор первой публикации по GPT‑3, сейчас отвечает за вычислительные ресурсы Anthropic. Его взгляд больше инженерный и инфраструктурный; в подкасте много сказано о его пути — от «не уверен, что AI будет настолько быстро» до изменения позиции.

Jack Clark｜бывший технологический журналист Bloomberg, руководитель политики и публичных дел в Anthropic. В этом разговоре выступает ведущим: соединяет темы и задаёт уточняющие вопросы.

Sam McCandlish｜исследователь‑сооснователь; в ходе обсуждения говорит меньше всех, но часто одной фразой попадает прямо в цель — «удар с добавкой».

Краткий конспект выдающихся идей

Почему заниматься AI: от скуки в физике до «насытился — и поверил»

Jared Kaplan: — «Я довольно долго занимался физикой, стало немного скучно, и я хотел работать с большим числом друзей, поэтому занялся AI».

Dario Amodei: — «Я не думаю, что я тебя конкретно убедил; я просто всё время показывал тебе результаты работы AI‑моделей. В какой‑то момент, когда я показал тебе достаточно, ты сказал: «Да, это похоже на правду»».

Анти‑консенсусное пари: большинство консенсусов — это стадный эффект, переодетый под зрелость

Jared Kaplan: — «Многие исследователи AI психологически сильно пострадали во время AI‑зимы: будто наличие амбиций не допускается».

Dario Amodei: — «Самой глубокой выученной мной за последние десять лет вещью стало следующее: многие «все и так знают» консенсусы на самом деле — стадный эффект, замаскированный под зрелость. Ты видел несколько раз, как консенсус за одну ночь переворачивался, и потом говорили: «Нет, мы ставим на это». Даже если у тебя всего 50% верности, ты всё равно внесёшь много того, чего никто другой не внёс».

Безопасность и масштабирование переплетены

Dario Amodei: — «Одна из причин, по которой мы тогда увеличивали масштаб модели, заключалась в том, что сначала модель должна быть достаточно умной, чтобы RLHF вообще можно было сделать. И это то, во что мы всё ещё верим: безопасность и масштабирование переплетены».

RSP: «политика ответственного масштабирования» — это «конституция» Anthropic

Tom Brown: — «Для Anthropic RSP — как наша «конституция». Это основной документ с руководящим смыслом, поэтому мы готовы вкладывать много времени и сил в то, чтобы снова и снова его оттачивать».

Dario Amodei: — «RSP не позволит продвигать планы, которые не соответствуют стандартам безопасности. Мы не размахиваем лозунгами: мы действительно встроили безопасность в каждый этап».

Слишком часто пищит пожарная сигнализация — когда правда загорится, никто не побежит

Daniela Amodei: — «Мы не можем управлять прогрессом работы, произвольно используя слово «безопасность». Наша реальная цель — чтобы все чётко понимали, какую именно безопасность мы имеем в виду».

Dario Amodei: — «Часто безопасность реально подрывают те, у кого постоянно происходят «учения по безопасности». Если в здании каждую неделю срабатывает пожарная сигнализация, то это на самом деле очень небезопасное здание».

«Благородный провал» — это ловушка

Chris Olah: — «Есть мнение, что самое моральное поведение — это ради безопасности пожертвовать другими целями, демонстрируя свою чистоту намерений и преданность делу. Но на практике это самообескураживающе. Потому что тогда право принимать решения переходит к тем, кто не считает безопасность приоритетом».

Сооснователи обязались пожертвовать 80% дохода

Tom Brown: — «Мы совместно обязуемся пожертвовать 80% наших доходов на те дела, которые продвигают развитие общества — это то, что все без колебаний поддерживают».

Никто не хочет открывать стартап, но все считают, что так надо

Sam McCandlish: — «На самом деле никто из нас изначально не хотел открывать компанию. Мы просто считаем, что это наша ответственность: это единственный способ гарантировать, что развитие AI пойдёт в правильном направлении».

Daniela Amodei: — «Наша миссия одновременно ясная и чистая — в технологической индустрии такое бывает нечасто».

Интерпретируемость: «искусственная биология», спрятанная в нейронных сетях

Chris Olah: — «Нейронные сети удивительны: в них есть много такого, что мы ещё не видели. Иногда я представляю, как через десять лет заходишь в книжный магазин и покупаешь учебник по биологии нейронных сетей: там будет масса невероятных вещей».

AI для усиления демократии, а не как инструмент для диктатуры

Dario Amodei: — «Мы опасаемся, что если AI будет разработан неверно, он может стать инструментом для авторитаризма. Как сделать так, чтобы AI стал инструментом, который способствует свободе и самоопределению? Важность этой области ничуть не меньше, чем биологии и интерпретируемости».

От встречи в Белом доме до Нобелевской премии: влияние AI уже давно вышло за пределы технокругов

Jared Kaplan: — «В 2018 году ты бы не подумал, что президент позовёт тебя в Белый дом и скажет, что они следят за языковыми моделями».

Dario Amodei: — «Мы уже видели, как Нобелевскую премию в химии дали AlphaFold. Нам нужно стараться разрабатывать инструменты, которые помогают создавать сотни AlphaFold».

Почему нужно исследовать AI?

Jack Clark: Почему мы вначале решили заняться AI? Jared, почему ты занялся AI?

Tom Brown: — «Я думал, что это Дарио тебя убедил».

Dario Amodei: — «Я не думаю, что у меня была какая‑то чёткая «убедительная» стратегия; я просто всё время показывал результаты работы AI‑моделей, и хотел донести мысль: они универсальны и подходят не только для одной задачи. В какой‑то момент, когда я показал тебе достаточно, ты сказал: «Да, это похоже на правду»».

Jack Clark: Chris, когда ты занимался исследованиями интерпретируемости, вы знакомились друг с другом в Google?

Chris Olah: — «Нет. На самом деле, когда мне было 19 лет, я впервые приехал в залив, и там я уже знал многих из вас. Тогда я познакомился с Дарио и Джаредом: они были постдоками, и мне казалось это особенно крутым. Потом я работал в Google Brain: когда Дарио туда пришёл, мы какое‑то время сидели рядом; ещё я работал с Tom. А потом я перешёл в OpenAI и уже работал вместе со всеми вами».

Jack Clark: — «Я помню, в 2015‑м году на одной конференции я видел, как Дарио хотел взять интервью у тебя; даже Google PR сказал, что мне надо сначала прочитать все твои статьи».

Dario Amodei: — «Тогда я в Google писал «Concrete Problems in AI Safety»».

Sam McCandlish: — «Когда мы начали работать вместе, ты ещё пригласил меня в офис и мы как будто целиком проговорили про AI. Я помню, после разговора я подумал: «Оказывается, это намного серьёзнее, чем я тогда осознавал». Ты тогда рассказал про «большие вычислительные комки», про количество параметров, про масштаб нейронов человеческого мозга — и после этого я понял, насколько это глубоко».

Прорывное масштабирование

Jack Clark: — Я помню, когда мы в OpenAI делали scaling laws и начали увеличивать размер модели — стало действительно эффективно. И во многих проектах это продолжало работать, причём иногда даже странно эффективно: от GPT‑2 к scaling laws к GPT‑3 — мы как будто шли всё ближе и ближе.

Dario Amodei: — «Это просто та кучка людей, которые умеют доводить дело до результата».

Jared Kaplan: — «Мы тоже были очень воодушевлены безопасностью. Тогда у нас была идея: AI будет очень мощным, но возможно, он не будет понимать человеческие ценности и даже не сможет с нами нормально общаться. С языковыми моделями в некоторой степени можно гарантировать, что они поймут много неявных знаний».

Dario Amodei: — «И ещё над языковыми моделями — RLHF. Одна из причин, по которой мы расширяли модель, тогда заключалась в том, что модель должна быть сначала достаточно умной, чтобы RLHF заработал. Вот во что мы по‑прежнему верим: безопасность и масштабирование переплетены».

Chris Olah: — «Да, тогда работа над scaling тоже была частью работы команды безопасности. Потому что мы думали: чтобы люди серьёзно относились к безопасности, прежде всего надо уметь предсказывать тенденции развития AI».

Jack Clark: — Я помню, что я в аэропорту в Великобритании отбирал семплы из GPT‑2 и генерировал фейковые новости, а потом отправил в Slack Дарио и сказал: «Это реально работает, и, возможно, это может иметь огромное влияние на политику». Я помню, что ответ Дарио был: «Да».

После этого мы тоже сделали много работы, связанной с релизами — это было безумно.

Daniela Amodei: — «Я помню релиз того куска — это было первое время, когда мы действительно начали сотрудничать: GPT‑2 тогда выпустили».

Jack Clark: — «Я думаю, это помогло нам очень сильно. Мы сначала вместе сделали одну вещь — немного странную, но безопасно ориентированную. А потом вместе сделали Anthropic — ещё более масштабную вещь, тоже немного странную, но безопасно ориентированную».

Ранняя стадия развития AI

Tom Brown: — «Вернёмся к статье «Concrete Problems». В 2016 году я пришёл в OpenAI. Тогда вы и я были в первой волне людей, и у меня было ощущение, что это — первая статья по mainstream AI безопасности. Откуда она взялась?»

Dario Amodei: — «Chris знал — он участвовал. В Google тогда я вообще забыл, что было моим основным проектом. Эта статья — как будто то, что я тянул‑тянул, а потом сделал, чтобы отложить задачи».

Мы хотели записать, какие в AI безопасности есть открытые вопросы. Тогда безопасность AI часто обсуждали слишком абстрактно, и мы хотели «приземлить» это на реальный ML того времени. Сейчас уже шесть‑семь лет мы по этой линии работаем, но тогда это было просто странной идеей.

Chris Olah: — «Мне кажется, в каком‑то смысле это почти политический проект. Тогда многие не воспринимали безопасность всерьёз. Мы хотели составить список вопросов, который всем казался бы разумным и приемлемым: часть таких вопросов уже существовала в литературе. Потом мы нашли людей с доверием и публичной репутацией из разных организаций, и организовали их соавторство».

Я помню, что потратил очень много времени на разговоры с более чем двадцатью исследователями из Brain, добиваясь поддержки, чтобы это можно было опубликовать. Если смотреть только на сами вопросы, то, возвращаясь назад сегодня, не все они наверняка окажутся верными. Возможно, это не были самые правильные вопросы. Но если смотреть на это как на построение консенсуса: доказать «что здесь есть реальные проблемы и что к ним надо относиться серьёзно» — тогда это было важным моментом.

Jack Clark: «В итоге ты оказываешься в очень странном научно‑фантастическом мире. Я помню, что в раннем Anthropic говорили о Constitutional AI. Jared сказал: «Мы пишем для языковой модели конституцию — и её поведение становится таким». Тогда это звучало безумно. Почему вы считали это возможным?»

Jared Kaplan: — «Я долго обсуждал это с Дарио и думаю, что в AI простые подходы часто дают очень сильный эффект. Самая первая версия была сложной, потом мы её постоянно упрощали; в конце осталось следующее: использовать то, что модель хорошо отвечает на тесты с вариантами, и дать ей чёткий промпт, что именно искать. Этого достаточно, чтобы принципы можно было напрямую записать».

Dario Amodei: — «Это опять возвращает нас к «большим вычислительным комкам» (The Big Blob of Compute), к «болезненным урокам» (The Bitter Lesson), к «масштабированным гипотезам» (Scaling Hypothesis): если ты можешь дать AI ясную цель и данные, он научится. Пара инструкций, набор принципов: языковая модель сможет их прочитать и сверить со своим поведением. В итоге цель обучения там — перед глазами. Поэтому мой и Jared подход такой: это можно сделать, если детально повторять процесс снова и снова».

Jared Kaplan: — «Для меня в начале это было странно. Я пришёл из физики. А сегодня все так взволнованы AI, что легко забыть, какая тогда была атмосфера. Когда я обсуждал это с Дарио, мне казалось, что многим исследователям AI психологически очень сильно навредила AI‑зима: будто «иметь амбиции» не позволено. Обсуждение безопасности требовало сначала верить, что AI может быть очень сильным и очень полезным, но при этом существовал какой‑то «анти‑амбиционный запрет». У физиков одно из преимуществ — «дерзость»: они часто делают очень амбициозные вещи и привыкли говорить о больших картинах».

Dario Amodei: — «Я думаю, это действительно так: в 2014 году многие вещи нельзя было проговаривать. Это похоже на типичную проблему академической среды: помимо некоторых областей институты становились всё более аллергичными к риску. Индустриальный AI тоже унаследовал это настроение. Я думаю, что мы начали выходить из него только примерно к 2022 году».

Chris Olah: — «И ещё «две формы «консерватизма»: одна — это серьёзно смотреть на риск, а другая — это воспринимать серьёзное отношение к рискам и верить в то, что идеи могут сработать, как дерзость. Тогда мы как раз находились во второй категории. Исторически что‑то похожее было и в дискуссиях по ядерной физике 1939 года: Fermi сопротивлялся, Szilard или Teller более серьёзно смотрели на риски».

Dario Amodei: — «Самым глубоким уроком, который я вынес за последние десять лет, стало вот что: многие «все и так знают» консенсусы на самом деле — стадный эффект, переодетый под зрелость. Ты видел несколько раз, как консенсус переворачивался за одну ночь — и после этого говорят: «Нет, мы ставим на это». Возможно, это не обязательно окажется правильно, но можно игнорировать шум и ставить. Даже если у тебя только 50% правильности, ты всё равно внесёшь много того, чего никто другой не внесёт».

Смещение общественного отношения к искусственному интеллекту

Jared Kaplan: — «И сегодня в некоторых вопросах безопасности всё устроено так же. Внешний консенсус считает, что многие проблемы безопасности неестественно не вырастут из технологий, а проявятся где‑то «снаружи», но мы в Anthropic, проводя исследования, увидели, что они действительно вырастают — естественно».

Daniela Amodei: — «Но за последние 18 месяцев это меняется, и эмоции мира по отношению к AI явно тоже меняются. Когда мы проводили исследования пользователей, мы чаще слышали, как обычные пользователи волнуются за влияние AI на мир в целом».

Иногда это работа, предвзятость, токсичность; иногда: «а не устроит ли это хаос в мире, не изменит ли способ человеческого сотрудничества». В каком‑то смысле — я этого полностью не предвидел.

Sam McCandlish: — «Почему‑то в круге ML‑исследований люди чаще, чем в обществе, настроены более пессимистично насчёт того, что «AI станет очень сильным»».

Jared Kaplan: — «В 2023 году я с Дарио был в Белом доме. Встреча — Harris и Raimondo по сути сказали: «Мы смотрим на вас. AI — это очень важно. Мы внимательно следим». Но в 2018 году ты бы не подумал, что президент позовёт тебя в Белый дом и скажет, что они следят за языковыми моделями».

Tom Brown: — «Самое интересное, что многие из нас вошли в эту историю, когда было ещё неясно. Как Ферми с атомной бомбой: он сомневался. Были некоторые доказательства, что бомбу можно будет создать, но было и много доказательств, что нельзя. И всё же он решил попробовать. Потому что если это правда, эффект будет огромным — значит, стоит заняться этим».

В 2015–2017 было некоторое количество доказательств — и они постоянно накапливались — что AI может стать большой вещью. В 2016 году я разговаривал с наставником: я делал стартап, хотел заниматься AI‑безопасностью, но математики мне не хватало — я не знал, что делать. Тогда некоторые говорили: «Тебе нужно разбираться в теории принятия решений». Другие говорили: «Безумных событий с AI не будет; реально поддерживающих — мало».

Jack Clark: — «Я в 2014 году делал репортаж о тренде ImageNet, и меня называли сумасшедшим. В 2015‑м, когда я хотел написать о NVIDIA — потому что в их публикациях всё из‑за GPU — снова сказали, что я сумасшедший. В 2016 я ушёл из новостей в AI, и мне приходили письма вроде: «Ты совершил самую большую ошибку в жизни». С многих точек зрения, похоже, «серьёзно ставить на то, что масштабирование сработает» — тогда действительно выглядело как безумие».

Jared Kaplan: «Как ты решил? Ты сомневался?»

Jack Clark: — «Я сделал обратную ставку: попросил, чтобы меня сделали full‑time AI‑журналистом, и удвоили зарплату. Я знал, что мне не согласятся. А потом я заснул и утром ушёл. Потому что я каждый день читал архивные документы и мне всё время казалось, что происходит что‑то безумно важное: в какой‑то момент надо делать ставку с высокой убеждённостью».

Tom Brown: — «Я не был столь решительным: я колебался полгода».

Daniela Amodei: — «И ещё тогда это не было мейнстримом: что «инженеры тоже могут существенно продвигать AI». Тогда считалось: «AI могут делать только исследователи». Поэтому твои колебания — вполне объяснимы».

Tom Brown: — «А потом OpenAI сказали: «Ты можешь помогать AI‑безопасности через инженерную работу». Вот это и стало причиной моего вступления. Daniela, ты тогда была моим менеджером в OpenAI: почему ты присоединилась?»

Daniela Amodei: — «Я работала в Stripe пять с половиной лет; Greg был моим руководителем. Я также познакомила Greg и Дарио. Тогда он как раз создавал OpenAI, и я сказала ему: «Самые умные люди, которых я знаю, это Дарио. Если ты сможешь его уговорить присоединиться к команде — это действительно твоя удача». Потом Дарио и правда присоединился к OpenAI».

Возможно, как и ты, я тоже думала о том, что делать после ухода из Stripe. Я присоединилась к Stripe потому, что прежде, работая в некоммерческом секторе и в сфере международного развития, почувствовала, что мне нужны дополнительные навыки. Тогда я ещё думала, что в итоге вернусь в ту область.

До Stripe я считала, что у меня нет достаточной компетенции, чтобы помогать людям, которые находятся в более сложных условиях, чем я. Поэтому я присматривалась к другим технологическим компаниям — в поисках нового способа создавать более сильное влияние. И тогда OpenAI казалась мне отличным выбором. Это некоммерческая организация, которая стремится добиться очень важной и далеко идущей цели.

Я давно верю в потенциал AI: я знала о Дарио кое‑что, и они действительно нуждались в людях, чтобы помогать управлять. Поэтому мне казалось, что эта работа отлично подходит под мой опыт. Тогда я думала: «Это некоммерческая организация, здесь собралась команда очень сильных людей с прекрасным видением, но, похоже, у неё есть некоторый хаос в операционной части». И именно этот вызов меня и вдохновлял: я могла бы туда включиться.

Тогда мне казалось, что я — человек‑универсал: я не только управляла участниками команды, но и вела некоторые технические команды, занималась масштабированием организации. Я отвечала за вопросы масштабирования и также работала в языковой команде; позже взяла на себя ещё несколько задач. Я участвовала в некоторых вопросах политики, и ещё сотрудничала с Chris. Я чувствовала, что внутри компании много замечательных людей — и мне очень хотелось присоединиться, чтобы помочь компании стать более эффективной и более структурированной.

Jack Clark: «Я помню, что после GPT‑3 ты сказал: «Вы слышали про trust and safety?»»

Daniela Amodei: — «Раньше я в Stripe вела команду trust and safety. Для таких технологий вам, возможно, стоит подумать и о теме доверия и безопасности. Это мост между исследованиями безопасности искусственного интеллекта (AI Safety Research) и более практичной повседневной работой: то есть как сделать так, чтобы модель стала действительно безопасной».

Очень важно заявлять: «Эта технология в будущем окажет большое влияние». Одновременно нам нужно в повседневности делать более практичные вещи — готовить почву для сценариев с более высоким риском в будущем.

Политика ответственного масштабирования: обеспечить безопасное развитие AI

Jack Clark: «Это как раз подходит к разговору о том, как появилась политика ответственного масштабирования (RSP, Responsible Scaling Policy), почему мы о ней подумали и как сейчас применяем её — особенно с учётом того, что мы сейчас делаем в модели доверия и безопасности. Итак, кто впервые предложил RSP (политику ответственного масштабирования)?»

Dario Amodei: — «Сначала это предложил я вместе с Paul Christiano. Примерно к концу 2022 года. Изначальная идея была такая: стоит ли временно ограничивать масштабирование модели до достижения ею некоторого конкретного размера — пока мы не найдём способы решать определённые проблемы безопасности?»

Но потом мы решили, что просто ограничить масштабирование в одной точке, а потом снова снять ограничения — это выглядит странно. Поэтому мы решили задать набор порогов: каждый раз, когда модель достигает порога, нужно проводить серию тестов, чтобы оценить, есть ли у неё соответствующие способности в части безопасности.

При достижении каждого порога нам нужно принимать более строгие меры безопасности и гарантий. Но изначально у нас была идея: если эту работу будет выполнять третья сторона, возможно, будет лучше. То есть такая стратегия не должна лежать на ответственности одной компании — иначе другие компании могут не захотеть её принимать. Поэтому Paul лично проектировал эту стратегию. Конечно, со временем многие детали менялись. А наша команда продолжала исследовать, как лучше заставить эту стратегию работать.

Когда Paul оформил этот концепт в целостную структуру, он почти одновременно «объявил» саму идею — а мы в течение месяца‑двух опубликовали свою версию. На самом деле многие члены нашей команды глубоко участвовали в этом процессе. Я помню, что я написал как минимум один из ранних черновиков, но документ много раз редактировался и пересматривался.

Tom Brown: — «Для Anthropic RSP — как наша «конституция». Это руководящий документ в основе, поэтому мы готовы вкладывать массу времени и сил в то, чтобы снова и снова его дорабатывать — чтобы он был точным и полноценным».

Daniela Amodei: — «Мне кажется, в процессе развития Anthropic RSP действительно очень интересно выглядит. Она проходит через несколько этапов, и для её реализации нужны разные наборы навыков. Например, есть более масштабные идеи — эту часть в основном делают Dario, Paul, Sam, Jared и другие: они думают, «какие наши фундаментальные принципы? какое сообщение мы хотим донести? как понять, что выбранное направление верное?»»

Но кроме этого есть и очень практическая работа на уровне операций: в процессе постоянной итерации мы оцениваем и корректируем детали. Например, мы изначально ожидали, что при некотором уровне безопасности достигнем определённых целей, но если этого не происходит — мы пересматриваем подход и убеждаемся, что можем отвечать за результаты нашей работы.

Кроме того, есть и множество изменений, связанных с организационной структурой. Например, мы решили заново спроектировать организацию вокруг RSP, чтобы более чётко разделять ответственность. Мне очень нравится использовать аналогию с конституцией. Как США, чтобы обеспечить выполнение конституции, создали целую систему институтов и органов: суды, Верховный суд, президента, обе палаты парламента. Да, эти органы выполняют ещё и другие функции, но в очень большой степени они существуют для поддержания конституции. И RSP в Anthropic проходит через похожий путь.

Sam McCandlish: — «Я думаю, это отражает нашу ключевую позицию по вопросам безопасности: безопасность — это то, что можно решать. Это невероятно сложная и тяжёлая задача, требующая вложений времени и сил.»

Как и в области безопасности автомобилей, связанные институты и правила создавались годами. Но наша проблема сейчас такая: есть ли у нас достаточно времени, чтобы всё это сделать? Поэтому мы должны максимально быстро выявлять ключевые институты, необходимые для AI‑безопасности, и первыми строить их у себя — при этом, чтобы другие могли перенимать и масштабировать их.

Dario Amodei: — «Это также помогает организационной координации внутри: если какая‑то часть организации действует не в соответствии с нашими ценностями безопасности, то RSP так или иначе проявит проблему — верно? RSP будет останавливать планы, которые не соответствуют стандартам безопасности. Поэтому это ещё и постоянный инструмент‑напоминание для всех, который гарантирует, что безопасность становится базовым требованием в процессе разработки продукта и планирования. Мы не просто говорим лозунги: мы реально встраиваем безопасность во все этапы. Если кто‑то после прихода в команду не может разделить эти принципы, он обнаружит, что не может «вписаться». Либо ему придётся подстроиться под этот курс, либо он поймёт, что дальше трудно продолжать».

Jack Clark: — «Со временем RSP становится всё более важной. Мы вложили в неё тысячи часов работы. Когда я объяснял RSP сенаторам, я говорил: «Мы предусмотрели меры, чтобы наша технология не была так легко злоупотребляема и чтобы при этом гарантировалась безопасность». Их реакция обычно была: «Звучит нормально. Разве не так делает каждая компания?» Это немного смешно: на самом деле далеко не каждая компания делает так».

Daniela Amodei: — «Ещё я считаю, что помимо того, что RSP укрепляет согласованность ценностей команды, она также повышает прозрачность компании. Потому что она чётко фиксирует цели: каждый внутри компании может понять, что и как. И внешние люди тоже могут ясно понять, каковы наши цели и направление в безопасности. Это пока не идеально, но мы постоянно оптимизируем и улучшаем её».

Я думаю, важно прямо называть: «какие ключевые вопросы нас волнуют». Мы не можем управлять прогрессом работы, произвольно используя слово «безопасность»: например, «из‑за безопасности мы не можем сделать что‑то» или «из‑за безопасности мы должны сделать что‑то». Наша реальная цель — чтобы все понимали, что именно мы называем безопасностью.

Dario Amodei: — «В долгосрочной перспективе чаще всего безопасность реальнo повреждают те, у кого постоянно происходят «учения по безопасности». Я говорил: «Если в здании каждую неделю звучат пожарные тревоги, то это на самом деле очень небезопасное здание». Потому что когда реально случится пожар, возможно, никто не будет обращать внимание. Мы должны очень тщательно следить за точностью сигналов и калибровкой».

Chris Olah: — «Посмотрим иначе: я думаю, что RSP на многих уровнях создаёт здоровые механизмы стимулов. Например, внутри компании RSP выравнивает стимулы каждой команды с целями безопасности. Это значит, что если мы не добьёмся достаточного прогресса в безопасности, соответствующая работа будет остановлена».

А снаружи RSP создаёт более здоровые стимулы, чем другие подходы. Например, если когда‑то нам придётся предпринять серьёзные действия — признать: «наша модель достигла какого‑то этапа, но мы пока не можем гарантировать её безопасность», — тогда RSP даёт чёткую рамку и доказательства, которые поддерживают это решение. Такая рамка существует заранее и она ясна. Когда я вспоминаю наше обсуждение ранних версий RSP, я не в полной мере осознавал её потенциал, но сейчас я думаю, что она действительно работает эффективнее, чем любой другой способ, который я мог бы придумать».

Jared Kaplan: — «Я согласен с этими тезисами, но мне кажется, что это может недооценивать сложность, с которой мы сталкиваемся при формировании правильной политики, оценочных критериев и границ. Мы уже много итераций сделали в этих вопросах и продолжаем оптимизировать. Одна из сложных тем — что для некоторых возникающих технологий иногда тяжело определить, опасны они или безопасны. Часто мы сталкиваемся с огромной «серой зоной». Эти вызовы в начале разработки RSP очень меня воодушевляли — и сейчас тоже. Но при этом я осознал: чётко внедрить такую стратегию и заставить её реально работать — сложнее и вызовов больше, чем я изначально представлял».

Sam McCandlish: — «Серые зоны невозможно предсказать полностью, потому что они везде. Понять, где проблема, можно только когда реально начинаешь внедрять. Поэтому наша цель — внедрять как можно раньше всё, что нужно, чтобы как можно быстрее находить потенциальные проблемы».

Dario Amodei: — «Тебе нужно пройти три‑четыре итерации, чтобы сделать почти идеально. Итерации — очень мощный инструмент, и почти невозможно с первого раза сделать полностью правильно. Поэтому если риски растут, ты должен проходить эти итерации как можно раньше, а не ждать самого конца».

Jack Clark: — «И параллельно нужно создать внутренние институты и процессы. Да, конкретные детали могут меняться со временем, но самое важное — развить способность команды выполнять это на практике».

Tom Brown: — «Я отвечаю за управление вычислительными ресурсами в Anthropic. С моей точки зрения нам нужно общаться с внешними заинтересованными сторонами: разные люди снаружи по‑разному думают о темпе развития технологий. Вначале я тоже думал, что технологии будут развиваться не так быстро, но потом моё мнение изменилось — и я очень это понимаю. Я думаю, что RSP для меня особенно полезна, особенно когда я разговариваю с теми, кто считает, что развитие технологий будет медленным. Мы можем им сказать: «Пока технологии не достигнут стадии, когда это становится абсолютно срочно, нам не нужны экстремальные меры безопасности». Если они говорят: «Я думаю, что всё будет не срочно очень долго», я отвечаю: «Хорошо, тогда нам пока не нужны экстремальные меры безопасности». Это делает коммуникацию с внешним миром гораздо более гладкой».

Jack Clark: «А в каких ещё аспектах RSP повлияла на всех?»

Sam McCandlish: — «Всё крутится вокруг оценки. Каждая команда проводит оценку. Например, ваша тренинговая команда постоянно занимается оценкой. Мы пытаемся понять, насколько модель уже стала достаточно сильной, чтобы потенциально быть опасной».

Daniela Amodei: — «Это означает, что мы должны измерять поведение модели по стандартам RSP: проверять наличие признаков, которые могут заставить нас беспокоиться».

Sam McCandlish: — «Оценить минимальные способности модели относительно легко, но оценить её максимальные способности — очень сложно. Поэтому мы вкладываем много исследовательских усилий и пытаемся ответить на вопросы вроде: «Способна ли эта модель выполнять некоторые опасные задачи? Есть ли методы, о которых мы пока не думали — например, mind map (карта разума), best event (лучшее событие) или использование определённых инструментов — которые позволят модели выполнять действительно опасное поведение?»»

Jack Clark: — «В процессе разработки политики эти инструменты оценивания очень помогают. Потому что «безопасность» — это очень абстрактное понятие. А когда я говорю: «У нас есть инструмент оценивания, который решает, можно ли развернуть эту модель», — мы можем сотрудничать с политиками, экспертами по национальной безопасности и специалистами в сфере CBRN (химия, биология, радиология и ядерная сфера), чтобы совместно сформировать точные стандарты оценивания. Без этих конкретных инструментов такая кооперация могла бы вообще не получиться. Но как только появляются ясные стандарты, людям легче включаться и помогать, чтобы критерии были точными. Поэтому в этом смысле роль RSP очень заметна».

Daniela Amodei: — «Для меня RSP тоже очень важна и часто влияет на мою работу. Мне кажется интересным то, что я думаю о RSP чуть иначе: больше исходя из её «тона», из способа выражения. Недавно мы существенно скорректировали тон RSP, потому что раньше он был слишком техничным и даже создавал ощущение конфронтации. Я потратила много времени на то, чтобы продумать, как построить такую систему, в которую людям хотелось бы вовлекаться».

Если бы RSP была документом, который каждый в компании мог бы легко понять, было бы намного лучше. Как и наши OKR (цели и ключевые результаты). Например, какова основная цель RSP? Как понять, достигли ли её? Какой сейчас уровень безопасности AI (ASL): ASL‑2 или ASL‑3? Если каждый знает, на какие акценты нужно смотреть, тогда находить потенциальные проблемы становится проще. Напротив, если RSP слишком технична и её понимают лишь несколько человек, её практическая польза сильно снижается.

Мне очень приятно видеть, что RSP движется в сторону большей понятности. Сейчас я думаю, что большинство людей в компании — а возможно, даже все, независимо от должности — могут прочитать этот документ, и у них будет мысль: «Это разумно. Я хочу, чтобы мы разрабатывали AI, следуя этим принципам. Я понимаю, почему важно фокусироваться на этих вопросах. Если в моей работе появятся проблемы, я примерно буду знать, на что обращать внимание». Мы хотим сделать RSP достаточно простой — чтобы люди, работающие на производстве, могли сразу определить: «ремень безопасности должен быть пристёгнут здесь, но сейчас он не подсоединён как надо» — и тем самым вовремя обнаружить проблему.

Ключ — в создании здорового механизма обратной связи, чтобы руководство, совет директоров, другие подразделения компании и команды, которые реально занимаются разработкой, могли общаться друг с другом беспрепятственно. Я думаю, что большинство проблем возникает из‑за плохой коммуникации или когда передача информации искажается. Если проблема возникает просто по этим причинам — это, конечно, очень обидно, верно? В конце концов нам нужно воплотить эти идеи в практику и обеспечить, чтобы они были простыми, понятными и доступны пониманию каждого.

История основания Anthropic

Sam McCandlish: — «На самом деле никто из нас изначально не имел желания создавать компанию. Мы просто считаем, что это наша ответственность: мы обязаны действовать, потому что это единственный способ обеспечить, что развитие AI пойдёт в правильном направлении. Именно поэтому мы и дали то обещание».

Dario Amodei: — «Изначальная идея была простой: я хотел «изобрести» и исследовать что‑то новое с пользой. Это мышление привело меня в область AI. А исследования AI требуют много инженерной поддержки, и в итоге — требуют много финансирования».

Однако я обнаружил, что если нет чёткой цели и плана, чтобы учреждать компанию и управлять средой, то многие вещи можно сделать, но они повторяют ошибки технологической индустрии, которые отталкивали меня. Эти ошибки часто проистекают из одних и тех же людей, одних и тех же установок и одних и тех же шаблонов мышления. Поэтому в какой‑то момент я осознал, что нужно сделать это совершенно новым образом — и это было почти неизбежно.

Jared Kaplan: — «Помнишь, когда мы были в аспирантуре, у тебя был целостный план: как через научные исследования способствовать общественной пользе? Я думаю, сейчас это очень похоже на то, как вы смотрите на вещи. Я помню, у тебя был проект под названием «Pro

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .