Chris Olah:「違う。実は僕は 19 歳のときに初めてベイエリアに来て、その時点で君たちの何人かとは知り合っていたんだ。当時 Dario と Jared に会って、彼らはポスドクで、当時僕はそれがすごくクールだと思った。後に僕が Google Brain に行って、Dario が加わったあともしばらく横並びで座っていたし、Tom と一緒に働いたこともある。そしてその後 OpenAI に行って、君たち全員と一緒に仕事をするようになった。」
Jack Clark:「僕は 2015 年に会議で Dario に会ったのを覚えている。あなたをインタビューしたいと言ってて、Google PR は『まず君は彼の論文を全部読み終えてから来い』って言ってた。」
Dario Amodei:「当時、Google で『Concrete Problems in AI Safety』を書いていた。」
Sam McCandlish:「あなたと一緒に働き始める前に、オフィスで話をしてくれて、AI 全体を一通り説明してくれた。話が終わったあと、僕はこう思ったんだ。『この話は、自分が思っていたよりずっと深刻だ。』当時あなたは『大計算塊』やパラメータ数、人間の脳のニューロン規模みたいなことも話してた。」
Jack Clark:「最終的に、あなたはとても奇妙なSFの世界に入ることになる。Anthropic の初期の頃に Constitutional AI という話があって、Jared が『言語モデルに憲法を書き込むと、行動が変わる』って言っていたのを覚えてる。当時、それはなぜ現実的だと思ったの?」
Jared Kaplan:「Dario とずいぶん長く話し合った。AI ではシンプルな方法が、たいてい非常にうまく効くんだと思った。最初のバージョンはけっこう複雑だったけど、どんどん削っていって、最終的にはこうなった。モデルが選択問題を得意とする点を利用し、何を探すべきかを明確にプロンプトで教えれば、それで十分。あとは原則をそのまま書き下ろせる。」
Dario Amodei:「これは結局、いわゆる『大計算塊(The Big Blob of Compute)』、『惨痛教訓(The Bitter Lesson)』、『スケーリング仮説(Scaling Hypothesis)』に戻る。**AI に明確な目標とデータを渡せるなら、それは学習する。指示のセット、原則のセットで、言語モデルはそれを読み取り、さらに自分自身の行動とも照合できる。学習目標はそこにある。**だから僕と Jared の見方はこうだ。できる方法はある。あとは細部を何度も繰り返して調整すればいい。」
Jared Kaplan:「僕にとっては初期のやり方はすごく変だった。物理から来たからね。今はみんな AI にワクワクしているけど、当時の空気を忘れやすい。当時 Dario とこういう話をしていて感じたのは、多くの AI 研究者が AI の冬で心理的に深く傷ついていて、『有雄心』みたいなものは許されないと思い込んでいるということ。安全の議論をするには、まず AI がとても強く、とても有用になり得ると信じる必要がある。でも当時は、反雄心という禁令みたいなものがあった。物理学者には一つの優位がある。「傲慢さ」だ。彼らは野心的なことをよくやるし、壮大な構想を語るのに慣れている。」
Dario Amodei:「それは本当だと思う。2014 年には、そういうことは言っちゃいけない、という雰囲気があった。これは学術界でもよくある問題で、特定の分野を除けば、組織はますますリスク回避志向になっていた。産業の AI もその空気を引き継いでいて、僕は 2022 年ごろになってようやくそれが抜けたと思っている。」
Chris Olah:「さらに『保守』には 2 種類ある。ひとつはリスクを真剣に見ていること。もうひとつは、真剣に向き合うことに加えて、アイデアがうまくいく可能性があると信じること自体を傲慢だと捉えること。僕たちは当時、後者が主流だった。歴史的に 1939 年の核物理の議論でも似ていた。Fermi は抵抗があり、Szilard か Teller はリスクをより真剣に見ていた。」
Tom Brown:「面白いのは、僕たちの多くはまだこの件が確定して見えない段階で参入していたことだ。原爆について Fermi が懐疑的だったのと同じで、原爆が作られる可能性を示す証拠はいくつかあるけど、一方で作られない可能性を示す証拠もたくさんある。でも彼は最終的に一試しすることにした。もし本当なら影響があまりにも大きいから、やる価値がある。」
2015 年から 2017 年にかけて、AI が大ごとになるかもしれないという証拠がいくつかあり、しかも増えていった。僕は 2016 年に指導教員と話していて、「僕は起業もやったことがある。AI 安全もやりたい。でも数学の力が足りない。どうしたらいいんだろう」って悩んだ。当時は「意思決定理論を精通しろ」と言う人もいれば、「狂った AI 事件は起きない。まともに支援してくれる人は少ない」と言う人もいた。
Jack Clark:「僕は 2014 年に ImageNet のトレンドを報道していて、頭がおかしいと言われた。2015 年には、GPU は論文から考えたら出るはずだと NVIDIA を書こうとして、また頭がおかしいと言われた。2016 年にニュースを離れて AI に行ったら、人生最大の間違いだっていうメールまで来た。当時の多くの観点から見ても、真面目に『スケーリングは成り立つ』と賭けるのは、確かに頭がおかしいように見えた。」
Jared Kaplan:「どうやって決めたの?悩んだ?」
Jack Clark:「僕は逆の賭けをした。『全職 AI 記者として働き給料も倍にしてくれ』って条件を出せば、彼らは受けないと分かっていた。だから寝て起きたら辞めた。毎日資料の書類を読んでいて、なんかクレイジーな大事が起きてる気がしてた。ある時点では、高い信念で賭けるべきだとずっと思ってたから。」
Tom Brown:「僕はそこまで即断じゃなかった。6 か月くらい揺れた。」
Daniela Amodei:「しかも当時は『エンジニアでも AI に大きく貢献できる』っていう考え方は主流じゃなかった。当時は『研究者だけが AI をできる』という空気だったから、君が迷うのも不思議じゃない。」
Tom Brown:「その後 OpenAI が『エンジニアリングで AI の安全に貢献できる』と言ってきた。そこが僕を参加させた。Daniela、あなたは OpenAI では僕の上司だったけど、当時なぜ参加したの?」
僕はずっと AI の可能性を信じていた。Dario のこともある程度知っていたし、彼らは実際に運営面で手伝ってくれる人を必要としていた。だから、この仕事は自分の背景と非常に合っていると思った。僕が当時考えていたのはこうだ。「これは非営利機関で、すごく優秀で素晴らしいビジョンを持った人が集まっている。でも運営は、ちょっと混乱しているようにも見える。」そしてまさにその挑戦が、僕をわくわくさせた。そこに加わって取り組めるからだ。
Jack Clark:「ちょうどいい流れなので、責任ある拡張戦略(RSP、Responsible Scaling Policy)がどう提案され、なぜそれを思いつき、そして今それをどう適用しているのかを話してもらえますか。特に、現在私たちがモデルの信頼と安全について行っている取り組みを踏まえて。では、この RSP(責任ある拡張戦略)は最初に誰が提案したんでしょうか?」
Dario Amodei:「最初は僕と Paul Christiano で提案した。時期はだいたい 2022 年の終わりごろ。最初のアイデアは、モデルをある特定の規模まで拡大する前に、一時的に制限しておくべきかどうか——つまり、いくつかの安全上の問題を解決する方法が見つかるまで待つべきか——ということだった。」
各門に達するたびに、より厳格な安全・保障措置を講じる必要がある。ただ、最初からひとつ考えていたのは:これを第三者に実行してもらえたら、もっと良いのではないか。 つまり、この種の戦略は特定の会社だけが単独で責任を負うべきではない。他の会社がそれを採用したくなくなるからだ。だから Paul がこの戦略を自ら設計した。もちろん、時間が経つにつれて、その中の多くの細部も変わっていった。そして私たちのチーム側でも、どうすればこの戦略がより良く機能するかをずっと研究している。
Paul がこの概念を形にしたあと、ほぼ同時に僕たちも 1、2 か月以内に自分たちのバージョンを公開した。実は、チームの多くのメンバーがこの過程に深く関わっている。僕は少なくともそのうちの 1 つの初稿を書いた記憶がある。ただ、その文書は何度も改訂を重ねた。
Tom Brown:「RSP は Anthropic にとって、僕たちの『憲法』みたいなものだ。ガイドになる意味を持つコア文書なので、正確性と完成度を確実にするために、何度も時間と労力を投じて磨き込むことを約束している。」
Jared Kaplan:「これらの見解には同意する。でも僕は、正しいポリシーを作ること、評価基準を設定すること、そして境界線を引くことに伴う難しさを、少し過小評価してしまっているのではとも思う。僕たちはすでにそうした面で大量に反復しているし、今も最適化を続けている。難しいのは、新興技術に対して、それが危険なのか安全なのかを明確に判断するのが時に難しいこと。多くの場合、巨大なグレーゾーンにぶつかる。こうした課題が、RSP の開発初期にはすごく刺激的だったし、今もそうだ。とはいえ、わたしは同時に、これを明確に運用して本当に機能させるのは、最初に思っていたよりもずっと複雑で、もっと大変だということにも気づいている。」
Sam McCandlish:「グレーゾーンは完全には予測できない。そこに至る場所はどこにでもある。実際に運用し始めて初めて、どこに問題があるかが分かる。だから私たちの目標は、できるだけ早くすべてを実装して、潜在的な問題をできるだけ早く見つけることだ。」
Jack Clark:「同時に、社内の制度やプロセスも構築する必要がある。細かな部分は時とともに変わり得るけれど、チームの実行力を育てることが最重要だ。」
Tom Brown:「僕は Anthropic の計算資源の管理を担当している。外部の関係者とのコミュニケーションが必要だと感じている。異なる外部の人たちが、技術の進展速度に対して持っている見方はそれぞれ違う。僕は最初、技術はそんなに速く進まないと思っていた。でもその後考えが変わった。だから、その感覚にとても共感できる。RSP は僕にとって特に役に立つと思う。特に、技術の進展をかなり遅いと見ている人と話すときには。僕たちはこう伝えられる。『技術が非常に差し迫っている状況になるまでは、極端な安全対策は必要ない』と。もし相手が『事は長い間ずっと差し迫らないと思う』と言ってきたら、僕は『わかった。じゃあ今は極端な安全対策は必要ない』と返せる。そうすることで、外部とのコミュニケーションがずっとスムーズになる。」
Jack Clark:「では、RSP は他にどんな面でみんなに影響を与えましたか?」
Sam McCandlish:「すべては評価(assessment)に集約される。各チームが評価している。たとえば、あなたのトレーニングチームはずっと評価をしている。僕たちは、そのモデルが危険をもたらし得るほど十分に強くなったのかを見極めようとしている。」
Sam McCandlish:「モデルの最低能力(lowest capabilities)を評価するのは比較的やりやすいが、最高能力(highest capabilities)の評価はとても難しい。だから私たちは大量の研究努力を投入して、こういう問いに答えようとしている。『このモデルは、特定の危険なタスクを実行できるのか? 我々がまだ考慮していない手段——たとえば思考の地図(mind map)、最良イベント(best event)、ある種のツールの使用——によって、モデルが非常に危険な行動を取れる可能性はないのか?』」
Jack Clark:「政策を作るプロセスでは、こうした評価ツールが非常に役に立つ。なぜなら『安全』はとても抽象的な概念だからだ。僕が『評価ツールがあって、それがこのモデルをデプロイしていいかどうかを決める』と言うと、政策立案者や国家安全保障の専門家、さらに CBRN(化学・生物・放射性物質・核)領域の専門家と協力して、より正確な評価基準を一緒に作れる。こうした具体的なツールがなければ、協力そのものが成り立たない可能性が高い。でも明確な基準ができると、人々は参加しやすくなる。基準の正確さを担保する手助けもしてくれる。だから、この面での RSP の役割は非常に大きい。」
RSP が、もっと理解しやすい方向へ進んでいるのを見るのは嬉しい。今の僕の見立てでは、会社の大半の人、もしかすると全員が、それがどんな職種であろうとこの文書を読んで理解できる。しかもこう思えるはずだ。「これ、すごく筋が通っている。私たちは以下の原則に基づいて AI を開発すべきだし、なぜこれらの問題に注目するのかも分かる。もし仕事の中で問題に出会ったら、だいたい何に注意すべきか分かる。」私たちは、RSP を製造工場で働く人でも、簡単に判断できるようにしたい。たとえば「安全ベルトはここにつながっていないといけないのに、今つながってない」とすぐ気づけるように。そうすれば問題をタイムリーに見つけられる。
Jared Kaplan:「大学院でのことを覚えてる?君は、科学研究によって公共の利益に貢献する方法を探索しようとする、完全な計画を持っていた。僕はそれが今の僕たちの考え方とすごく似ていると思う。君が『Project Vannevar』というプロジェクトをやっていたのも覚えている。目的はまさにそれを実現することだった。僕は当時教授だったんだけど、当時の状況を見ていて、AI が与える影響がとても速いペースで増大していくと強く信じていた。」
Jack Clark:「当時、GPT-3 が出てきて、拡張法則(scaling laws)など、僕ら全員が触れたり関わったりしてきたプロジェクトを通じて、2020 年の時点で AI の発展のトレンドがはっきり見えていた。もし今すぐ動かなければ、すぐに取り返しのつかない臨界点に到達してしまうかもしれないと分かった。だから僕たちは行動しないと、この環境に影響を与えられない。」
Tom Brown:「僕は Daniela の見方を引き継ぎたい。チームの中には高度な信頼があると思う。僕らはみんな、自分がこのチームに入ったのは世界に貢献したいからだと分かっている。そして収入の 80% を社会を前に進める事業に寄付するという共同の約束もある。これは誰もがためらいなく支持している。「そうだ、もちろんそうする」。この信頼はとても特別で稀少だ。」
Jack Clark:「ただ、市場は本質的に実務的だから。Anthropic が会社として成功するほど、他の人は、僕たちが成功するのに役立ったやり方を真似したくなる。そして、僕たちの成功が安全分野での実際の取り組みと密接に結びついているなら、その成功が業界内に『引力』のようなものを生み、他の会社もこの競争に参加するようになる。たとえば、僕たちがシートベルトを開発したなら、他の会社も真似できる。そういう健康なエコシステムができる。」
Jared Kaplan:「だからこそ、RSP のような仕組みが重要なんだと思う。僕たちは技術がどう進むかをはっきり見通せるようになる。そして、ある種の問題には強い警戒が必要だと理解する。一方で、『狼が来た』という誤った警報を出して、単純に『イノベーションはここで止めるべきだ』と言うわけにはいかない。僕たちが必要なのは、AI 技術が顧客にとって役に立ち、革新的で、しかも楽しい体験を提供しつつ、同時に守らなければならない制約条件を明確にすることだ。これらの条件はシステムの安全性を確実にし、さらに他の会社も『安全を前提として成功でき、しかも僕たちと競争できる』と信じられるようにする。」
Dario Amodei:「数か月後、僕たちが RSP を打ち出したのに合わせて、3 つの最も有名な AI 会社がそれぞれ似たような仕組みを導入した。説明可能性の研究もまた、僕たちのブレークスルー領域の 1 つだ。それに加えて、AI 安全研究機関とも協業している。安全への総合的な注目が、深いインパクトを与え始めている。」
Jack Clark:「そう。Frontier Red Team はほぼすぐに他の会社に模倣された。良いことだ。僕たちは、あらゆるラボが潜在的な高リスクの安全上の穴をテストしてくれることを望んでいる。」
Chris Olah:「Dario が今言った話をさらに広げられるかもしれない。『最も道徳的な行いは「崇高な失敗」だ』という考え方がある。つまり、安全のために他の目標を犠牲にして、さらに現実的ではない形で行動してみせることで、自分が事業に対して純粋だと示すべきだ、というものだ。でも僕は、それは実際には自滅的だと思う。」
Jack Clark:「それじゃあ、これから私たちがやることについて、みんなは何にワクワクしてますか?」
Chris Olah:「説明可能性にワクワクできる理由はたくさんあると思う。明らかなのは安全のため。でももう 1 つ、感情の面でも、それがすごくワクワクするし、意味のあることだと感じる理由がある。僕はニューラルネットワークは本当に美しいと思っている。そしてそこには、まだ僕たちが見つけていない美しさがたくさんある。僕たちは常にニューラルネットワークをブラックボックスとして扱っていて、中の構造にあまり関心がない。でも深く掘り下げ始めると、中は驚くべき構造で満ちていることが分かる。」
Jack Clark:「数年前に、もし誰かが『政府は AI システムをテスト・評価するための新しい機関を設置し、それらの機関は非常に専門的で機能するだろう』と言ったら、あなたは信じなかったかもしれない。でもそれは起きている。言うなれば政府は、この新しい技術カテゴリに対応するための『新しい大使館』をすでに作っている。そこがどこへ向かうかを見てみたい。これはつまり、企業だけに頼らず、国家として社会の変化に対応する力があることを意味している。そこに参加できるのは嬉しい。」
Daniela Amodei:「僕は今それにすごくワクワクしている。でも、AI が人類にどんなことをできるかを想像しようとすると、ワクワクせずにはいられないと思う。今でも Claude が、ワクチン開発やがん研究、生物学研究を助けるような兆しが見えるだけでも信じられないほどだ。Claude が今できることを見ているだけでも驚きなのに、今後 3 年から 5 年を見通すと、特に健康分野で、人類が直面する根本的な問題を Claude が本当に解決し始めることを想像できて、すごくワクワクする。僕が国際開発の仕事をしていた頃を思い出すと、当時の自分の仕事が効率的に進まなかった部分を、Claude が助けてくれたらどれだけ素晴らしいだろうと思う。」
Tom Brown:「個人的には、仕事の中で Claude を使うのがとても好きだ。最近は家でも Claude といろいろ話していて、最近いちばん大きく変わったのはコードだ。6 か月前は僕は Claude をプログラミング関連の仕事に使っていなかったし、チームでもコードを書くのに Claude を使うことがほとんどなかった。でも今は状況が大きく変わった。たとえば先週、Y Combinator のイベントでスピーチをした。最初に僕はこう聞いた。『今 Claude を使ってプログラミングしている人は何人いる?』すると、ほぼ 95% の人が手を挙げた。ほとんど全員が手を挙げて、これは 4 か月前とは完全に違う。」
一周两次事故后,回看Anthropic七位聯創一年前如何談論「安全」
要点まとめ
過去 1 週間で、Anthropic は事故を 2 度も立て続けに起こしました:
まず、CMS 設定ミスにより社内の約 3,000 件のファイルが公開アクセス可能になり、続いて Claude Code v2.1.88 が npm で公開される際に 59.8MB のソースマップを同梱し、51 万行のソースコードがそのまま丸見えになりました。
「安全」を遺伝子にまで書き込んでいるはずの会社が、自社の運用で連続してコケる——皮肉が満載です。
ただ、急いで嘲笑する前に、Anthropic の 7 人の共同創業者が 1 年以上前に行った社内対談を振り返って聞いてみませんか。今回のポッドキャストは 2024 年 12 月に収録されており、7 人はこの会社をどう築いたか、RSP(Responsible Scaling Policy、直訳「責任ある拡張ポリシー」)をどう磨き上げたか、「安全」という言葉がなぜ軽々しく使えないのか、そして CEO Dario の言葉——何度も引用されるあの一文——について話します:
「もしあるビルで毎週火災報知器が鳴るなら、それは実はとても危険な建物です。」
今この言葉を聞くと、味わいが確かに少し違います。
7 人の共同創業者、即時に見分ける
Dario Amodei|CEO、元 OpenAI 研究担当副社長。神経科学出身で、Anthropic の戦略と安全面のロードマップの最終決定者。今回の対話では最も発言回数が多い。
Daniela Amodei|社長、Dario の姉。以前は Stripe で 5 年半働き、信頼と安全チームを率いた。さらに早い段階では、非営利や国際開発分野でも活動していた。Anthropic の組織づくりや対外コミュニケーションの大部分は彼女が主導している。
Jared Kaplan|物理学教授から AI 研究者へ。scaling laws の中核著者の 1 人。しばしば「外部者の視点」から判断を提供し、「当初は AI をやりたかったのは『物理をやり尽くした』からだ」と自称する。
Chris Olah|説明可能性(interpretability)研究の代表的存在。19 歳でベイエリアの AI サークルに入る。その後 Google Brain と OpenAI に勤務。Anthropic の中で技術的理想主義の色が最も濃い人物。
Tom Brown|GPT-3 論文の第一著者。現在は Anthropic の計算資源を管理している。視点は工学やインフラ寄りで、ポッドキャストでも「AI をそんなに早くは信じないと思っていた」から「考えが変わった」までの過程をかなり話している。
Jack Clark|元 Bloomberg のテクノロジー記者。Anthropic の政策とパブリックアフェアーズ責任者。この対話では司会役を務め、場をつなぎながら問いを投げる。
Sam McCandlish|研究の共同創業者。発言は最も少ないが、しばしば 1 つの一言で核心を突く。「追い打ちポジション」タイプ。
注目の見解サマリー
なぜ AI を作るのか:物理が退屈から「飽きたら信じる」へ
Jared Kaplan:「僕はずっと長い間物理をやっていて、ちょっと退屈だったし、もっと多くの友だちと一緒に働きたいとも思った。それで AI をやることにした。」
Dario Amodei:「僕は君をはっきり説得したとは思ってない。ずっと AI のモデルの結果を見せ続けていただけだ。ある時点までたくさん見せて、君が『うん、これって正しいっぽい』って言う。」
逆コンセンサス賭け:大半のコンセンサスは群れの効果が成熟の仮面をかぶっている
Jared Kaplan:「多くの AI 研究者は AI の冬の心理的なダメージをかなり深刻に受けていて、『野心があることは許されない』みたいに感じてしまう。」
Dario Amodei:「僕が過去 10 年で最も深く得た教訓はこうだ。『みんなが知っている』とされる多くのコンセンサスは、実は群れの効果が成熟の形を装っているだけだ。コンセンサスが一夜にしてひっくり返るのを何度か見たあと、人は『いや、じゃあこれに賭けよう』と言う。たとえ君が正しい確率が 50% しかなかったとしても、他の誰も貢献しないものをたくさん貢献できる。」
安全とスケーリングは絡み合っている
Dario Amodei:「当時、モデルを大きくする動機の 1 つは、モデルが先に十分に賢くなる必要があって、それなら RLHF が成り立つということだった。これが、今も僕たちが信じていることだ。安全とスケーリングは絡み合っている。」
RSP、責任ある拡張ポリシーは Anthropic の「憲法」
Tom Brown:「RSP は Anthropic にとって、まるで憲法みたいなものだ。ガイドになる意味を持つコア文書だから、僕たちは大量の時間と労力を投じて、何度も磨き込むことを厭わない。」
Dario Amodei:「RSP は安全基準に合わない計画が先に進むことを止める。スローガンを語っているだけじゃない。安全を、あらゆる場面に実際に組み込んでいる。」
火災報知器が鳴りすぎていると、本当に燃えたときは誰も逃げない
Daniela Amodei:「僕たちは『安全』という言葉を、進捗を左右するために気軽に使ってはいけない。私たちが本当に目指すのは、みんなが『ここで言う安全とは何か』をはっきり理解できるようにすることだ。」
Dario Amodei:「安全を本当に損なうのは、たいてい『安全演習』が頻繁に行われるケースだ。もしあるビルで毎週火災報知器の警報が鳴るなら、実はとても危険な建物だ。」
「崇高な失敗」は罠だ
Chris Olah:「『最も道徳的な行いは、安全のために他の目標を犠牲にし、それによって自分が事業に対して純粋だと示すことだ』という言い方がある。しかしそれは実際には自滅につながる。なぜなら、そのやり方だと意思決定権が、安全を重視しない人たちの手に渡るからだ。」
共同創業者たちは収入の 80% を寄付すると約束
Tom Brown:「私たちは共同で、社会の発展につながる事業に収入の 80% を寄付すると約束する。これは誰もが迷いなく支持していることです。」
誰も起業したくない。でも、やらなきゃいけないと思っている
Sam McCandlish:「実は、最初から会社を作りたいと誰もが思っていたわけではない。私たちはただ、それが自分たちの責任だと感じている。つまり、AI の発展を正しい方向へ進めるための唯一の方法だからだ。それであの約束をすることになった。」
Daniela Amodei:「私たちの使命は明確で、かつ純粋だ。テクノロジー業界では、こうした状況はあまり一般的ではない。」
説明可能性:ニューラルネットワークの中に「人工生物学」が丸ごと隠れている
Chris Olah:「ニューラルネットワークは本当に素晴らしい。まだ僕たちが見つけていない美しさがたくさんある。時々、10 年後に本屋に入って、ニューラルネットワークの生物学についての教科書を買う光景を想像する。そこには驚くべき内容がいろいろ詰まっているはずだ。」
AI は民主主義を強化するために使われ、独裁の道具にならない
Dario Amodei:「僕たちは、AI が誤って開発されると、独裁主義の道具になり得ることを心配している。どうやって AI を自由と自己決定を促す道具にするのか?この領域の重要性は、生物学や説明可能性とまったく同じくらいです。」
ホワイトハウスの会議からノーベル賞へ:AI の影響はとっくに技術コミュニティを超えている
Jared Kaplan:「2018 年には、大統領が『言語モデルを注視している』と言ってホワイトハウスで話をしにあなたを呼ぶなんて、想像もできなかった。」
Dario Amodei:「化学分野ではノーベル賞が AlphaFold に授与されたのを僕たちはもう見ている。数百個の AlphaFold を生み出すのを助けられるツールを開発できるよう、努力すべきだ。」
なぜ AI を研究するのか?
**Jack Clark:私たちはなぜ最初から AI をやろうと思ったの?Jared、なぜ AI をやるの?
Jared Kaplan:「僕はずっと長い間物理をやっていて、ちょっと退屈だったし、もっと多くの友だちと一緒に働きたいとも思った。それで AI をやることにした。」
Tom Brown:「Dario が君を説得したんだと思ってたよ。」
Dario Amodei:「僕が君を明確に『説得した』とは思ってない。ずっと AI のモデルの結果を見せて、それらが汎用的で、単一の問題だけに限らないことを伝えたかったんだ。ある時点までたくさん見せて、君が『うん、これって正しいっぽい』って言う。」
**Jack Clark:Chris、説明可能性の研究をしていた頃、Google でみんなと知り合ったの?
Chris Olah:「違う。実は僕は 19 歳のときに初めてベイエリアに来て、その時点で君たちの何人かとは知り合っていたんだ。当時 Dario と Jared に会って、彼らはポスドクで、当時僕はそれがすごくクールだと思った。後に僕が Google Brain に行って、Dario が加わったあともしばらく横並びで座っていたし、Tom と一緒に働いたこともある。そしてその後 OpenAI に行って、君たち全員と一緒に仕事をするようになった。」
Jack Clark:「僕は 2015 年に会議で Dario に会ったのを覚えている。あなたをインタビューしたいと言ってて、Google PR は『まず君は彼の論文を全部読み終えてから来い』って言ってた。」
Dario Amodei:「当時、Google で『Concrete Problems in AI Safety』を書いていた。」
Sam McCandlish:「あなたと一緒に働き始める前に、オフィスで話をしてくれて、AI 全体を一通り説明してくれた。話が終わったあと、僕はこう思ったんだ。『この話は、自分が思っていたよりずっと深刻だ。』当時あなたは『大計算塊』やパラメータ数、人間の脳のニューロン規模みたいなことも話してた。」
画期的な拡張(スケーリング)
**Jack Clark:**OpenAI で scaling laws をやっていたとき、モデルを大きくすることが本当に効き始めたのを覚えてる。そして多くのプロジェクトで、継続的で、しかも奇妙に効き続けるんだ。GPT-2 から scaling laws から GPT-3 まで、そんな感じでどんどん近づいていった。
Dario Amodei:「僕たちは、あの『物事を実現する人たち』の集団なんだ。」
Jared Kaplan:「僕たちも安全にはすごくワクワクしていた。当時ある考えがあって、AI はとても強くなる。でも人間の価値を理解できないかもしれないし、場合によってはコミュニケーションもできないかもしれない。言語モデルは、ある程度は、理解すべき隠れた知識がたくさんあることを保証できる。」
Dario Amodei:「さらに、言語モデルの上に RLHF がある。そこで当時、モデルを大きくする動機の 1 つは、モデルが先に十分に賢くなる必要があって RLHF が成り立つということだった。これが、今も僕たちが信じていることだ。安全とスケーリングは絡み合っている。」
Chris Olah:「そう。当時の scaling の仕事自体が、安全チームの一部でもあった。『人が安全を本気で扱えるようにするには、まず AI のトレンドを予測できる必要がある』と思っていたからだ。」
**Jack Clark:**僕は英国のある空港で GPT-2 からサンプリングして偽ニュースを書いて、それを Slack で Dario に送った。「これ、実際に使える。政策への巨大な影響があり得る」と言ったのを覚えている。Dario の返事は「はい」だったと覚えてる。
その後も、リリース関連の仕事をたくさんやった。それはもう狂ってたよ。
Daniela Amodei:「リリースのあの段階を覚えてる。あれは僕たちが本当に協力し始めた最初の時期だった。GPT-2 のリリースのとき。」
Jack Clark:「それは僕たちにすごく役に立ったと思う。最初に『ちょっと変だけど安全重視』なことを一緒にやって、その後 Anthropic でも、より大規模で同じくちょっと変だけど安全重視なことを一緒にやるようになった。」
AI の立ち上げ期
Tom Brown:「『Concrete Problems』の記事に戻ろう。僕は 2016 年に OpenAI に入った。君も僕も、当時は最初期メンバーの一人だったと思う。僕には、その記事が最初の主流的な AI 安全の論文みたいに見えた。どうやって生まれたの?」
Dario Amodei:「Chris は知っている。彼が関わっていた。あの当時、Google で僕がメインでやっていたプロジェクトが何だったかも忘れてる。この論文は、僕が先延ばしのようにして書いてしまったものに見える。」
私たちは、AI 安全にどんな未解決のオープン問題があるのかを書き出したかった。当時は AI 安全がいつもすごく抽象的に語られていて、僕たちはそれを当時の実際の ML に落とし込みたかった。今では 6、7 年にわたってこの線で働いている。でも当時は、ただの奇妙な思いつきだった。
Chris Olah:「ある意味、それはほとんど政治的なプロジェクトだったと思う。当時は安全を真面目に捉えない人が多かった。僕たちは、みんなが納得できる妥当な問題のリストを整理したかった。文献の中には最初から多く存在していて、そして、機関横断で公信力のある人に共同で署名してもらうことを狙った。」
僕は、そのために長い時間かけて Brain で 20 人以上の研究者とコミュニケーションを取った。発表のための支持を得るためにね。もし問題そのものだけを見るなら、今日振り返って全部が当時と一致しているわけではないかもしれない。つまり最適な問題ではない可能性もある。でも、それを共通認識づくりだと捉えるなら、「ここには本当に解くべき問題があり、真剣に向き合う価値がある」ということを示す重要な瞬間だった。
Jack Clark:「最終的に、あなたはとても奇妙なSFの世界に入ることになる。Anthropic の初期の頃に Constitutional AI という話があって、Jared が『言語モデルに憲法を書き込むと、行動が変わる』って言っていたのを覚えてる。当時、それはなぜ現実的だと思ったの?」
Jared Kaplan:「Dario とずいぶん長く話し合った。AI ではシンプルな方法が、たいてい非常にうまく効くんだと思った。最初のバージョンはけっこう複雑だったけど、どんどん削っていって、最終的にはこうなった。モデルが選択問題を得意とする点を利用し、何を探すべきかを明確にプロンプトで教えれば、それで十分。あとは原則をそのまま書き下ろせる。」
Dario Amodei:「これは結局、いわゆる『大計算塊(The Big Blob of Compute)』、『惨痛教訓(The Bitter Lesson)』、『スケーリング仮説(Scaling Hypothesis)』に戻る。**AI に明確な目標とデータを渡せるなら、それは学習する。指示のセット、原則のセットで、言語モデルはそれを読み取り、さらに自分自身の行動とも照合できる。学習目標はそこにある。**だから僕と Jared の見方はこうだ。できる方法はある。あとは細部を何度も繰り返して調整すればいい。」
Jared Kaplan:「僕にとっては初期のやり方はすごく変だった。物理から来たからね。今はみんな AI にワクワクしているけど、当時の空気を忘れやすい。当時 Dario とこういう話をしていて感じたのは、多くの AI 研究者が AI の冬で心理的に深く傷ついていて、『有雄心』みたいなものは許されないと思い込んでいるということ。安全の議論をするには、まず AI がとても強く、とても有用になり得ると信じる必要がある。でも当時は、反雄心という禁令みたいなものがあった。物理学者には一つの優位がある。「傲慢さ」だ。彼らは野心的なことをよくやるし、壮大な構想を語るのに慣れている。」
Dario Amodei:「それは本当だと思う。2014 年には、そういうことは言っちゃいけない、という雰囲気があった。これは学術界でもよくある問題で、特定の分野を除けば、組織はますますリスク回避志向になっていた。産業の AI もその空気を引き継いでいて、僕は 2022 年ごろになってようやくそれが抜けたと思っている。」
Chris Olah:「さらに『保守』には 2 種類ある。ひとつはリスクを真剣に見ていること。もうひとつは、真剣に向き合うことに加えて、アイデアがうまくいく可能性があると信じること自体を傲慢だと捉えること。僕たちは当時、後者が主流だった。歴史的に 1939 年の核物理の議論でも似ていた。Fermi は抵抗があり、Szilard か Teller はリスクをより真剣に見ていた。」
Dario Amodei:「僕が過去 10 年で最も深く得た教訓はこうだ。『みんなが知っている』とされる多くのコンセンサスは、実は群れの効果が成熟の形を装っているだけだ。コンセンサスが一夜にしてひっくり返るのを何度か見たあと、人は『いや、じゃあこれに賭けよう』と言う。たとえ必ずしも正しいとは限らなくても、ノイズを無視して賭ける。君が正しい確率が 50% しかなかったとしても、他の誰も貢献しないものをたくさん貢献できる。」
AI に対する世間の態度の変化
Jared Kaplan:「今日、ある安全系の話題でも同じだ。外部のコンセンサスでは、多くの安全問題は技術の中から自然に生まれないはずだと言われている。でも Anthropic で研究してみると、それが本当に自然に生まれてくることが分かった。」
Daniela Amodei:「でも過去 18 か月でそれは変わってきているし、世界の AI に対する感情も明らかに変化している。ユーザーリサーチをすると、一般のユーザーが『AI が世界全体に与える影響』を心配していることを、以前よりずっと多く聞くようになっている。」
時には仕事、偏見、毒性の話だ。時には「AI が世界をめちゃくちゃにしないか、人間の協働のやり方を変えてしまわないか」という話。それは正直、僕は完全には予想できていなかった。
Sam McCandlish:「なぜか ML 研究コミュニティは、一般の人たちよりも『AI がとても強くなる』ことに対して悲観的になりがちだ。」
Jared Kaplan:「2023 年に僕は Dario と一緒にホワイトハウスに行った。会議では Harris や Raimondo が言っていたのは、基本的に『私たちはあなたたちを注視している。AI は大事だ。真剣に見ている。ただ、2018 年には「大統領がホワイトハウスにあなたを呼んで、言語モデルを注視していると言う」なんて想像もしなかった』ということだ。」
Tom Brown:「面白いのは、僕たちの多くはまだこの件が確定して見えない段階で参入していたことだ。原爆について Fermi が懐疑的だったのと同じで、原爆が作られる可能性を示す証拠はいくつかあるけど、一方で作られない可能性を示す証拠もたくさんある。でも彼は最終的に一試しすることにした。もし本当なら影響があまりにも大きいから、やる価値がある。」
2015 年から 2017 年にかけて、AI が大ごとになるかもしれないという証拠がいくつかあり、しかも増えていった。僕は 2016 年に指導教員と話していて、「僕は起業もやったことがある。AI 安全もやりたい。でも数学の力が足りない。どうしたらいいんだろう」って悩んだ。当時は「意思決定理論を精通しろ」と言う人もいれば、「狂った AI 事件は起きない。まともに支援してくれる人は少ない」と言う人もいた。
Jack Clark:「僕は 2014 年に ImageNet のトレンドを報道していて、頭がおかしいと言われた。2015 年には、GPU は論文から考えたら出るはずだと NVIDIA を書こうとして、また頭がおかしいと言われた。2016 年にニュースを離れて AI に行ったら、人生最大の間違いだっていうメールまで来た。当時の多くの観点から見ても、真面目に『スケーリングは成り立つ』と賭けるのは、確かに頭がおかしいように見えた。」
Jared Kaplan:「どうやって決めたの?悩んだ?」
Jack Clark:「僕は逆の賭けをした。『全職 AI 記者として働き給料も倍にしてくれ』って条件を出せば、彼らは受けないと分かっていた。だから寝て起きたら辞めた。毎日資料の書類を読んでいて、なんかクレイジーな大事が起きてる気がしてた。ある時点では、高い信念で賭けるべきだとずっと思ってたから。」
Tom Brown:「僕はそこまで即断じゃなかった。6 か月くらい揺れた。」
Daniela Amodei:「しかも当時は『エンジニアでも AI に大きく貢献できる』っていう考え方は主流じゃなかった。当時は『研究者だけが AI をできる』という空気だったから、君が迷うのも不思議じゃない。」
Tom Brown:「その後 OpenAI が『エンジニアリングで AI の安全に貢献できる』と言ってきた。そこが僕を参加させた。Daniela、あなたは OpenAI では僕の上司だったけど、当時なぜ参加したの?」
Daniela Amodei:「Stripe で 5 年半働いていて、Greg が僕の上司だった。僕は Greg と Dario を引き合わせたこともある。当時彼は OpenAI を立ち上げようとしていて、僕は彼にこう言った。『私が知っている中で一番頭のいい人は Dario。彼がチームに入ってくれたら、本当にあなたにとって幸運だよ。』それで後に Dario が OpenAI に参加した。」
たぶん君と同じように、僕も Stripe を離れたあと、自分は何をしたいのか考えていた。僕が Stripe に入ったのは、非営利組織や国際開発分野で働いていた経験があって、自分にはもっとスキルが必要だと思っていたからだ。実は当時は、最終的にはあの分野に戻るんだろうと思っていた。
Stripe に入る前は、自分には私より条件が悪い人を助けるほどの能力が十分にないと思っていた。だから僕は他のテック企業も見て回って、もっと大きなインパクトを生む新しい方法を見つけたいと思っていた。そこで当時の OpenAI は、とても良い選択肢だと感じた。それは非営利組織で、とても重要で、遠大な意味のある目標を実現することに取り組んでいる。
僕はずっと AI の可能性を信じていた。Dario のこともある程度知っていたし、彼らは実際に運営面で手伝ってくれる人を必要としていた。だから、この仕事は自分の背景と非常に合っていると思った。僕が当時考えていたのはこうだ。「これは非営利機関で、すごく優秀で素晴らしいビジョンを持った人が集まっている。でも運営は、ちょっと混乱しているようにも見える。」そしてまさにその挑戦が、僕をわくわくさせた。そこに加わって取り組めるからだ。
当時の僕は、万能選手みたいな感覚だった。チームメンバーのマネジメントをするだけじゃなくて、いくつかの技術チームを率いることも必要で、組織の拡張のマネジメントも担当していた。僕は組織拡張の仕事を担当していたし、言語チームで働いたこともある。さらに後にいくつか別のタスクも引き受けた。政策面の業務にも参加したし、Chris と一緒に協力したこともある。会社にはたくさんの優秀な人材がいて、それが僕にとって非常に魅力的で、もっと効率的で、より整然とした会社にしていく手助けをしたいと思った。
Jack Clark:「GPT-3 をやり終えたあと、君が『trust and safety って聞いたことある?』って言ってたのを覚えてる」
Daniela Amodei:「僕は以前 Stripe で trust and safety チームを率いていた。こういう技術なら、信頼と安全の問題を考える必要があると思う。これは、人工知能の安全研究(AI Safety Research)と、より実務的な日常業務の間の架け橋になる。つまり、どうやってモデルを本当に安全にするか、ということだ。」
「この技術は将来、重大な影響を生む」という前提を掲げるのはとても重要だ。同時に、日常の中でより実際的な仕事も進めて、将来より高いリスクの場面に直面するときの土台を作る必要がある。
責任ある拡張ポリシー:AI の安全な発展を確実にする
Jack Clark:「ちょうどいい流れなので、責任ある拡張戦略(RSP、Responsible Scaling Policy)がどう提案され、なぜそれを思いつき、そして今それをどう適用しているのかを話してもらえますか。特に、現在私たちがモデルの信頼と安全について行っている取り組みを踏まえて。では、この RSP(責任ある拡張戦略)は最初に誰が提案したんでしょうか?」
Dario Amodei:「最初は僕と Paul Christiano で提案した。時期はだいたい 2022 年の終わりごろ。最初のアイデアは、モデルをある特定の規模まで拡大する前に、一時的に制限しておくべきかどうか——つまり、いくつかの安全上の問題を解決する方法が見つかるまで待つべきか——ということだった。」
でも後に、ある点で拡大を止めて、そのあと解禁するだけ、というやり方は少しおかしいと思うようになった。だから私たちは、一連の「門(しきい値)」を設定することに決めた。モデルがその門に達するたびに、一連のテストを行い、モデルがそれ相応の安全能力を持っているかを評価する。
各門に達するたびに、より厳格な安全・保障措置を講じる必要がある。ただ、最初からひとつ考えていたのは:これを第三者に実行してもらえたら、もっと良いのではないか。 つまり、この種の戦略は特定の会社だけが単独で責任を負うべきではない。他の会社がそれを採用したくなくなるからだ。だから Paul がこの戦略を自ら設計した。もちろん、時間が経つにつれて、その中の多くの細部も変わっていった。そして私たちのチーム側でも、どうすればこの戦略がより良く機能するかをずっと研究している。
Paul がこの概念を形にしたあと、ほぼ同時に僕たちも 1、2 か月以内に自分たちのバージョンを公開した。実は、チームの多くのメンバーがこの過程に深く関わっている。僕は少なくともそのうちの 1 つの初稿を書いた記憶がある。ただ、その文書は何度も改訂を重ねた。
Tom Brown:「RSP は Anthropic にとって、僕たちの『憲法』みたいなものだ。ガイドになる意味を持つコア文書なので、正確性と完成度を確実にするために、何度も時間と労力を投じて磨き込むことを約束している。」
Daniela Amodei:「RSP は Anthropic の発展の過程で、本当に面白い存在だと思う。いくつかの段階を経ているし、実装を進めるにはさまざまなスキルも必要になる。たとえば、大きな理念の部分は主に Dario、Paul、Sam、Jared などが担当している。『私たちのコア原則は何か? どんなメッセージを伝えたいのか? どうやって方向性が正しいと判断するのか?』といったことを考える。」
ただそれだけではない。運用の実務レベルの仕事もたくさんある。たとえば、反復していく過程で、細部を評価し、調整していく。たとえば、ある安全レベルで特定の目標に到達すると見込んでいたのに達成できなかった場合は、改めて評価し、そして自分たちの作業結果に責任を持てることを確認する。
さらに、組織体制に関する調整もたくさんある。たとえば、責任をより明確に分けるために RSP の組織構造を再設計することを決めた。僕はこの文書の重要性を「憲法」にたとえるのが好きだ。アメリカが憲法の実現のために、裁判所や最高裁判所、大統領、上下両院など一式の制度と機関を作ったように。もちろんそれらは他の役割も担っている。でも、それらが存在する大きな目的は憲法を守ることだ。Anthropic の RSP もまた、似たようなプロセスを経ている。
**Sam McCandlish:「私は、これは安全という問題に対する私たちのコア見解を反映していると思う。つまり、安全の問題は解決できるということだ。 非常に複雑で、非常に大変な作業であり、時間と労力を大量に投入する必要がある。」
自動車の安全の分野と同じように、関連する制度や機関は何年もかけて作られてきた。だが今直面しているのは:それらを完成させるだけの十分な時間があるのか? だから私たちは、AI の安全に必要な重要な制度をできるだけ早く見つけ、まずは自分たちのところで先に作り、同時に他でも参考にされ、広く展開できるようにする必要がある。
Dario Amodei:「これもまた組織内部の協力と統一に役立つ。なぜなら、組織のどこかの部分が安全の価値観に反する行動を取れば、RSP が何らかの形で問題を露出させるからだよね?RSP は、安全基準に合わない計画が進むことを止める。だからそれは、常に全員に注意を促し、安全が製品開発や計画のプロセスにおける基本要件になるようにするための道具にもなる。**私たちはスローガンを話しているだけではない。安全をあらゆる場面に実際に組み込んでいる。**誰かがチームに加わったとしても、これらの原則を受け入れられないなら、自然にチームに馴染めないことになる。方向転換して合わせるか、それとも続けていくのが難しいことに気づくか、どちらかだ。」
Jack Clark:「時間が経つほど、RSP はますます重要になっている。僕たちは RSP に数千時間を投じた。そして僕が議員に RSP を説明するときはこう言った。『私たちは、私たちの技術が悪用されにくいようにするための手段を作りつつ、安全も確実にするための手段も用意しました。』すると彼らの反応はだいたいこうだ。『それは普通に聞こえる。どの会社も同じようにやってないの?』って。少し苦笑してしまうけど、実際にはどの会社もそんなふうにやってはいない。」
Daniela Amodei:「**さらに、価値観の一致をチーム内で後押しすることに加えて、RSP は会社の透明性も高めてくれると思う。**なぜなら、それが私たちの目標をはっきりと記録しているからだ。社内の全員が理解できるし、外部の人も私たちが安全について何を目指し、どんな方向性で進んでいるかをはっきり把握できる。完璧ではないとしても、私たちはずっとそれを最適化し、改善し続けている。」
「私たちが重視しているコアの問題は何か」を明確に示せているなら、「安全」という言葉を都合よく使って進捗を左右することはできない。たとえば「安全上の理由でこれができない」とか「安全上の理由でこれをやらなければならない」といった形でね。私たちの本当の目的は、みんなが『ここで言う安全とは何か』をはっきり理解できるようにすることだ。
Dario Amodei:「長期的に本当に安全を損ねるのは、たいてい頻繁に行われる『安全演習』だ。僕はこう言ったことがある。『もしあるビルで毎週火災報知器の警報が鳴っているなら、それは実はとても安全じゃない建物だ』と。なぜなら、実際に火事が起きたときに誰も気にしなくなる可能性があるからだ。だから、警報の正確さと校正をとても重視しなければならない。」
Chris Olah:「別の角度から見ると、僕は RSP が多くのレイヤーで健全なインセンティブ構造を生み出していると思う。たとえば社内では、RSP が各チームのインセンティブを安全目標に揃える。つまり安全の面で十分な進展ができていなければ、関連する仕事は止まる可能性が出る。」
そして対外的にも、RSP は他の手法よりも健全なインセンティブを生み出しやすい。たとえば、いずれ必要になったときに大きな行動を取るとしよう。たとえば「私たちのモデルはある段階まで進化したが、その安全性を確実には担保できていない」と認めるような場面だ。RSP は、そうした決定を支えるための明確な枠組みと証拠を提供する。その枠組みは事前に存在していて、はっきり分かりやすい。RSP の初期バージョンについて議論していたとき、僕はその潜在力を十分に理解していなかった。でも今は、僕が想像していた他の方法よりも、確かにより効果があると思っている。」
Jared Kaplan:「これらの見解には同意する。でも僕は、正しいポリシーを作ること、評価基準を設定すること、そして境界線を引くことに伴う難しさを、少し過小評価してしまっているのではとも思う。僕たちはすでにそうした面で大量に反復しているし、今も最適化を続けている。難しいのは、新興技術に対して、それが危険なのか安全なのかを明確に判断するのが時に難しいこと。多くの場合、巨大なグレーゾーンにぶつかる。こうした課題が、RSP の開発初期にはすごく刺激的だったし、今もそうだ。とはいえ、わたしは同時に、これを明確に運用して本当に機能させるのは、最初に思っていたよりもずっと複雑で、もっと大変だということにも気づいている。」
Sam McCandlish:「グレーゾーンは完全には予測できない。そこに至る場所はどこにでもある。実際に運用し始めて初めて、どこに問題があるかが分かる。だから私たちの目標は、できるだけ早くすべてを実装して、潜在的な問題をできるだけ早く見つけることだ。」
Dario Amodei:「本当に完璧にするには 3 回から 4 回の反復が必要だ。反復は非常に強力なツールで、最初から完全に正しい状態になることはほとんどない。だから、リスクが増えている局面では、最後まで待つのではなく、できるだけ早くその反復を終える必要がある。」
Jack Clark:「同時に、社内の制度やプロセスも構築する必要がある。細かな部分は時とともに変わり得るけれど、チームの実行力を育てることが最重要だ。」
Tom Brown:「僕は Anthropic の計算資源の管理を担当している。外部の関係者とのコミュニケーションが必要だと感じている。異なる外部の人たちが、技術の進展速度に対して持っている見方はそれぞれ違う。僕は最初、技術はそんなに速く進まないと思っていた。でもその後考えが変わった。だから、その感覚にとても共感できる。RSP は僕にとって特に役に立つと思う。特に、技術の進展をかなり遅いと見ている人と話すときには。僕たちはこう伝えられる。『技術が非常に差し迫っている状況になるまでは、極端な安全対策は必要ない』と。もし相手が『事は長い間ずっと差し迫らないと思う』と言ってきたら、僕は『わかった。じゃあ今は極端な安全対策は必要ない』と返せる。そうすることで、外部とのコミュニケーションがずっとスムーズになる。」
Jack Clark:「では、RSP は他にどんな面でみんなに影響を与えましたか?」
Sam McCandlish:「すべては評価(assessment)に集約される。各チームが評価している。たとえば、あなたのトレーニングチームはずっと評価をしている。僕たちは、そのモデルが危険をもたらし得るほど十分に強くなったのかを見極めようとしている。」
Daniela Amodei:「つまり、RSP の基準に照らしてモデルのパフォーマンスを測る必要がある。懸念につながる可能性のある兆候があるかどうかも確認する。」
Sam McCandlish:「モデルの最低能力(lowest capabilities)を評価するのは比較的やりやすいが、最高能力(highest capabilities)の評価はとても難しい。だから私たちは大量の研究努力を投入して、こういう問いに答えようとしている。『このモデルは、特定の危険なタスクを実行できるのか? 我々がまだ考慮していない手段——たとえば思考の地図(mind map)、最良イベント(best event)、ある種のツールの使用——によって、モデルが非常に危険な行動を取れる可能性はないのか?』」
Jack Clark:「政策を作るプロセスでは、こうした評価ツールが非常に役に立つ。なぜなら『安全』はとても抽象的な概念だからだ。僕が『評価ツールがあって、それがこのモデルをデプロイしていいかどうかを決める』と言うと、政策立案者や国家安全保障の専門家、さらに CBRN(化学・生物・放射性物質・核)領域の専門家と協力して、より正確な評価基準を一緒に作れる。こうした具体的なツールがなければ、協力そのものが成り立たない可能性が高い。でも明確な基準ができると、人々は参加しやすくなる。基準の正確さを担保する手助けもしてくれる。だから、この面での RSP の役割は非常に大きい。」
Daniela Amodei:「RSP は僕にとってもとても重要で、たびたび僕の仕事に影響してくる。面白いのは、僕が RSP を考えるときの切り口が少し特殊で、それは『その語り口(tone)』から考えることが多いことだ。最近、僕たちは RSP の語り口を大きく変えた。以前の語り口は技術的すぎて、対立している感覚すらあった。だから僕は時間をかけて、人がそこに参加したいと思えるような仕組みをどう作るかを考えた。」
もし RSP が、社内の誰もが簡単に理解できる文書なら、もっと良い。いまの OKR(目標と主要成果)みたいに。たとえば、RSP の主な目標は何か?どうやって達成したと分かるのか?現在の AI セーフティレベル(ASL)はどれくらいか?ASL-2 か ASL-3 か?もし全員が注目すべきポイントを知っていれば、潜在的な問題を見つけるのはずっと簡単になる。逆に、RSP があまりにも技術寄りで、一部の人にしか理解できないなら、その実効性は大きく下がる。
RSP が、もっと理解しやすい方向へ進んでいるのを見るのは嬉しい。今の僕の見立てでは、会社の大半の人、もしかすると全員が、それがどんな職種であろうとこの文書を読んで理解できる。しかもこう思えるはずだ。「これ、すごく筋が通っている。私たちは以下の原則に基づいて AI を開発すべきだし、なぜこれらの問題に注目するのかも分かる。もし仕事の中で問題に出会ったら、だいたい何に注意すべきか分かる。」私たちは、RSP を製造工場で働く人でも、簡単に判断できるようにしたい。たとえば「安全ベルトはここにつながっていないといけないのに、今つながってない」とすぐ気づけるように。そうすれば問題をタイムリーに見つけられる。
重要なのは、健全なフィードバックの仕組みを作り、経営陣、取締役会、会社の他の部門、そして実際に R&D を担うチームの間でスムーズなやり取りができる状態をつくることだ。僕は、多くの問題はコミュニケーションがうまくいかない、あるいは情報の伝達にずれが生じることが原因で起きることが多いと思っている。もしそれだけの理由で問題が生じるなら、非常に残念だよね?最終的に僕たちがやるべきことは、この理念を実際の行動に落とし込み、そしてそれをシンプルで分かりやすいものにして、誰もが理解できるようにすることだ。
Anthropic の創立の物語
Sam McCandlish:「実は、僕たちの中で最初から会社を作りたいと思っていた人はいなかった。僕たちは、それが自分たちの責任で、行動しなければならないと思っただけだ。なぜなら、AI の発展を正しい方向へ進めることを確実にする唯一の道だから。それが、あの約束をする理由になった。」
Dario Amodei:「僕の最初の考えはシンプルだった。役に立つ方法で新しいものを発明して探索したい、というだけだ。その発想が僕を AI の領域へ導いていった。AI の研究には大量のエンジニアリング技術のサポートが必要で、最終的には大量の資金支援も必要になる。」
しかし、会社を作って環境を運営するための明確な目標と計画がなければ、多くのことはできるとしても、テック業界に対して僕が疎遠に感じてしまうような同じ失敗を繰り返してしまうことに気づいた。そうした失敗は、往々にして同じ人、同じ態度、同じ思考パターンに由来する。だからある時点で、僕は「新しいやり方でやらなければならない」と意識した。それはほとんど避けられないことだった。
Jared Kaplan:「大学院でのことを覚えてる?君は、科学研究によって公共の利益に貢献する方法を探索しようとする、完全な計画を持っていた。僕はそれが今の僕たちの考え方とすごく似ていると思う。君が『Project Vannevar』というプロジェクトをやっていたのも覚えている。目的はまさにそれを実現することだった。僕は当時教授だったんだけど、当時の状況を見ていて、AI が与える影響がとても速いペースで増大していくと強く信じていた。」
しかし、AI 研究は資金需要がとても高い。さらに物理学教授としての自分の立場を考えると、学術研究だけでこれらの進展を押し進めることはできないと僕は悟った。だから信頼できる人と一緒に機関(組織)を作り、AI の発展が正しい方向へ進むことを確実にしたいと思った。でも正直なところ、僕は他の誰かに会社を作ることを勧めたこともなかったし、その願いも一度もなかった。僕にとってそれは、目標を実現するための手段にすぎない。僕は通常、成功の鍵は、あなたが本当に世界に意味のある目標を実現したいと思っていること。そして、その目標を達成するための最適な手段を見つけることにあると思っている。
信頼文化をどう作るか
Daniela Amodei:「僕はチームとしての戦略上の強みをよく考える。その中には、少し意外に聞こえるかもしれないけど、とても重要な要素があって、それが私たちの間の高度な信頼だ。大勢が同じ使命を持つように揃えるのはとても難しい。でも Anthropic では、その使命感をどんどん多くの人に伝えられている。このチームでは、リーダーシップ層も全メンバーも、共通の使命のために集まっている。私たちの使命は明確で純粋だ。テクノロジー業界では、こういう状態はあまり一般的ではない。」
僕たちが目指しているものには、純粋な意味がある。誰も会社を作りたいと思って始めたわけではない。僕たちは、やらなければならないと思っただけだ。元の場所では作業を進められない。自分たちでこのことをやるしかない。
Jack Clark:「当時、GPT-3 が出てきて、拡張法則(scaling laws)など、僕ら全員が触れたり関わったりしてきたプロジェクトを通じて、2020 年の時点で AI の発展のトレンドがはっきり見えていた。もし今すぐ動かなければ、すぐに取り返しのつかない臨界点に到達してしまうかもしれないと分かった。だから僕たちは行動しないと、この環境に影響を与えられない。」
Tom Brown:「僕は Daniela の見方を引き継ぎたい。チームの中には高度な信頼があると思う。僕らはみんな、自分がこのチームに入ったのは世界に貢献したいからだと分かっている。そして収入の 80% を社会を前に進める事業に寄付するという共同の約束もある。これは誰もがためらいなく支持している。「そうだ、もちろんそうする」。この信頼はとても特別で稀少だ。」
Daniela Amodei:「Anthropic は政治的な色がとても薄い会社だと思う。当然、僕らの視点は一般の人と少し違うかもしれないので、それは常に自分に言い聞かせている。採用プロセスと、チームメンバーの特性によって、ここでは文化として『オフィス政治』への拒否感が自然に生まれている。」
Dario Amodei:「そしてチームの団結力(コヒージョン)だ。団結力は極めて重要。プロダクトチーム、リサーチチーム、信頼と安全チーム、マーケティングチーム、政策チームなど、すべてが会社の同じ目標の実現に向けて取り組んでいる。社内の異なる部門がそれぞれまったく別の目標を追いかけてしまうと、混乱が生まれやすい。それに、もし他部門が自分の仕事を壊していると感じるような状況があるなら、なおさら通常ではない。」
私たちの最も重要な成果の 1 つは、会社全体の一貫性を保てていることにある。RSP のような仕組みがその中で重要な役割を果たしている。この仕組みは、会社の一部門が問題を作り、別の部門がそれを修復しようとするという形ではなく、すべての部門がそれぞれの役割を果たし、統一された変革理論(theory of change)の枠組みの中で協同できるようにしている。
Chris Olah:「僕が最初に OpenAI に参加したのは、そこが非営利組織で、AI の安全研究に集中できると思ったからだ。でも時間が経つにつれて、この形が僕に完全には合っていないことに気づいてきて、難しい決断をいくつかすることになった。その過程で、僕は Dario と Daniela の判断を強く信頼していた。でも離れたくはなかった。なぜなら、より多くの AI ラボを増やすことが必ずしも世界にとって有益とは限らないと思っていたからで、離れることをとてもためらった。」
最終的に僕が離れると決めたときも、会社を作ることにはまだためらいがあった。僕はかつて、非営利機関を設立して安全研究に専念すべきだと主張していた。しかし、より現実的な姿勢と、現実の制約を直視することで、私たちは結局「Anthropic を作ることが目標を達成する最善の方法だ」と気づいた。
Dario Amodei:「僕たちが初期に学んだ重要な教訓の 1 つはこうだ。約束は少なくし、約束はきちんと果たせ。現実を直視し、トレードオフを真正面から受け止めること。信頼と信用は、どんな具体的なポリシーよりも重要なんだ。」
Daniela Amodei:「**Anthropic の独特な点は、高度な信頼と一体感(ユニタリティ)がチームにあることだ。**たとえば僕が、Mike Krieger が安全上の理由である種の製品のリリースを主張して止めているのを見ると同時に、Vinay がビジネス上のニーズとバランスを取りながら、プロジェクトを完了させるにはどうするかを議論しているのを見ると、僕はすごく特別な気持ちになる。さらに、技術安全チームや推論チームのエンジニアも、製品が安全でありつつ実用的であるようにするにはどうすればいいかを議論している。このような統一された目標と、実務的な態度は、Anthropic の職場環境の中でもとても魅力的な点の 1 つだ。」
Dario Amodei:「**健全な組織文化とは、誰もが共通して直面するトレードオフを理解し、受け入れられることだ。**僕たちが生きている世界は完璧ではない。あらゆる意思決定は、異なる利害の間でバランスを取りながら行う必要があり、そのバランスが完全に満足できる形になることは多くない。でも、チーム全体が同じ目標のもとでトレードオフに向き合い、それぞれの立場から全体目標に力を提供できるなら、それが健全なエコシステムだ。」
**Sam McCandlish:「**ある意味で、これは「上への競争(upward competition)」だ。そう、「上への競争」だ。もちろん完全にリスクのない選択ではないし、物事がうまくいかない可能性もある。けれど僕らはみんな一致している。『これが僕たちの選んだ道だ』と。」
AI の頂点を競う
Jack Clark:「ただ、市場は本質的に実務的だから。Anthropic が会社として成功するほど、他の人は、僕たちが成功するのに役立ったやり方を真似したくなる。そして、僕たちの成功が安全分野での実際の取り組みと密接に結びついているなら、その成功が業界内に『引力』のようなものを生み、他の会社もこの競争に参加するようになる。たとえば、僕たちがシートベルトを開発したなら、他の会社も真似できる。そういう健康なエコシステムができる。」
Dario Amodei:「でももし『私たちはこの技術は開発しないし、あなたも他の人よりうまくできない』と言うなら、それは通用しない。あなたは、現状から未来へ至る道筋が現実的だと証明できていないからだ。必要なのは、業界全体でも一社でもいいから、社会が『技術が存在しない状態』から『強力な形で技術が存在し、社会によって効果的に管理されている状態』へ移行できる方法を見つけることだ。僕は、その目標を実現できる唯一の方法は、単一の会社のレベルで、さらには最終的には業界全体のレベルで、これらのトレードオフに真正面から向き合うことだと思う。」
**競争力を維持し、さらにはいくつかの領域では業界をリードしながら、技術の安全性も確保する方法を見つける必要がある。**それができれば、業界を惹きつける力は非常に強くなる。規制環境から、さまざまな会社から優秀な人材を採用したいという期待、さらには顧客の見方まで、すべての要因が業界を同じ方向へ押し進める。仮に、競争力を犠牲にせずに安全性を実現できること、つまりウィンウィンの解決策を見つけたことを示せれば、他の会社もインセンティブを得て同じやり方に倣う。
Jared Kaplan:「だからこそ、RSP のような仕組みが重要なんだと思う。僕たちは技術がどう進むかをはっきり見通せるようになる。そして、ある種の問題には強い警戒が必要だと理解する。一方で、『狼が来た』という誤った警報を出して、単純に『イノベーションはここで止めるべきだ』と言うわけにはいかない。僕たちが必要なのは、AI 技術が顧客にとって役に立ち、革新的で、しかも楽しい体験を提供しつつ、同時に守らなければならない制約条件を明確にすることだ。これらの条件はシステムの安全性を確実にし、さらに他の会社も『安全を前提として成功でき、しかも僕たちと競争できる』と信じられるようにする。」
Dario Amodei:「数か月後、僕たちが RSP を打ち出したのに合わせて、3 つの最も有名な AI 会社がそれぞれ似たような仕組みを導入した。説明可能性の研究もまた、僕たちのブレークスルー領域の 1 つだ。それに加えて、AI 安全研究機関とも協業している。安全への総合的な注目が、深いインパクトを与え始めている。」
Jack Clark:「そう。Frontier Red Team はほぼすぐに他の会社に模倣された。良いことだ。僕たちは、あらゆるラボが潜在的な高リスクの安全上の穴をテストしてくれることを望んでいる。」
Daniela Amodei:「Jack が前にも言ってたけど、顧客も安全をとても気にしている。顧客は、モデルが虚偽情報を出すことを望まないし、安全制限を簡単に回避されることも望まない。彼らは、モデルが役に立ち、害を与えないことを望んでいる。僕たちは顧客とのコミュニケーションで『Claude を選んだのは、より安全だと分かっているからだ』と言われることがよくある。これは市場への影響がとても大きいと思う。信頼できて堅牢なモデルを提供できていることで、競合他社にもかなりの市場圧をかけられる。」
Chris Olah:「Dario が今言った話をさらに広げられるかもしれない。『最も道徳的な行いは「崇高な失敗」だ』という考え方がある。つまり、安全のために他の目標を犠牲にして、さらに現実的ではない形で行動してみせることで、自分が事業に対して純粋だと示すべきだ、というものだ。でも僕は、それは実際には自滅的だと思う。」
まず、そうしたやり方は意思決定権を、安全を重視せず、安全を優先しない人たちに渡してしまう。反対に、あなたがうまくやるべきことは、インセンティブを整列させて、難しい決断を最も強く正しい決断を支持できる場所に置き、そして最も強い証拠に基づいて判断することだ。そうすれば、Dario が述べた「上への競争」を引き起こすことができる。この競争では、安全を気にする人が周縁化されるのではなく、他の人があなたの歩調に引き込まれて、この競争に参加することになる。
AI の未来を見据えて
Jack Clark:「それじゃあ、これから私たちがやることについて、みんなは何にワクワクしてますか?」
Chris Olah:「説明可能性にワクワクできる理由はたくさんあると思う。明らかなのは安全のため。でももう 1 つ、感情の面でも、それがすごくワクワクするし、意味のあることだと感じる理由がある。僕はニューラルネットワークは本当に美しいと思っている。そしてそこには、まだ僕たちが見つけていない美しさがたくさんある。僕たちは常にニューラルネットワークをブラックボックスとして扱っていて、中の構造にあまり関心がない。でも深く掘り下げ始めると、中は驚くべき構造で満ちていることが分かる。」
それは生物学を見たときの人の態度に少し似ている。進化は退屈だと感じる人もいて、「進化はただの単純なプロセスで、長い時間が経っただけで動物を生み出した」みたいに思う。でも実際には、進化が作り出したあらゆる動物は、信じられないほどの複雑さと構造を持っている。そして僕は、進化は最適化のプロセスだと思っている。ニューラルネットワークを訓練するのと同じだ。ニューラルネットワークの内部にも、「人工生物学」に似た複雑な構造が丸ごと存在する。深く研究すれば、驚くべきものがたくさん見つかる。
僕たちは、まだそのベールを少しずつめくり始めたばかりだと思う。驚くほどすごい世界で、発見すべきものが多すぎる。僕は、これからの発見はきっととてもエキサイティングで素晴らしいものになると思う。時々、10 年後に本屋に入って、ニューラルネットワークの説明可能性に関する教科書を買う、あるいはニューラルネットワークの「生物学」を本当に語っている本を買う光景を想像する。今後 10 年、いや数年で、僕たちは本格的にそうしたものを発見し始めるはずだ。そして、それはクレイジーで素晴らしい旅になると信じている。
Jack Clark:「数年前に、もし誰かが『政府は AI システムをテスト・評価するための新しい機関を設置し、それらの機関は非常に専門的で機能するだろう』と言ったら、あなたは信じなかったかもしれない。でもそれは起きている。言うなれば政府は、この新しい技術カテゴリに対応するための『新しい大使館』をすでに作っている。そこがどこへ向かうかを見てみたい。これはつまり、企業だけに頼らず、国家として社会の変化に対応する力があることを意味している。そこに参加できるのは嬉しい。」
Daniela Amodei:「僕は今それにすごくワクワクしている。でも、AI が人類にどんなことをできるかを想像しようとすると、ワクワクせずにはいられないと思う。今でも Claude が、ワクチン開発やがん研究、生物学研究を助けるような兆しが見えるだけでも信じられないほどだ。Claude が今できることを見ているだけでも驚きなのに、今後 3 年から 5 年を見通すと、特に健康分野で、人類が直面する根本的な問題を Claude が本当に解決し始めることを想像できて、すごくワクワクする。僕が国際開発の仕事をしていた頃を思い出すと、当時の自分の仕事が効率的に進まなかった部分を、Claude が助けてくれたらどれだけ素晴らしいだろうと思う。」
Tom Brown:「個人的には、仕事の中で Claude を使うのがとても好きだ。最近は家でも Claude といろいろ話していて、最近いちばん大きく変わったのはコードだ。6 か月前は僕は Claude をプログラミング関連の仕事に使っていなかったし、チームでもコードを書くのに Claude を使うことがほとんどなかった。でも今は状況が大きく変わった。たとえば先週、Y Combinator のイベントでスピーチをした。最初に僕はこう聞いた。『今 Claude を使ってプログラミングしている人は何人いる?』すると、ほぼ 95% の人が手を挙げた。ほとんど全員が手を挙げて、これは 4 か月前とは完全に違う。」
Dario Amodei:「僕がワクワクすることを考えると、たとえばさっき僕が言ったように、すでにコンセンサスになったように見えて、実はこれから崩れていくであろう場所がいくつかある。その 1 つが説明可能性だ。僕は説明可能性が、AI システムの安全を導く鍵であり、確実にする鍵だと思っている。それに加えて、知能の最適化の問題や、人間の脳がどう働くのかについての深い洞察も含んでい