Après deux incidents en une semaine, revenons sur la façon dont les sept co-fondateurs d'Anthropic parlaient de « sécurité » il y a un an.

Titre de la vidéo originale : Building Anthropic | Une conversation avec nos cofondateurs
Source de la vidéo originale : Anthropic
Compilation du texte original : 深潮 TechFlow

Résumé des points clés

Au cours de la semaine passée, Anthropic a connu deux incidents successifs :

D’abord, près de 3000 documents internes ont été rendus accessibles au public en raison d’une erreur de configuration du CMS ; ensuite, Claude Code v2.1.88, lors de sa publication sur npm, a inclus une source map de 59,8 Mo, et 510 000 lignes de code source se sont retrouvées exposées en clair.

Une entreprise qui a inscrit la « sécurité » dans ses gènes a enchaîné les gaffes dans ses propres opérations, et l’ironie est à son comble.

Mais avant de se précipiter pour se moquer, pourquoi ne pas revenir écouter une discussion interne d’il y a un an et demi, impliquant sept cofondateurs d’Anthropic. Ce podcast a été enregistré en décembre 2024. Les sept personnes y parlent de la manière dont cette entreprise a été créée, de la façon dont le RSP (Responsible Scaling Policy, traduction directe : « politique d’extension responsable ») a été façonné, de pourquoi le mot « sécurité » ne peut pas être utilisé à la légère, et de la phrase du CEO Dario, souvent citée :

« Si, dans un immeuble, l’alarme incendie sonne chaque semaine, alors c’est en fait un bâtiment très peu sûr. »

À présent, en réécoutant cette phrase, le goût n’est effectivement plus le même.

Sept cofondateurs, reconnaissance rapide

Dario Amodei|PDG, ancien vice-président de la recherche chez OpenAI, issu de la neuroscience, décideur final de la stratégie et de la ligne « sécurité » d’Anthropic. C’est la personne qui parle le plus dans cette discussion.

Daniela Amodei|Présidente, sœur de Dario. Elle a travaillé chez Stripe pendant cinq ans et demi, en dirigeant des équipes de confiance et de sécurité, et plus tôt dans les domaines de l’organisation à but non lucratif et du développement international. La structuration de l’organisation et la communication externe d’Anthropic sont pour l’essentiel pilotées par elle.

Jared Kaplan|Professeur de physique devenu chercheur en IA, auteur central de l’un des ouvrages fondamentaux sur les lois de l’échelle (scaling laws). Fournit souvent un jugement depuis le point de vue d’un « observateur extérieur » ; il dit qu’il faisait de l’IA parce que « la physique, il en avait fait le tour ».

Chris Olah|Figure de proue de la recherche en explicabilité (interpretability). Il est entré dans le milieu de l’IA de la baie à 19 ans, puis a travaillé successivement chez Google Brain et OpenAI. La personne chez Anthropic au plus fort penchant pour l’idéalisation technologique.

Tom Brown|Auteur principal du papier sur GPT-3 ; aujourd’hui, il gère les ressources de calcul d’Anthropic. Son point de vue est davantage orienté ingénierie et infrastructure ; dans le podcast, il raconte beaucoup le processus allant de « je ne crois pas que l’IA ira aussi vite » à « j’ai changé d’avis ».

Jack Clark|Ancien journaliste technique de Bloomberg, responsable des politiques et des affaires publiques chez Anthropic. Dans cette discussion, il joue le rôle de modérateur : il enchaîne les sujets et relance.

Sam McCandlish|Cofondateur en recherche. Il parle le moins, mais vise souvent juste avec une seule phrase, ce qui le range du côté « passe au couperet ».

Points de vue remarquables (résumé)

Pourquoi faire de l’IA : de la physique ennuyeuse à « une fois qu’on en a assez, on y croit »

Jared Kaplan : « J’ai fait de la physique pendant très longtemps, c’était un peu ennuyeux, et j’avais envie de travailler avec plus d’amis, alors j’ai fait de l’IA. »

Dario Amodei : « Je ne pense pas que j’aie jamais fait quelque chose qui te persuade clairement ; je t’ai juste montré des résultats de modèles d’IA. À un moment, je t’en ai montré assez, et tu as dit : “Eh bien, ça a l’air d’être juste.” »

Miser à contre-courant : la plupart des consensus sont un effet de troupeau déguisé en maturité

Jared Kaplan : « Beaucoup de chercheurs en IA ont été très durement marqués psychologiquement par l’hiver de l’IA, comme si avoir de l’ambition n’était pas autorisé. »

Dario Amodei : « Ma leçon la plus profonde des dix dernières années, c’est que : beaucoup de consensus “tout le monde sait” sont en réalité des effets de troupeau déguisés en maturité. Tu as déjà vu des fois où un consensus est renversé du jour au lendemain, puis tout le monde dit : “Non, on mise sur ça.” Même si tu n’as que 50 % raison, tu contribues quand même à beaucoup de choses que d’autres n’ont pas contribué. »

La sécurité et la mise à l’échelle sont entremêlées

Dario Amodei : « À l’époque, l’une des motivations pour agrandir les modèles, c’était que le modèle devait d’abord être suffisamment intelligent pour que le RLHF puisse fonctionner. C’est ce qu’on croit encore aujourd’hui : la sécurité et la mise à l’échelle sont entremêlées. »

RSP, la politique d’extension responsable : « la constitution » d’Anthropic

Tom Brown : « Pour Anthropic, le RSP, c’est comme notre “constitution”. C’est un document central qui guide, donc nous sommes prêts à y consacrer beaucoup de temps et d’efforts, pour l’affiner et l’améliorer encore et encore. »

Dario Amodei : « Le RSP empêche les plans qui ne répondent pas aux normes de sécurité de continuer à avancer. Nous ne parlons pas juste de slogans ; nous intégrons concrètement la sécurité à chaque étape. »

Trop d’alarmes incendie, et quand il y a vraiment le feu, plus personne ne court

Daniela Amodei : « Nous ne pouvons pas utiliser le mot “sécurité” pour piloter l’avancement du travail au hasard. Notre objectif réel est de faire en sorte que tout le monde comprenne clairement de quelle sécurité nous parlons. »

Dario Amodei : « Ce qui nuit vraiment à la sécurité, ce sont souvent les “exercices de sécurité” trop fréquents. Si un immeuble a une alarme incendie qui retentit chaque semaine, alors c’est en fait un immeuble très peu sûr. »

La “défaite noble” est un piège

Chris Olah : « On dit qu’un comportement le plus moral consiste à sacrifier d’autres objectifs au nom de la sécurité, afin de montrer la pureté de sa dévotion. Mais en réalité, cette approche mène à l’échec. Parce que cela entraîne le pouvoir décisionnel entre les mains de personnes qui ne valorisent pas la sécurité. »

Les cofondateurs s’engagent à donner 80 % des revenus

Tom Brown : « Nous nous engageons ensemble à faire don de 80 % de nos revenus à des causes capables de faire progresser la société : c’est une chose que tout le monde soutient sans hésitation. »

Personne ne veut créer une entreprise, mais on pense qu’il faut le faire

Sam McCandlish : « En fait, personne parmi nous n’avait l’envie, dès le départ, de fonder une société. Nous pensons simplement que c’est notre responsabilité, parce que c’est le seul moyen de garantir que le développement de l’IA avance dans la bonne direction. »

Daniela Amodei : « Notre mission est à la fois claire et pure, et ce genre de situation n’est pas courant dans le secteur technologique. »

Explicabilité : “une bio-ingénierie artificielle” cachée dans les réseaux de neurones

Chris Olah : « Les réseaux de neurones sont vraiment fascinants, et il y a beaucoup de beauté qu’on n’a pas encore vue. Parfois, j’imagine qu’il y a dix ans, en entrant dans une librairie, on achèterait un manuel sur la biologie des réseaux de neurones, avec plein de contenus étonnants. »

L’IA pour renforcer la démocratie, et non devenir un outil de dictature

Dario Amodei : « Nous craignons que si l’IA est développée à tort, elle puisse devenir un outil au service de l’autoritarisme. Comment faire en sorte que l’IA devienne un outil pour promouvoir la liberté et l’autodétermination ? L’importance de ce domaine n’est en rien inférieure à celle de la biologie et de l’explicabilité. »

De réunions à la Maison-Blanche aux prix Nobel : l’impact de l’IA dépasse depuis longtemps le cercle technologique

Jared Kaplan : « En 2018, tu n’aurais pas imaginé que le président t’appellerait à la Maison-Blanche pour te dire qu’ils surveillaient les modèles de langage. »

Dario Amodei : « Nous avons déjà vu le prix Nobel de chimie attribué à AlphaFold. Nous devrions développer des outils capables de nous aider à en créer des centaines d’AlphaFold. »

Pourquoi étudier l’IA ?

Jack Clark : Pourquoi, au début, voulait-on faire de l’IA ? Jared, pourquoi toi tu as fait de l’IA ?

Jared Kaplan : « J’ai fait de la physique pendant très longtemps, c’était un peu ennuyeux, et j’avais envie de travailler avec plus d’amis, alors j’ai fait de l’IA. »

Tom Brown : « Je pensais que c’était Dario qui t’avait convaincu. »

Dario Amodei : « Je ne pense pas que j’aie fait une “connaissance” explicite qui t’ait convaincu ; je t’ai juste montré des résultats de modèles d’IA, pour montrer qu’ils sont très généraux et qu’ils ne s’appliquent pas qu’à un seul problème. À un moment, je t’en ai montré assez, et tu as dit : “Eh bien, ça a l’air d’être juste.” »

Jack Clark : Chris, quand tu faisais de la recherche en explicabilité, c’était à la suite de tes rencontres à Google ?

Chris Olah : « Non. En fait, quand j’ai eu 19 ans et que je suis arrivé pour la première fois dans la baie, j’ai rencontré déjà pas mal de personnes d’entre vous. À l’époque, j’ai rencontré Dario et Jared : ils étaient post-doctorants, et moi, je trouvais ça incroyablement cool. Ensuite, chez Google Brain, quand Dario est arrivé, on s’est assis côte à côte un moment, et j’ai aussi travaillé avec Tom. Puis, plus tard, quand je suis allé chez OpenAI, j’ai travaillé avec vous tous. »

Jack Clark : « Je me souviens qu’en 2015, lors d’une conférence, j’ai rencontré Dario parce qu’il voulait me faire une interview. Et Google PR m’a dit que je devais d’abord lire tous tes articles. »

Dario Amodei : « À ce moment-là, j’écrivais chez Google “Concrete Problems in AI Safety”. »

Sam McCandlish : « J’ai commencé à travailler avec toi, et tu m’as même invité au bureau pour discuter, comme si tu m’avais donné un tour d’ensemble sur l’IA. Je me souviens qu’après la discussion, je me suis dit : “Ah, c’est beaucoup plus sérieux que ce que je pensais.” Tu avais parlé du “gros blob de calcul”, du nombre de paramètres, de l’échelle des neurones du cerveau… »

Développement d’expansion novateur

Jack Clark : Je me souviens qu’à OpenAI, quand on faisait du scaling laws et qu’on a commencé à agrandir les modèles, cela a vraiment commencé à fonctionner. Et puis, sur beaucoup de projets, ça a continué à fonctionner de façon persistante et étrange, de GPT-2 aux scaling laws jusqu’à GPT-3, et on a continué de se rapprocher comme ça.

Dario Amodei : « Nous sommes simplement ce groupe de personnes qui “réussissent à faire que ça marche”. »

Jared Kaplan : « On était aussi très excités par la sécurité. À l’époque, il y avait une idée : l’IA va être très puissante, mais peut-être qu’elle ne comprendra pas les valeurs humaines, voire qu’elle ne pourra pas communiquer avec nous. Les modèles de langage peuvent, dans une certaine mesure, garantir qu’ils comprennent un grand nombre de connaissances implicites. »

Dario Amodei : « Et puis, avec le RLHF par-dessus les modèles de langage. L’une des motivations pour agrandir les modèles était à l’époque que le modèle devait d’abord être suffisamment intelligent pour que le RLHF puisse fonctionner. C’est ce qu’on croit encore aujourd’hui : la sécurité et la mise à l’échelle sont entremêlées. »

Chris Olah : « Oui. À l’époque, le travail de scaling faisait en réalité aussi partie de l’équipe sécurité. Parce qu’on pensait que pour faire en sorte que les gens prennent la sécurité au sérieux, il faut d’abord être capable de prédire les tendances de l’IA. »

Jack Clark : Je me souviens que j’étais dans un aéroport au Royaume-Uni. J’ai fait un échantillonnage depuis GPT-2 pour écrire de fausses nouvelles, puis je l’ai envoyé à Dario sur Slack en disant : « Ça marche vraiment, ça peut avoir un énorme impact en matière de politiques. » Et je me souviens que la réponse de Dario était : « Oui, c’est vrai. »

Ensuite, nous avons aussi fait beaucoup de travaux liés aux publications, et c’était complètement fou.

Daniela Amodei : « Je me souviens de la partie liée au lancement ; c’était la première fois qu’on collaborait vraiment, et GPT-2 a été lancé à l’époque. »

Jack Clark : « Je pense que ça nous a beaucoup aidés. On a d’abord fait quelque chose ensemble : une action “un peu étrange, mais orientée sécurité”. Ensuite, on a fait ensemble Anthropic, une action à plus grande échelle, toujours “un peu étrange, mais orientée sécurité”. »

Le stade de démarrage de l’IA

Tom Brown : « Revenons à cet article “Concrete Problems”. J’ai rejoint OpenAI en 2016. À ce moment-là, toi et moi faisions partie des tout premiers. J’ai senti que cet article ressemblait au tout premier grand papier grand public sur la sécurité de l’IA. D’où ça vient ? »

Dario Amodei : « Chris sait, il a participé. À l’époque, chez Google, j’ai oublié ce que mon projet principal était. Je pense que c’est un retard que j’ai pris qui m’a fait écrire ça. »

Nous voulions écrire quels étaient les problèmes ouverts en matière de sécurité de l’IA. À l’époque, la sécurité de l’IA était toujours présentée de manière très abstraite. Nous voulions la ramener à la ML réelle de l’époque. Maintenant, cela fait déjà six ou sept ans que l’on travaille sur cette ligne ; mais à l’époque, c’était juste une idée étrange.

Chris Olah : « Je pense que, dans un certain sens, c’est presque un projet politique. À cette époque, beaucoup de gens ne prenaient pas la sécurité au sérieux. Nous voulions organiser une liste de questions raisonnables et acceptées par tous. Beaucoup de choses existaient déjà dans la littérature, puis nous avons trouvé des personnes crédibles avec une certaine autorité institutionnelle, pour co-signer ensemble. »

Je me souviens que j’ai passé beaucoup de temps à discuter avec plus de vingt chercheurs de Brain, pour obtenir du soutien pour la publication. Si on regarde uniquement le problème lui-même, le fait est qu’aujourd’hui, en regardant en arrière, on ne peut pas dire que tout soit forcément valable : ce n’était peut-être pas exactement les bonnes questions. Mais si on le considère comme une construction de consensus : prouver “il y a de vrais problèmes ici et ça vaut la peine d’y prêter attention sérieusement”, alors c’était un moment important.

Jack Clark : « Au final, tu vas te retrouver dans un monde de science-fiction assez particulier. Je me souviens qu’au début d’Anthropic, on parlait de Constitutional AI. Et Jared a dit : “On écrit une constitution aux modèles de langage, et alors ils se comportent.” À l’époque, ça semblait totalement fou. Pourquoi vous avez pensé que c’était faisable ? »

Jared Kaplan : « J’en ai discuté longuement avec Dario. Je pense que dans l’IA, des méthodes simples fonctionnent souvent extrêmement bien. La première version était plutôt complexe ; puis on l’a progressivement réduite. À la fin, ça s’est résumé à : utiliser le fait que le modèle sait bien faire des QCM ; lui donner des instructions claires lui disant quoi chercher, et c’est suffisant. Ensuite, on peut écrire les principes directement. »

Dario Amodei : « Ça revient au “The Big Blob of Compute”, à la “The Bitter Lesson” et à l’“Scaling Hypothesis” :** tant que tu peux donner à l’IA un objectif clair et des données, elle peut apprendre. Une série d’instructions, une série de principes : le modèle de langage peut les lire, et aussi les comparer à son propre comportement ; l’objectif d’entraînement est là.** Donc, la façon de voir de Jared et moi, c’est qu’on peut y arriver : il suffit de répéter les détails. »

Jared Kaplan : « Pour moi, au début, c’était assez étrange. Je viens de la physique. Aujourd’hui, tout le monde est excité par l’IA, et il est facile d’oublier l’ambiance d’à l’époque. À l’époque, j’ai discuté de tout ça avec Dario, et je sentais que beaucoup de chercheurs en IA avaient été très blessés psychologiquement par l’hiver de l’IA : comme si “avoir de l’ambition” n’était pas autorisé. En parler sur la sécurité exige d’abord de croire que l’IA peut être très forte, très utile… mais à l’époque, il y avait une sorte de prohibition contre l’ambition. Un avantage des physiciens, c’est “l’arrogance” : ils font souvent des choses très ambitieuses, et ils ont l’habitude de parler de grands panoramas. »

Dario Amodei : « Je pense que c’est vrai. En 2014, beaucoup de choses ne pouvaient pas être dites. Et c’est aussi un problème courant dans le monde académique : en dehors de certains domaines, les institutions se sont de plus en plus mises à détester les risques. L’IA industrielle a hérité de cette mentalité ; je pense que ce n’est sorti de là qu’aux alentours de 2022. »

Chris Olah : « Et puis il y a “deux formes” de “conservatisme”. L’une consiste à prendre les risques au sérieux ; l’autre à considérer le fait de prendre au sérieux les risques et de croire que l’idée pourrait marcher comme une forme d’arrogance. À l’époque, on était dominés par la seconde. Historiquement, dans les discussions de la physique nucléaire en 1939, il y avait aussi un schéma similaire : Fermi était réticent, tandis que Szilard ou Teller prenaient davantage au sérieux les risques. »

Dario Amodei : « Ma leçon la plus profonde des dix dernières années : beaucoup de consensus “tout le monde sait” sont en fait des effets de troupeau déguisés en maturité. Tu as déjà vu des consensus renversés quelques fois du jour au lendemain, puis tu dis : “Non, on mise sur ça.” Peut-être que ce n’est pas forcément exact, mais ignorer le bruit pour parier. Même si tu n’as que 50 % raison, tu contribues à beaucoup de choses que d’autres n’ont pas contribué. »

Changement d’attitude du public envers l’intelligence artificielle

Jared Kaplan : « Aujourd’hui, sur certains sujets de sécurité, c’est pareil. Le consensus extérieur estime que beaucoup de problèmes de sécurité ne peuvent pas “naître naturellement” de la technique, mais ce que nous avons vu en faisant de la recherche chez Anthropic, c’est que oui, ça “naît” bien naturellement. »

Daniela Amodei : « Mais ces 18 derniers mois, tout ça est en train de changer, et l’émotion du monde face à l’IA évolue aussi clairement. Quand nous menons des recherches utilisateurs, nous entendons beaucoup plus souvent les inquiétudes des utilisateurs ordinaires concernant l’impact global de l’IA sur le monde. »

Parfois, il s’agit du travail, des biais, de la toxicité ; parfois, c’est : « est-ce qu’elle va mettre le monde dans le désordre, et changer la manière dont les humains collaborent ». En fait, je n’avais pas totalement anticipé tout ça.

Sam McCandlish : « Je ne sais pas pourquoi, mais le milieu de la recherche en ML est souvent plus pessimiste que le public face à l’idée que “l’IA va devenir vraiment très forte”. »

Jared Kaplan : « En 2023, Dario et moi sommes allés à la Maison-Blanche. Dans les discussions, Harris et Raimondo, en gros, voulaient dire : “On vous observe. L’IA est un gros sujet. On fait très attention, on suit sérieusement.” Mais en 2018, tu n’aurais pas imaginé que “le président allait appeler quelqu’un à la Maison-Blanche pour lui dire qu’il surveillait les modèles de langage”. »

Tom Brown : « Ce qui est intéressant, c’est que beaucoup d’entre nous sont entrés dans le sujet alors qu’il semblait encore incertain. Comme Fermi vis-à-vis de la bombe atomique : il avait des doutes. Il y avait des preuves que la bombe pouvait être fabriquée, mais aussi beaucoup de preuves qu’elle ne le serait pas ; et pourtant, il a finalement décidé d’essayer. Parce que si c’était vrai, l’impact serait énorme, donc ça valait la peine. »

De 2015 à 2017, il y avait des preuves — et de plus en plus — que l’IA pourrait être une affaire majeure. En 2016, j’ai discuté avec mon directeur : j’avais déjà fait de l’entrepreneuriat, je voulais faire de la sécurité de l’IA, mais je n’étais pas assez fort en mathématiques, je ne savais pas quoi faire. À l’époque, certains disaient : « Tu dois maîtriser la théorie de la décision. » D’autres disaient : « Il ne se produira pas d’événement d’IA folle ; il y a très peu de personnes qui soutiennent vraiment ça. »

Jack Clark : « En 2014, quand je faisais des reportages sur la tendance ImageNet, on me prenait pour un fou. En 2015, quand je voulais écrire sur NVIDIA parce que les papiers proposaient des GPU, on m’a aussi traité de fou. En 2016, quand j’ai quitté le journalisme pour aller vers l’IA, il y avait des mails disant : “Tu as fait l’erreur la plus importante de ta vie.” Vue sous beaucoup d’angles, parier sérieusement sur “la mise à l’échelle va finir par marcher”, ça ressemblait effectivement à de la folie. »

Jared Kaplan : « Comment t’as décidé ? Tu doutais ? »

Jack Clark : « J’ai fait un pari en sens inverse : leur demander de m’embaucher en tant que journaliste IA à plein temps, et de doubler mon salaire. Je savais qu’ils ne diraient pas oui. Puis je me suis couché, j’ai dormi, et le lendemain matin, j’ai démissionné. Parce que je lisais des dossiers tous les jours, et je sentais toujours qu’il se passait quelque chose de fou : un événement très important, et à un moment donné tu dois faire un pari avec une forte conviction. »

Tom Brown : « Moi, je n’étais pas aussi tranché. J’ai hésité six mois. »

Daniela Amodei : « Et à l’époque, l’idée que “les ingénieurs peuvent aussi pousser significativement l’IA” n’était pas courante. À l’époque, c’était : “seuls les chercheurs peuvent faire de l’IA”. Donc ton hésitation n’est pas surprenante. »

Tom Brown : « Puis OpenAI a dit : “Tu peux aider à la sécurité de l’IA via l’ingénierie.” C’est ce qui m’a fait rejoindre. Daniela, tu étais mon manager chez OpenAI. Pourquoi toi tu as rejoint ? »

Daniela Amodei : « J’étais chez Stripe depuis cinq ans et demi. Greg était mon patron. J’ai aussi présenté Greg et Dario l’un à l’autre. À l’époque, Greg créait OpenAI, et je lui ai dit : “Les personnes les plus intelligentes que je connaisse, c’est Dario. Si tu arrives à le faire rejoindre ton équipe, alors c’est vraiment ta chance.” Puis Dario a rejoint OpenAI. »

Peut-être comme toi, je réfléchissais aussi à ce que je pourrais faire après être partie de Stripe. Si je suis entrée chez Stripe, c’est parce qu’auparavant, quand je travaillais dans des organisations à but non lucratif et dans le développement international, je pensais avoir besoin d’apprendre davantage de compétences. En fait, je croyais encore que je retournerais finalement dans ce domaine.

Avant de rejoindre Stripe, je ne pensais pas avoir les capacités suffisantes pour aider des personnes qui étaient dans une situation moins favorable que la mienne. Donc je m’intéressais à d’autres entreprises technologiques, en espérant trouver une nouvelle manière d’avoir un impact plus important. Et à cette époque, OpenAI m’a semblé être un excellent choix : c’est une organisation à but non lucratif, qui vise à atteindre un objectif très important, et à grande portée.

J’ai toujours cru au potentiel de l’IA. Et je connaissais un peu Dario. De plus, ils avaient vraiment besoin de quelqu’un pour les aider à gérer. Donc je pense que ce poste collait très bien à mon parcours. Je me disais alors : « C’est une institution à but non lucratif. On y trouve un groupe de personnes très remarquables, avec de grandes visions, mais leur fonctionnement semble un peu chaotique. » Et c’est précisément ce défi qui m’a rendue excitée, parce que je pouvais rejoindre cet effort.

À l’époque, je me sentais comme une “généraliste” : non seulement je gérais des membres de l’équipe, mais je devais aussi mener certains projets techniques, et gérer l’expansion de l’organisation. Je m’occupais du travail d’extension de l’organisation, j’ai aussi travaillé avec l’équipe linguistique, puis j’ai pris en charge d’autres tâches. J’ai aussi participé à certains dossiers liés aux politiques, et j’ai collaboré avec Chris. Je pensais qu’il y avait beaucoup de talents formidables dans l’entreprise, et cela m’a donné encore plus envie d’y entrer pour aider l’entreprise à devenir plus efficace et plus structurée.

Jack Clark : « Je me souviens qu’après GPT-3, tu as dit : “Vous connaissez trust and safety ?” »

Daniela Amodei : « J’avais déjà dirigé une équipe trust and safety chez Stripe. Pour un sujet comme celui-ci, vous devriez prendre en compte la question de confiance et de sécurité. Il s’agit essentiellement d’un pont entre la recherche sur la sécurité de l’intelligence artificielle (AI Safety Research) et un travail quotidien plus pragmatique : autrement dit, comment rendre les modèles vraiment sûrs. »

Soutenir l’idée que cette technologie aura, à l’avenir, un impact majeur est important. En même temps, nous devons mener au quotidien des tâches plus concrètes, afin d’asseoir les bases pour affronter des scénarios à risques plus élevés par la suite.

Politique d’extension responsable : assurer un développement sûr de l’IA

Jack Clark : « On peut justement parler de la façon dont la politique d’extension responsable (RSP, Responsible Scaling Policy) a été proposée : pourquoi nous y avons pensé, comment nous l’appliquons maintenant, surtout en tenant compte du travail que nous faisons actuellement sur la confiance et la sécurité des modèles. Alors, qui a proposé en premier ce RSP (Responsible Scaling Policy) ? »

Dario Amodei : « Au départ, c’était moi et Paul Christiano. C’était vers la fin de 2022. L’idée initiale était : est-ce qu’on devrait temporairement limiter le modèle avant de l’étendre à une taille donnée, jusqu’à ce qu’on trouve une méthode pour résoudre certains problèmes de sécurité ? »

Mais ensuite, nous avons trouvé que le fait de limiter l’extension à un certain point puis de la relâcher par la suite, c’était un peu étrange. Donc nous avons décidé de définir une série de seuils : chaque fois que le modèle atteint un seuil, il faut effectuer une série de tests pour évaluer s’il possède les capacités de sécurité correspondantes.

À chaque seuil atteint, nous devons adopter des mesures de sécurité et de garanties plus strictes. Cependant, au tout début, nous avions une idée : ce serait peut-être mieux si c’était exécuté par un tiers. Autrement dit, cette stratégie ne devrait pas être portée uniquement par une seule entreprise, sinon d’autres entreprises ne seraient pas disposées à l’adopter. C’est donc Paul qui a conçu personnellement cette stratégie. Bien sûr, avec le temps, beaucoup de détails ont aussi évolué. De notre côté, notre équipe continue d’étudier comment faire fonctionner cette stratégie de manière encore meilleure.

Quand Paul a structuré et concrétisé ce concept, il a presque été en train d’en annoncer la naissance en même temps que nous publiions notre propre version, dans un délai d’un ou deux mois. En réalité, beaucoup de membres de notre équipe ont participé en profondeur à tout ce processus. Je me souviens d’avoir écrit au moins une ébauche ; et le document a ensuite connu de nombreuses révisions.

Tom Brown : « Pour Anthropic, le RSP, c’est comme notre “constitution”. C’est un document central qui guide, donc nous sommes prêts à investir énormément de temps et d’efforts pour le polir et garantir sa précision et son exhaustivité. »

Daniela Amodei : « Je trouve que, dans le développement d’Anthropic, le RSP est vraiment très intéressant. Il traverse plusieurs étapes, et sa mise en œuvre nécessite aussi des compétences très différentes. Par exemple, certaines grandes idées sont principalement prises en charge par Dario, Paul, Sam et Jared : ils réfléchissent à “quelles sont nos règles fondamentales ? quel message voulons-nous transmettre ? comment déterminer si notre direction est correcte ?” »

Mais en plus de cela, il y a aussi un travail très pratique au niveau opérationnel : au fil des itérations, nous évaluons et ajustons certains détails. Par exemple, nous avions prévu d’atteindre certains objectifs à un certain niveau de sécurité, mais s’ils n’étaient pas atteints, nous réévaluions et nous veillions à pouvoir répondre de nos résultats de travail.

En outre, il y a aussi beaucoup d’ajustements liés à l’organisation. Par exemple, nous avons décidé de repenser la structure organisationnelle du RSP afin de mieux répartir les responsabilités. J’aime beaucoup l’analogie avec une constitution pour décrire l’importance de ce document. Tout comme les États-Unis, pour garantir l’application de la Constitution, ont mis en place tout un ensemble de systèmes et d’institutions : tribunaux, Cour suprême, président, chambres du Congrès, etc. Même si ces institutions ont aussi d’autres responsabilités, leur existence est largement destinée à faire vivre la Constitution, et le RSP d’Anthropic traverse un processus similaire.

Sam McCandlish : « Je pense que cela reflète notre vision fondamentale de la sécurité : la sécurité est quelque chose qui se résout. C’est une tâche très complexe et difficile, qui nécessite d’y consacrer énormément de temps et d’efforts. »

Comme dans le domaine de la sécurité automobile, les institutions et systèmes associés ont été construits au fil de nombreuses années. Mais le problème auquel nous faisons face aujourd’hui est : avons-nous assez de temps pour faire tout ça ? Donc nous devons, autant que possible, identifier rapidement les institutions clés dont la sécurité de l’IA a besoin, et les établir en premier chez nous, tout en s’assurant qu’elles pourront être reprises et promues ailleurs.

Dario Amodei : « Cela aide aussi à l’unification de la collaboration en interne. Parce que si une partie quelconque de l’organisation agit d’une manière qui ne correspond pas à nos valeurs de sécurité, le RSP exposera le problème d’une certaine manière, n’est-ce pas ? Le RSP empêchera alors ces plans qui ne respectent pas les standards de sécurité de continuer. Ainsi, il devient aussi un outil qui rappelle constamment à chacun de faire de la sécurité une exigence fondamentale dans le processus de développement et de planification des produits. Nous ne parlons pas de slogans ; nous intégrons concrètement la sécurité dans chaque étape. Si quelqu’un rejoint l’équipe et n’arrive pas à s’approprier ces principes, il constatera qu’il ne peut pas s’intégrer. Soit il s’adapte à cette direction, soit il se rend compte qu’il lui sera difficile de continuer. »

Jack Clark : « Avec le temps, le RSP devient de plus en plus important. Nous y avons consacré des milliers d’heures, et quand j’explique le RSP à des sénateurs, je leur dis : “Nous avons mis en place des mesures pour que notre technologie ne soit pas facile à détourner, tout en garantissant la sécurité.” Leur réaction est généralement : “Ça a l’air tout à fait normal. Est-ce que toutes les entreprises ne font pas ça ?” Ce qui m’amuse un peu et me met aussi mal à l’aise : en réalité, ce n’est pas le cas. »

Daniela Amodei : « En plus, je pense que le RSP renforce la transparence de l’entreprise, au-delà de l’alignement des valeurs au sein des équipes. Parce qu’il consigne clairement quels sont nos objectifs, chacun à l’intérieur de l’entreprise peut comprendre, et en même temps les acteurs externes peuvent aussi savoir clairement quels sont nos objectifs et notre direction en matière de sécurité. Même si ce n’est pas encore parfait, nous ne cessons de l’optimiser et de l’améliorer. »

Je pense qu’il faut clairement dire : « Quels sont les problèmes fondamentaux sur lesquels nous nous concentrons ». On ne peut pas utiliser “sécurité” n’importe comment pour piloter l’avancement du travail, par exemple : « à cause des problèmes de sécurité, on ne peut pas faire quelque chose » ou « à cause des problèmes de sécurité, on doit absolument faire quelque chose ». Notre objectif réel est de faire en sorte que tout le monde comprenne ce que nous entendons par “sécurité”.

Dario Amodei : « Sur le long terme, ce qui nuit vraiment à la sécurité, ce sont souvent les “exercices de sécurité” trop fréquents. Je l’ai déjà dit : “Si, dans un immeuble, l’alarme incendie sonne chaque semaine, alors c’est en fait un immeuble très peu sûr.” Parce que quand un vrai incendie se produit, peut-être que personne n’y fera attention. Nous devons donc accorder une attention très stricte à la précision et à l’étalonnage des alarmes. »

Chris Olah : « Si on regarde sous un autre angle, je pense que le RSP crée, à beaucoup d’endroits, des mécanismes d’incitation sains. Par exemple, en interne, le RSP aligne les mécanismes d’incitation de chaque équipe avec les objectifs de sécurité. Cela veut dire qu’ si nous n’avançons pas suffisamment sur la sécurité, les travaux concernés seront stoppés. »

Et en externe aussi, le RSP peut davantage créer des incitations saines que d’autres méthodes. Par exemple, si un jour nous devons prendre des mesures majeures — admettre : « nos modèles ont atteint un certain stade, mais nous ne pouvons pas encore garantir leur sécurité » — alors le RSP fournit un cadre clair et des preuves qui soutiennent cette décision. Ce cadre existe à l’avance, et il est clair et facile à comprendre. Quand je repense aux discussions sur la première version du RSP, je n’avais pas pleinement conscience de son potentiel ; mais aujourd’hui, je pense qu’il est effectivement plus efficace que d’autres méthodes que je pouvais imaginer. »

Jared Kaplan : « Je suis d’accord avec ces points, mais je pense que cela sous-estime les défis auxquels nous faisons face en formulant les bonnes politiques, en définissant les critères et en traçant les limites. Nous avons déjà fait beaucoup d’itérations dans ces domaines, et nous continuons encore d’optimiser. Un problème difficile, c’est que, pour certaines technologies émergentes, il est parfois compliqué de déterminer clairement si elles sont dangereuses ou sûres. Souvent, on se heurte à une grande zone grise. Ces défis m’ont énormément excité au début du développement du RSP, et c’est encore le cas aujourd’hui. Mais en même temps, je me rends compte que le fait de déployer clairement cette stratégie et qu’elle fonctionne réellement est plus complexe et plus difficile que ce que j’imaginais au départ. »

Sam McCandlish : « Les zones grises ne peuvent pas être prédites parfaitement, parce qu’elles sont partout. Ce n’est qu’en commençant vraiment à la mettre en œuvre que tu découvres où se trouvent les problèmes. Donc notre objectif, c’est de mettre en œuvre tout le plus tôt possible, pour qu’on puisse découvrir au plus vite les problèmes potentiels. »

Dario Amodei : « Tu dois faire trois ou quatre itérations pour vraiment arriver à quelque chose de parfait. L’itération est un outil très puissant : tu ne peux presque jamais être totalement juste du premier coup. Donc si les risques augmentent, tu dois finir ces itérations le plus tôt possible, plutôt que d’attendre la dernière minute. »

Jack Clark : « En même temps, tu dois aussi mettre en place des institutions et des processus internes. Bien que les détails précis puissent évoluer avec le temps, c’est la capacité d’exécution de l’équipe qu’il faut cultiver, et c’est le plus important. »

Tom Brown : « Je suis responsable de la gestion des ressources de calcul chez Anthropic. Pour moi, nous devons communiquer avec des parties prenantes externes : différentes personnes externes ont des visions différentes de la vitesse de progression de la technologie. Au début, je pensais aussi que la technologie n’allait pas évoluer aussi vite, mais ensuite j’ai changé d’avis. Je peux donc le comprendre très bien. Je trouve que le RSP m’est particulièrement utile, notamment quand je discute avec des personnes qui pensent que la technologie évoluera plutôt lentement. On peut leur dire : “Tant que la technologie n’est pas arrivée à un niveau d’urgence, nous n’avons pas besoin de prendre des mesures de sécurité extrêmes.” S’ils disent : “Je pense que les choses ne deviendront pas urgentes avant longtemps”, je peux répondre : “D’accord, alors nous n’avons pas besoin de mesures de sécurité extrêmes pour le moment.” Cela rend la communication avec l’extérieur beaucoup plus fluide. »

Jack Clark : « Alors, dans quels autres domaines le RSP a-t-il eu un impact sur tout le monde ? »

Sam McCandlish : « Tout tourne autour de l’évaluation. Chaque équipe fait des évaluations. Par exemple, ton équipe d’entraînement fait aussi tout le travail d’évaluation. On essaie de déterminer si le modèle est devenu suffisamment puissant pour qu’il puisse présenter des dangers. »

Daniela Amodei : « Concrètement, cela signifie qu’on doit mesurer la performance du modèle selon les standards du RSP : vérifier s’il existe des signes qui pourraient nous inquiéter. »

Sam McCandlish : « Évaluer la capacité minimale d’un modèle est relativement facile, mais évaluer sa capacité maximale est beaucoup plus difficile. Donc nous avons investi énormément d’efforts de recherche pour essayer de répondre à des questions comme : “Ce modèle peut-il effectuer certaines tâches dangereuses ? Est-ce qu’il existe des méthodes que nous n’avons pas encore prises en compte, comme des cartes mentales (mind maps), le meilleur scénario (best event), ou l’utilisation de certains outils — est-ce que cela pourrait permettre au modèle d’exécuter des comportements très dangereux ?” »

Jack Clark : « Dans le processus d’élaboration des politiques, ces outils d’évaluation sont très utiles. Parce que “la sécurité” est une notion très abstraite. Et quand je dis : “Nous avons un outil d’évaluation, il décide si nous pouvons déployer ce modèle ou non”, alors nous pouvons travailler avec les décideurs politiques, des experts de la sécurité nationale et des spécialistes des domaines CBRN (chimique, biologique, radiologique et nucléaire) pour définir des critères d’évaluation précis. Sans ces outils concrets, cette collaboration pourrait tout simplement ne pas être possible. Mais une fois qu’il existe des standards clairs, les gens sont plus disposés à s’impliquer et à nous aider à nous assurer que c’est exact. Donc, sur ce point, le rôle du RSP est très significatif. »

Daniela Amodei : « Pour moi aussi, le RSP est très important, et il affecte souvent mon travail. Ce qui est intéressant, c’est que je pense au RSP d’une manière un peu spéciale : davantage à partir de son “ton”, de la façon dont il s’exprime. Récemment, nous avons considérablement ajusté le ton du RSP, parce que celui d’avant était trop technique, et même avec une sensation d’opposition. J’ai passé beaucoup de temps à réfléchir à la manière de construire un système que les gens auront envie de rejoindre et d’utiliser. »

Si le RSP était un document que tout le monde dans une entreprise pourrait comprendre facilement, ce serait bien mieux. Comme nos OKR (Objectifs et Résultats Clés) actuels : par exemple, quels sont les principaux objectifs du RSP ? Comment sait-on si on les a atteints ? À quel niveau se situe l’ASL (AI Safety Level) actuel ? Est-ce ASL-2 ou ASL-3 ? Si chacun sait sur quoi il faut se concentrer, alors la détection des problèmes potentiels devient plus facile. Au contraire, si le RSP est trop technique, et que seuls quelques personnes peuvent le comprendre, son utilité réelle sera fortement réduite.

Je suis ravi de voir que le RSP évolue vers quelque chose de plus facile à comprendre. À l’heure actuelle, je pense que la majorité des personnes dans l’entreprise, voire peut-être tout le monde, peu importe leur poste, peuvent lire le document et se dire : « C’est raisonnable. J’espère développer l’IA guidé par ces principes, et je comprends aussi pourquoi il faut prêter attention à ces questions. Si je rencontre un problème dans mon travail, je sais à peu près quoi surveiller. » Nous voulons rendre le RSP suffisamment simple pour que, comme ceux qui travaillent dans une usine de fabrication, ils puissent juger facilement : « la ceinture de sécurité doit être attachée ici, mais ce n’est pas le cas actuellement. » Et ainsi détecter le problème à temps.

Le point clé est de mettre en place un mécanisme de feedback sain, afin que la direction, le conseil d’administration, les autres départements de l’entreprise et les équipes qui font réellement la recherche et le développement puissent échanger de manière fluide. Je pense que la plupart des problèmes surviennent souvent à cause d’un manque de communication, ou d’une transmission d’information qui dévie. Si un problème apparaît uniquement pour ces raisons, ce serait vraiment regrettable, n’est-ce pas ? Au final, ce qu’il faut faire, c’est mettre concrètement en pratique ces idées, et s’assurer qu’elles sont simples et claires, afin que chacun puisse les comprendre.

L’histoire de la création d’Anthropic

Sam McCandlish : « En fait, personne parmi nous n’avait l’envie, dès le départ, de créer une entreprise. On pense juste que c’est notre responsabilité : nous devons agir. Parce que c’est la seule façon de garantir que le développement de l’IA avance dans la bonne direction. C’est pour ça que nous avons fait cette promesse. »

Dario Amodei : « Mon idée initiale était simple : j’avais envie d’inventer et d’explorer de nouvelles choses d’une manière utile. Cette idée m’a conduit vers le domaine de l’IA. Et la recherche en IA a besoin d’un énorme soutien en ingénierie, et, au final, d’un énorme financement. »

Cependant, j’ai découvert qu’en l’absence d’un objectif clair et d’une planification pour établir une entreprise et gérer l’environnement, beaucoup de choses peuvent être accomplies, mais elles risquent de reproduire les mêmes erreurs de l’industrie technologique qui m’ont toujours tenu à distance. Ces erreurs viennent souvent des mêmes personnes, des mêmes attitudes et des mêmes schémas de pensée. Donc à un moment donné, je me suis dit que nous devions faire ça d’une toute nouvelle manière ; et c’était presque inévitable.

Jared Kaplan : « Tu te souviens qu’à l’école doctorale, tu avais un plan complet, essayant d’explorer comment la recherche scientifique pourrait promouvoir l’intérêt public. Je trouve que c’est très similaire à notre approche actuelle. Je me souviens qu’à l’époque, tu avais un projet appelé “Project Vannevar”, dont l’objectif était de faire justement ça. À l’époque, j’étais professeur. J’ai observé la situation et j’étais convaincu que l’impact de l’IA augmente à une vitesse extrêmement rapide. »

Cependant, à cause du besoin de financement très élevé de la recherche en IA, et aussi parce que j’étais professeur de physique, je me suis rendu compte que je ne pouvais pas pousser ces progrès uniquement avec de la recherche académique. Je voulais pouvoir construire une institution avec des personnes dignes de confiance, pour s’assurer que le développement de l’IA progresse dans la bonne direction. Mais franchement, je ne recommande jamais à quelqu’un de créer une entreprise, et je n’ai jamais eu envie de le faire. Pour moi, ce n’est qu’un moyen d’atteindre un objectif. Je pense que, généralement, la clé du succès, c’est de vraiment se soucier de réaliser un objectif qui compte pour le monde, puis de trouver le meilleur moyen de réaliser cet objectif.

Comment construire une culture de confiance

Daniela Amodei : « Je réfléchis souvent à nos avantages stratégiques en tant qu’équipe. L’un des facteurs, même s’il peut sembler un peu inattendu, mais qui est vraiment crucial, c’est notre niveau de confiance très élevé entre nous. Faire en sorte qu’un grand groupe partage une mission commune, c’est extrêmement difficile. Mais chez Anthropic, nous arrivons à transmettre ce sentiment de mission à de plus en plus de personnes. Dans cette équipe — y compris la direction et tous les membres — tout le monde se rassemble grâce à une mission commune. Notre mission est à la fois claire et pure ; dans le secteur technologique, ce genre de situation n’est pas courant. »

Je pense que nous nous efforçons d’atteindre un objectif empreint d’un sens profondément pur. Personne ne s’est mis à faire ça parce qu’il voulait créer une entreprise. On pense juste qu’il fallait le faire. On ne pouvait pas continuer à avancer nos travaux dans notre lieu d’origine ; il fallait que nous le fassions nous-mêmes.

Jack Clark : « À ce moment-là, avec l’arrivée de GPT-3 et tous les projets auxquels nous avons été exposés ou dans lesquels nous avons été impliqués, par exemple les scaling laws, on voyait déjà en 2020, de façon très claire, la tendance du développement de l’IA. On a compris que si on ne prenait pas des mesures rapidement, on pourrait bientôt atteindre un point critique irréversible. Il fallait agir pour pouvoir impacter cet environnement. »

Tom Brown : « Je veux prolonger la vision de Daniela : je pense qu’il existe vraiment un niveau de confiance très élevé entre les membres de l’équipe. Chacun sait pourquoi il a rejoint : c’est pour contribuer au monde. Nous avons aussi un engagement commun : donner 80 % de nos revenus à des causes qui peuvent faire progresser la société. C’est une chose que tout le monde soutient sans hésiter : “Oui, bien sûr, nous le ferons.” Cette confiance est vraiment spéciale et rare. »

Daniela Amodei : « Je pense qu’Anthropic est une entreprise très peu marquée par une dimension politique. Bien sûr, notre point de vue peut être différent de celui des gens ordinaires, et je me le rappelle tout le temps. Je pense que nos processus de recrutement et les qualités des membres de l’équipe rendent la culture ici presque naturellement imperméable à la “politique de bureau”. »

Dario Amodei : « Il y a aussi la cohésion de l’équipe. La cohésion est essentielle. Qu’il s’agisse des équipes produit, recherche, confiance et sécurité, marketing ou politiques : tout le monde travaille ensemble pour atteindre le même objectif de l’entreprise. Quand, au sein de l’entreprise, différents départements poursuivent des objectifs complètement différents, cela mène souvent au chaos. Et s’ils pensent que les autres départements sabotent leur travail, c’est encore plus anormal. »

Je pense que l’une de nos réalisations les plus importantes, c’est de réussir à maintenir la cohérence globale de l’entreprise. Mécanismes comme le RSP jouent un rôle très important. Ce mécanisme garantit que ce ne sont pas seulement certains départements qui fabriquent des problèmes pendant que d’autres essaient de les réparer, mais que tous les départements remplissent leurs fonctions tout en collaborant dans un cadre unifié de théorie du changement (theory of change).

Chris Olah : « J’ai rejoint OpenAI au départ parce que c’était une organisation à but non lucratif : je pouvais me concentrer sur la recherche en sécurité de l’IA. Mais au fil du temps, j’ai progressivement découvert que ce modèle ne me convenait pas parfaitement. Cela m’a aussi forcé à prendre des décisions difficiles. Dans ce processus, j’avais une grande confiance dans les jugements de Dario et de Daniela, mais je ne voulais pas partir. Parce que je pensais que créer plus de laboratoires d’IA n’était peut-être pas forcément bénéfique pour le monde — et ça m’a rendu extrêmement hésitant à l’idée de quitter. »

Quand nous avons finalement décidé de partir, j’étais encore réservé quant à l’idée de fonder une entreprise. J’avais plaidé pour créer une organisation à but non lucratif axée sur la recherche en sécurité. Mais notre approche plus pragmatique et notre franchise sur les contraintes du monde réel nous ont fait comprendre que la création d’Anthropic était la meilleure façon d’atteindre nos objectifs.

Dario Amodei : « Une leçon importante que nous avons apprise tôt : faire moins de promesses et tenir davantage les promesses. Rester réaliste et affronter les arbitrages, parce que la confiance et la crédibilité comptent plus que n’importe quelle politique spécifique. »

Daniela Amodei : « Ce qui est unique chez Anthropic, c’est la confiance très élevée et l’unité de l’équipe. Par exemple, quand je vois que Mike Krieger refuse de publier certains produits pour des raisons de sécurité, et que je vois en même temps Vinay discuter comment équilibrer les besoins business pour mener un projet à terme, je trouve ça très particulier. De plus, dans l’équipe sécurité technique, et parmi les ingénieurs de l’équipe d’inférence, ils discutent ensemble de la manière de garantir que les produits soient à la fois sûrs et utiles. Ce sentiment d’un objectif commun et cette approche pragmatique, c’est l’une des choses les plus attirantes de l’environnement de travail chez Anthropic. »

Dario Amodei : « Une culture organisationnelle saine, c’est quand chacun comprend et accepte les arbitrages auxquels nous faisons tous face. Le monde dans lequel nous vivons n’est pas parfait ; chaque décision nécessite de trouver un équilibre entre différents intérêts, et cet équilibre n’est souvent pas totalement satisfaisant. Cependant, tant que l’équipe entière peut affronter ces arbitrages ensemble sous une même mission, et contribuer, depuis ses postes respectifs, à l’objectif global, alors c’est un écosystème sain. »

Sam McCandlish : « D’une certaine manière, c’est une “course vers le haut” (a competition upward). Oui, c’est bien une “course vers le haut”. Même si ce n’est pas un choix sans risque — les choses peuvent mal tourner — nous sommes tous d’accord sur ceci : “C’est le choix que nous faisons.” »

La course au sommet de l’IA

Jack Clark : « Mais le marché est, par nature, pragmatique. Donc, plus Anthropic est une réussite en tant qu’entreprise, plus les autres auront envie de copier les méthodes qui nous ont permis de réussir. Et quand notre succès est étroitement lié à notre travail concret dans le domaine de la sécurité, ce succès crée une “attraction” dans l’industrie, poussant aussi d’autres entreprises à participer à cette compétition. C’est comme si nous avons développé la ceinture de sécurité : d’autres peuvent s’en inspirer. C’est un écosystème sain. »

Dario Amodei : « Mais si tu dis : “Nous ne développerons pas cette technologie, et tu ne peux pas faire mieux que les autres.” Cette approche ne marche pas. Parce que tu n’as pas prouvé que le chemin qui va de l’actuel vers le futur est praticable. Ce dont le monde a besoin — que ce soit l’industrie ou une entreprise donnée — c’est de trouver une façon de faire passer la société de l’état “la technologie n’existe pas” à l’état “la technologie existe sous une forme puissante, et elle est efficacement gérée par la société”. Je pense que la seule manière de réaliser cet objectif, c’est d’affronter ces arbitrages au niveau d’une entreprise, et même, à terme, au niveau de l’ensemble de l’industrie. »

Tu dois trouver une méthode qui te permette de rester compétitif, voire de montrer la voie dans certains domaines, tout en assurant la sécurité de la technologie. Si tu y parviens, ton attractivité pour l’industrie sera extrêmement forte. Du cadre réglementaire, à la capacité d’attirer des talents excellents de différentes entreprises, jusqu’aux perceptions des clients : tous ces facteurs poussent l’industrie dans la même direction. Et si tu peux prouver que tu peux atteindre la sécurité sans sacrifier la compétitivité — autrement dit, trouver des solutions gagnant-gagnant — alors les autres entreprises seront aussi incitées à imiter cette façon de faire.

Jared Kaplan : « Je pense que c’est exactement pour cela que des mécanismes comme le RSP sont si importants. On peut voir clairement la direction de développement de la technologie, et comprendre qu’il faut rester très vigilant sur certains problèmes. Mais en même temps, il faut éviter les erreurs de type “au loup” : ne pas simplement dire “l’innovation doit s’arrêter ici”. On doit trouver une manière d’offrir à nos clients une expérience utile, innovante et agréable, tout en précisant clairement les contraintes que nous devons respecter : elles doivent assurer la sécurité des systèmes, et aussi donner confiance aux autres entreprises pour qu’elles pensent qu’elles aussi peuvent réussir sous l’exigence de sécurité, et rivaliser avec nous. »

Dario Amodei : « Quelques mois plus tard, après que nous ayons lancé le RSP, les trois entreprises d’IA les plus connues ont aussi publié des mécanismes similaires. L’explicabilité de la recherche est aussi un autre domaine où nous avons réalisé une percée. En plus, nous avons collaboré avec des organisations de recherche en sécurité de l’IA : cette attention globale à la sécurité a un impact profond. »

Jack Clark : « Oui. Le Frontier Red Team a été copié presque immédiatement par d’autres entreprises. C’est une bonne chose : on veut que tous les laboratoires puissent tester les vulnérabilités de sécurité à haut risque. »

Daniela Amodei : « Jack a aussi mentionné que les clients se soucient énormément de la sécurité. Les clients ne veulent pas que le modèle génère de fausses informations, et ne veulent pas non plus qu’il soit facile de contourner les limites de sécurité. Ils veulent un modèle utile et inoffensif. Dans nos échanges avec les clients, on entend souvent qu’ils disent : “Nous choisissons Claude parce que nous savons qu’il est plus sûr.” Je pense que cela a un énorme impact sur le marché. Nous pouvons fournir des modèles dignes de confiance et fiables, ce qui met aussi une pression commerciale non négligeable sur les concurrents. »

Chris Olah : « On peut peut-être développer davantage le point de vue que Dario a évoqué. Il existe une idée selon laquelle le comportement le plus moral, c’est la “défaite noble” : tu sacrifies d’autres objectifs au nom de la sécurité, et même d’une manière irréaliste, pour montrer la pureté de ta dévotion. Mais je pense que cette façon de faire est en réalité auto-sabotante. »

D’abord, cette façon de faire conduit le pouvoir décisionnel entre les mains de personnes qui ne valorisent pas la sécurité, ou qui ne la priorisent pas. Et d’un autre côté, si tu cherches activement une manière d’aligner les incitations, de placer les décisions difficiles là où elles sont soutenues avec le plus de force, et de prendre ces décisions sur la base des preuves les plus solides, alors tu peux déclencher la “course vers le haut” décrite par Dario. Dans cette course, ce ne sont pas les gens qui se soucient de la sécurité qui sont marginalisés ; ce sont les autres qui sont forcés de suivre ton rythme et de se joindre à cette course.

Regarder vers l’avenir de l’intelligence artificielle

Jack Clark : « Alors, par rapport à ce que nous devons faire ensuite, qu’est-ce qui vous enthousiasme tous ? »

Chris Olah : « Je pense qu’il y a beaucoup de raisons de s’enthousiasmer pour l’explicabilité. Une, c’est évidemment pour la sécurité. Mais il y a une autre raison : sur le plan émotionnel, je trouve ça pareillement excitant, ou même profondément significatif — parce que je pense que les réseaux de neurones sont magnifiques, et qu’il y a beaucoup de beauté qu’on n’a pas encore vue. On considère toujours les réseaux de neurones comme une boîte noire, et on ne s’intéresse pas particulièrement à leur structure interne. Mais quand tu commences à les étudier en profondeur, tu découvres à l’intérieur une quantité de structures étonnantes. »

C’est un peu comme la façon dont les gens envisagent la biologie. Certains peuvent penser : « l’évolution, c’est ennuyeux : c’est juste un processus simple, ça dure très longtemps, puis ça crée des animaux. » Mais en réalité, chaque animal créé par l’évolution est rempli d’une complexité incroyable et de structures. Et je pense que l’évolution est un processus d’optimisation, un peu comme l’entraînement d’un réseau de neurones. À l’intérieur d’un réseau de neurones, il y a aussi toute une série de structures complexes, semblables à une “bio-ingénierie artificielle”. Si tu acceptes d’aller les étudier en profondeur, tu trouveras beaucoup de choses étonnantes.

Je pense qu’on ne fait que commencer à soulever petit à petit le voile. C’est tellement incroyable ; il y a tellement de choses en dedans qui attendent d’être découvertes. On ne fait que commencer à ouvrir la porte ; et je pense que les découvertes qui viennent seront extraordinaires. Parfois, j’imagine qu’il y a dix ans, en entrant dans une librairie, on achèterait un manuel sur l’explicabilité des réseaux de neurones, ou un livre qui parle vraiment de “la biologie” des réseaux de neurones, et qu’il y aurait plein de contenus étonnants. Je crois qu’au cours des dix prochaines années, voire même des quelques prochaines années, on commencera à vraiment découvrir ces choses ; ce sera un voyage fou et merveilleux.

Jack Clark : « Il y a quelques années, si quelqu’un t’avait dit : “Le gouvernement va créer de nouvelles institutions pour tester et évaluer les systèmes d’IA, et ces institutions seront très professionnelles et agiront vraiment”, tu n’aurais probablement pas cru que c’était vrai. Mais ça s’est produit. On peut dire que le gouvernement a déjà mis en place une “nouvelle ambassade” pour faire face à cette nouvelle catégorie de technologies. Je suis impatient de voir où ça va mener. Je pense que cela signifie, en fait, que les pays ont la capacité de gérer une telle transition sociale, et pas seulement en s’appuyant sur les entreprises. Je suis heureux de pouvoir contribuer à cela. »

Daniela Amodei : « Je suis moi aussi excité par ça maintenant. Mais si on imagine simplement ce que l’IA peut faire pour l’humanité à l’avenir, il est difficile de ne pas s’enflammer. Même maintenant, les indices que Claude pourrait aider à développer des vaccins, mener des recherches sur le cancer et des recherches en biologie, c’est déjà incroyable. Voir ce qu’elle peut déjà faire est stupéfiant ; et quand je me projette vers les trois à cinq prochaines années, imaginer que Claude puisse réellement résoudre de nombreux problèmes fondamentaux auxquels les humains font face — en particulier dans le domaine de la santé — me rend vraiment enthousiaste. En repensant à mes jours de travail dans le développement international : si Claude avait pu m’aider à accomplir, à l’époque, un travail inefficace, ce serait tellement impressionnant. »

Tom Brown : « D’un point de vue personnel, j’aime beaucoup utiliser Claude dans mon travail. Récemment, j’en utilise aussi souvent à la maison pour discuter de choses. Le plus grand changement récent, c’est le code. Il y a six mois, je n’avais jamais utilisé Claude pour faire quoi que ce soit lié à la programmation. Notre équipe utilisait aussi très peu Claude pour écrire du code, mais maintenant ça a changé de manière significative. Par exemple, la semaine dernière, j’ai fait une présentation lors d’un événement chez Y Combinator. Au début, j’ai demandé : “Combien de personnes utilisent Claude pour programmer ?” Et presque 95 % des gens ont levé la main. Presque tout le monde l’a fait ; c’est complètement différent de ce qui se passait il y a quatre mois. »

Dario Amodei : « Quand je pense aux choses qui m’excitent, je pense à quelque chose que j’ai déjà mentionné : même si une forme de consensus semble s’être formée, en réalité, ce consensus est en train d’être sur le point d’être brisé. L’un des éléments, c’est l’explicabilité. Je pense que l’explicabilité n’est pas seulement un point clé pour guider et garantir la sécurité des systèmes d’IA ; elle inclut aussi des aperçus profonds sur les problèmes d’optimisation de l’intelligence et sur la façon dont le cerveau humain fonctionne. J’ai déjà dit que Chris Olah recevra un prix Nobel de médecine. »

Parce que j’ai été une neuroscientifique, et que de nombreuses maladies psychologiques que nous n’avons pas encore résolues — par exemple la schizophrénie ou les troubles émotionnels — je les soupçonne liées à un problème de niveau supérieur de systèmes. Cependant, à cause de la complexité du cerveau humain et de son caractère difficile à étudier directement, ces problèmes sont difficiles à comprendre complètement. Les réseaux de neurones ne sont pas une analogie parfaite, mais ils sont moins difficiles à interpréter et à interagir que le cerveau humain. Avec le temps, les réseaux de neurones deviendront un outil d’analogie plus utile.

Un autre domaine connexe, c’est l’usage de l’IA en biologie. La biologie est un problème extrêmement complexe. Pour de multiples raisons, les

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler