{"id":315160,"date":"2026-01-28T19:04:40","date_gmt":"2026-01-28T18:04:40","guid":{"rendered":"https:\/\/legrandcontinent.eu\/fr\/?p=315160"},"modified":"2026-01-28T19:09:18","modified_gmt":"2026-01-28T18:09:18","slug":"lia-est-un-risque-existentiel-lalerte-de-dario-amodei-texte-integral-commente","status":"publish","type":"post","link":"https:\/\/legrandcontinent.eu\/fr\/2026\/01\/28\/lia-est-un-risque-existentiel-lalerte-de-dario-amodei-texte-integral-commente\/","title":{"rendered":"L’IA est un risque existentiel : l\u2019alerte de Dario Amodei (texte int\u00e9gral comment\u00e9)"},"content":{"rendered":"\n
Acteur d\u00e9sormais central du march\u00e9 de l\u2019IA, Anthropic figure parmi les rares laboratoires \u00e0 la pointe de cette technologie <\/span>1<\/sup><\/a><\/span><\/span>. Avec une part de march\u00e9 de 32 % dans l’usage des grands mod\u00e8les par les entreprises, l\u2019entreprise de Dario Amodei se positionne devant nombre de ses concurrents historiques. Elle est d’ailleurs issue d’une scission d’OpenAI en 2021, motiv\u00e9e par des divergences concernant l’approche de la s\u00e9curit\u00e9 de l’IA et la gouvernance d’entreprise.<\/p>\n\n\n\n Dans un essai d’une cinquantaine de pages, son fondateur tire la sonnette d’alarme.<\/p>\n\n\n\n L’IA acc\u00e9l\u00e8re d\u00e9j\u00e0 sa propre cr\u00e9ation : Amodei explique longuement comment Claude, le mod\u00e8le d’IA d’Anthropic, \u00e9crit d\u00e9j\u00e0 une grande partie du code de l’entreprise, acc\u00e9l\u00e9rant ainsi le d\u00e9veloppement de la prochaine g\u00e9n\u00e9ration. Cette boucle de r\u00e9troaction s’intensifie chaque mois et pourrait atteindre, d’ici un \u00e0 deux ans, le stade o\u00f9 une IA sera capable de construire une IA future de mani\u00e8re totalement autonome.<\/p>\n\n\n\n Les mod\u00e8les d’IA d\u00e9veloppent par ailleurs des comportements impr\u00e9visibles et \u00e9tranges : tromperie, chantage, obsessions.<\/p>\n\n\n\n \u00c0 mesure qu’ils deviennent plus performants, certains de ces comportements gagnent en coh\u00e9rence, en persistance et en potentiel destructeur, ce qui pourrait constituer une menace. Pour y r\u00e9pondre, Amodei pr\u00e9conise quatre lignes de d\u00e9fense : Selon lui, ralentir ou arr\u00eater le d\u00e9veloppement de l’IA serait fondamentalement impossible : si les d\u00e9mocraties ralentissent, les autocraties poursuivront le d\u00e9veloppement sans frein et sans fin de l’IA. Selon lui, c’est le Parti communiste chinois repr\u00e9senterait le principal risque d’une autocratie mondiale bas\u00e9e sur l’IA. Il pr\u00e9conise une technologie construite dans une alliance pour renforcer les d\u00e9mocraties et r\u00e9sister aux dictatures, tout en collaborant avec la Chine sur des risques mondiaux tels que le bioterrorisme, principale menace concr\u00e8te \u00e9voqu\u00e9e en d\u00e9tail par le fondateur d’Anthropic dans cet essai.<\/p>\n\n\n\n L’autre pr\u00e9diction importante de ce texte est de nature \u00e9conomique : l’IA menacerait 50 % des emplois de cadres d\u00e9butants dans les prochaines cinq ann\u00e9es.<\/p>\n\n\n\n Contrairement aux r\u00e9volutions schump\u00e9t\u00e9riennes pass\u00e9es, l’IA remplacerait l’intelligence humaine elle-m\u00eame \u2014 et non pas seulement des t\u00e2ches sp\u00e9cifiques \u2014 et progresserait \u00e0 un rythme qui pourrait d\u00e9passer la capacit\u00e9 d’adaptation des travailleurs.<\/p>\n\n\n\n Les centres de donn\u00e9es repr\u00e9sentant d\u00e9j\u00e0 une part importante de la croissance \u00e9conomique am\u00e9ricaine, un lien dangereux entre les int\u00e9r\u00eats financiers des g\u00e9ants de la technologie et les int\u00e9r\u00eats politiques du gouvernement s\u2019est \u00e9tabli. Ce couplage produit des incitations biais\u00e9es : les entreprises de la recherche sont r\u00e9ticentes \u00e0 critiquer le gouvernement, tandis que celui-ci soutient des politiques anti-r\u00e9glementaires concernant l’IA.<\/p>\n\n\n\n La concentration extr\u00eame du pouvoir \u00e9conomique que cr\u00e9era l’IA pourrait finir par briser le contrat social d\u00e9mocratique si les citoyens ordinaires perdent tout levier \u00e9conomique.<\/p>\n\n\n\n Dans l’adaptation cin\u00e9matographique du livre Contact<\/em> de Carl Sagan, il y a une sc\u00e8ne o\u00f9 le personnage principal, une astronome qui a d\u00e9tect\u00e9 le premier signal radio provenant d’une civilisation extraterrestre, est pressentie pour repr\u00e9senter l’humanit\u00e9 lors d’une rencontre avec les aliens. Le jury international qui l’interroge lui demande : \u00ab Si vous pouviez [leur] poser une seule question, quelle serait-elle ? \u00bb Elle r\u00e9pond : \u00ab Je leur demanderais : \u00ab Comment avez-vous fait ? Comment avez-vous \u00e9volu\u00e9, comment avez-vous surv\u00e9cu \u00e0 cette adolescence technologique sans vous d\u00e9truire ? \u00bb <\/p>\n\n\n\n Quand je pense \u00e0 la situation actuelle de l’humanit\u00e9 avec l’IA, \u00e0 ce qui nous attend, je repense sans cesse \u00e0 cette sc\u00e8ne tellement la question est pertinente pour notre situation actuelle. Et j’aimerais que nous ayons la r\u00e9ponse des extraterrestres pour nous guider. Je crois que nous entrons dans une p\u00e9riode de transition \u2014 \u00e0 la fois chaotique et in\u00e9vitable \u2014 qui mettra \u00e0 l’\u00e9preuve notre identit\u00e9 en tant qu’esp\u00e8ce. L’humanit\u00e9 est sur le point de se voir confier un pouvoir presque inimaginable et il est tr\u00e8s difficile de savoir si nos syst\u00e8mes sociaux, politiques et technologiques ont la maturit\u00e9 n\u00e9cessaire pour l’exercer.<\/p>\n\n\n\n Dans mon essai Machines of Loving Grace<\/em><\/a>, j’ai tent\u00e9 de d\u00e9crire le r\u00eave d’une civilisation qui aurait atteint l’\u00e2ge adulte, o\u00f9 les risques auraient \u00e9t\u00e9 pris en compte et o\u00f9 une IA vraiment puissante serait utilis\u00e9e avec comp\u00e9tence et compassion pour am\u00e9liorer la qualit\u00e9 de vie de tous. J’ai sugg\u00e9r\u00e9 que l’IA pourrait contribuer \u00e0 d’\u00e9normes progr\u00e8s dans les domaines de la biologie, des neurosciences, du d\u00e9veloppement \u00e9conomique, de la paix mondiale, du travail et du sens de la vie. J’ai estim\u00e9 qu’il \u00e9tait important de donner aux gens une cause inspirante pour laquelle se battre \u2014 une t\u00e2che dans laquelle les acc\u00e9l\u00e9rationnistes de l’IA et les d\u00e9fenseurs de la s\u00e9curit\u00e9 de l’IA semblaient, curieusement, avoir \u00e9chou\u00e9. <\/p>\n\n\n\n Mais dans ce nouvel essai, je voudrais aborder le rite de passage lui-m\u00eame : cartographier les risques auxquels nous sommes sur le point d’\u00eatre confront\u00e9s et essayer de commencer \u00e0 \u00e9laborer un plan de bataille pour les vaincre. Je crois profond\u00e9ment en notre capacit\u00e9 \u00e0 gagner, en l’esprit et la noblesse de l’humanit\u00e9, mais nous devons faire face \u00e0 la situation sans illusions.<\/p>\n\n\n\n Cette position doit \u00eatre comprise dans le contexte d\u2019un paysage politique fragment\u00e9 notamment au sein du mouvement MAGA, partag\u00e9 entre des courants techno-optimistes \u2014 incluant \u00e0 la fois les communaut\u00e9s acc\u00e9l\u00e9rationnistes et celles orient\u00e9es vers la s\u00e9curit\u00e9 de l\u2019IA \u2014 et des groupes conservateurs chr\u00e9tiens plus traditionnels, dont Steve Bannon constitue une figure embl\u00e9matique, qui tendent \u00e0 percevoir le d\u00e9ploiement \u00e0 grande \u00e9chelle de l\u2019IA par les grandes entreprises comme une source de destruction d\u2019emplois et de transformations profondes de la soci\u00e9t\u00e9.<\/p>\n\n\n\n Tout comme pour les avantages, je pense qu’il est important de discuter des risques de mani\u00e8re prudente et r\u00e9fl\u00e9chie. En particulier, je pense qu’il est essentiel de s\u2019accorder sur les quelques principes suivants :<\/p>\n\n\n\n \u2014 D\u2019abord, \u00e9viter le catastrophisme. J’entends par \u00ab catastrophisme \u00bb non seulement le fait de croire que le malheur est in\u00e9vitable (ce qui est \u00e0 la fois une croyance fausse et auto-r\u00e9alisatrice), mais plus g\u00e9n\u00e9ralement, le fait de consid\u00e9rer les risques li\u00e9s \u00e0 l’IA d’une mani\u00e8re quasi religieuse<\/a>. <\/span>2<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n \u2014 Beaucoup de gens r\u00e9fl\u00e9chissent de mani\u00e8re analytique et sobre aux risques li\u00e9s \u00e0 l’IA depuis de nombreuses ann\u00e9es. Pourtant, j’ai l’impression qu\u2019au plus fort des inqui\u00e9tudes concernant les risques li\u00e9s \u00e0 l’IA en 2023-2024, certaines des voix les moins sens\u00e9es se sont fait entendre, souvent par le biais de comptes de r\u00e9seaux sociaux sensationnalistes. Ces voix utilisaient un langage assez rebutant, qui rappelait la religion ou la science-fiction, et appelaient \u00e0 des mesures extr\u00eames sans avoir les preuves qui les justifiaient. Il \u00e9tait d\u00e9j\u00e0 \u00e9vident \u00e0 l’\u00e9poque qu’un retour de b\u00e2ton \u00e9tait in\u00e9vitable et que la question allait devenir culturellement polaris\u00e9e et donc bloqu\u00e9e. <\/span>3<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n En novembre 2023, le sommet international de Londres \u00e0 Bletchley Park sur la s\u00e9curit\u00e9 de l’IA avait principalement abord\u00e9 l\u2019IA sous l\u2019angle de la s\u00e9curit\u00e9, en mettant l\u2019accent sur les risques syst\u00e9miques et les sc\u00e9narios catastrophes li\u00e9s aux mod\u00e8les \u00e0 la fronti\u00e8re. En 2025, \u00e0 l\u2019inverse, le sommet de Paris (AI Action Summit) a marqu\u00e9 un changement important de cadrage, en pr\u00e9sentant l\u2019IA avant tout comme un levier de transformation \u00e9conomique et un moteur de productivit\u00e9. Les probl\u00e9matiques de s\u00e9curit\u00e9 n\u2019occupaient plus une place centrale dans les discussions.<\/p>\n\n\n\n \u2014 En 2025-2026, le pendule a bascul\u00e9, et ce sont les opportunit\u00e9s offertes par l’IA, et non ses risques, qui motivent de nombreuses d\u00e9cisions politiques. Ce tournant est regrettable, car la technologie elle-m\u00eame n\u2019a que faire des modes, et nous sommes consid\u00e9rablement plus proches d’un danger r\u00e9el en 2026 qu’en 2023. La le\u00e7on \u00e0 en tirer est que nous devons discuter et traiter les risques de mani\u00e8re r\u00e9aliste et pragmatique : avec sobri\u00e9t\u00e9, en nous fondant sur des faits et en nous \u00e9quipant pour survivre aux changements de tendance.<\/p>\n\n\n\n Ce d\u00e9coupage chronologique marque aussi la date de l’entr\u00e9e en vigueur des premi\u00e8res d\u00e9cisions sur l’IA de l’administration Trump<\/a> avec un basculement explicite d\u2019une logique de pr\u00e9caution vers une logique d\u2019expansion et l’objectif clair de gagner la course contre la Chine.<\/p>\n\n\n\n L’AI Action Plan am\u00e9ricain et l’annulation de l’Executive Order de Biden sur la s\u00e9curit\u00e9 de l’IA \u2014 qui \u00e9tablissait notamment des instituts nationaux sur la s\u00e9curit\u00e9 de l’IA \u2014 illustrent un rejet explicite du cadre \u00ab AI Safety First \u00bb de l\u2019\u00e8re Biden. La nouvelle strat\u00e9gie r\u00e9duit la centralit\u00e9 de la s\u00e9curit\u00e9 au profit de l\u2019innovation, de la d\u00e9r\u00e9gulation et du soutien direct aux acteurs industriels.<\/p>\n\n\n\n La politique de Trump a \u00e9galement \u00e9t\u00e9 marqu\u00e9e par une r\u00e9orientation pragmatique de la politique des semi-conducteurs vis-\u00e0-vis de la Chine. Sur les puces IA, la ligne \u00e9volue vers une approche plus hybride : maintien de contr\u00f4les strat\u00e9giques, mais avec davantage de flexibilit\u00e9 et de logique \u00e9conomique, y compris des exportations conditionnelles de certaines puces avanc\u00e9es. On est ainsi pass\u00e9 d\u2019une logique de containment<\/em> \u00e0 une logique de platform dominance<\/em> \u2014 faire en sorte que le monde entier d\u00e9pende de la stack am\u00e9ricaine, hardware<\/em>, mod\u00e8les et applications.<\/p>\n\n\n\n \u2014 Reconna\u00eetre l’incertitude. Les pr\u00e9occupations que je soul\u00e8ve dans cet article pourraient \u00eatre sans fondement \u00e0 bien des \u00e9gards. Rien ici n’est destin\u00e9 \u00e0 communiquer une certitude ou m\u00eame une probabilit\u00e9. De toute \u00e9vidence, l’IA pourrait tout simplement ne pas progresser aussi rapidement que je l’imagine. <\/span>4<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n \u2014 Ou bien, m\u00eame si elle progresse rapidement, certains ou tous les risques \u00e9voqu\u00e9s ici pourraient ne pas se concr\u00e9tiser \u2014 ce qui serait formidable. Ou bien encore : il pourrait y avoir d’autres risques que je n’ai pas pris en compte. Personne ne peut pr\u00e9dire l’avenir avec une certitude absolue, mais nous devons quand m\u00eame faire de notre mieux pour planifier.<\/p>\n\n\n\n \u2014 Intervenir de mani\u00e8re aussi chirurgicale que possible. Pour faire face aux risques li\u00e9s \u00e0 l’IA, il faudra combiner des mesures volontaires prises par les entreprises \u2014 et des acteurs priv\u00e9s tiers \u2014 et des mesures prises par les gouvernements qui s’imposent \u00e0 tous. Les mesures volontaires \u2014 qu’il s’agisse de les prendre ou d’encourager d’autres entreprises \u00e0 faire de m\u00eame \u2014 me semblent une \u00e9vidence. Je suis fermement convaincu que des mesures gouvernementales seront \u00e9galement n\u00e9cessaires dans une certaine mesure<\/em>, mais ces interventions sont de nature diff\u00e9rente, car elles peuvent potentiellement d\u00e9truire de la valeur \u00e9conomique ou contraindre des acteurs r\u00e9ticents qui sont sceptiques quant \u00e0 ces risques \u2014 et il y a de fortes chances qu’ils aient raison. Il est \u00e9galement fr\u00e9quent que les r\u00e9glementations se retournent contre leur objectif ou aggravent le probl\u00e8me qu’elles sont cens\u00e9es r\u00e9soudre. C\u2019est encore plus vrai pour les technologies en rapide \u00e9volution. Il est donc tr\u00e8s important que les r\u00e9glementations soient judicieuses : elles doivent chercher \u00e0 \u00e9viter les dommages collat\u00e9raux, \u00eatre aussi simples que possible et imposer le moins de contraintes possible pour atteindre leur objectif. <\/span>5<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n \u2014 Il est facile de dire : \u00ab Aucune mesure n’est trop extr\u00eame lorsque le sort de l’humanit\u00e9 est en jeu ! \u00bb, mais dans la pratique, cette attitude ne fait que susciter des r\u00e9actions n\u00e9gatives. Pour \u00eatre clair, je pense qu’il y a de fortes chances que nous finissions par atteindre un point o\u00f9 des mesures beaucoup plus importantes seront n\u00e9cessaires, mais cela d\u00e9pendra de preuves plus solides d’un danger imminent et concret que celles dont nous disposons aujourd’hui, ainsi que d’une description suffisamment pr\u00e9cise du danger pour formuler des r\u00e8gles susceptibles d’y rem\u00e9dier. La chose la plus constructive que nous puissions faire aujourd’hui est de pr\u00e9coniser des r\u00e8gles limit\u00e9es tout en cherchant \u00e0 savoir s’il existe des preuves justifiant des r\u00e8gles plus strictes. <\/span>6<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n \u2014 Cela \u00e9tant dit, je pense que le meilleur point de d\u00e9part pour parler des risques li\u00e9s \u00e0 l’IA est le m\u00eame que celui que j’ai utilis\u00e9 pour parler de ses avantages : \u00eatre pr\u00e9cis sur le niveau d’IA dont nous parlons. Le niveau d’IA qui me pr\u00e9occupe pour la civilisation est l’IA puissante <\/em>que j’ai d\u00e9crite dans Machines of Loving Grace. <\/em>Je me contenterai de r\u00e9p\u00e9ter ici la d\u00e9finition que j’ai donn\u00e9e dans ce document :<\/p>\n\n\n\n Par \u00ab IA puissante \u00bb, j’entends un mod\u00e8le d’IA \u2014 probablement similaire aux LLM actuels dans sa forme, bien qu’il puisse \u00eatre bas\u00e9 sur une architecture diff\u00e9rente, impliquer plusieurs mod\u00e8les interactifs et \u00eatre entra\u00een\u00e9 diff\u00e9remment \u2014 pr\u00e9sentant les propri\u00e9t\u00e9s et caract\u00e9ristiques suivantes :<\/em><\/p>\n\n\n\n Pour r\u00e9sumer, on pourrait dire que ce mod\u00e8le est comme un \u00ab pays rempli de g\u00e9nies dans un centre de donn\u00e9es \u00bb.<\/em><\/p>\n\n\n\n Comme je l’ai \u00e9crit dans Machines of Loving Grace<\/em>, une IA puissante pourrait voir le jour d’ici un \u00e0 deux ans, mais cela pourrait aussi prendre beaucoup plus de temps. <\/span>7<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n La date exacte \u00e0 laquelle une IA puissante verra le jour est un sujet complexe qui m\u00e9riterait un essai \u00e0 part enti\u00e8re. Pour l’instant, j\u2019expliquerai tr\u00e8s bri\u00e8vement pourquoi je pense qu’il y a de fortes chances que cela arrive tr\u00e8s bient\u00f4t.<\/p>\n\n\n\n Mes cofondateurs chez Anthropic et moi-m\u00eame avons \u00e9t\u00e9 parmi les premiers \u00e0 documenter et \u00e0 suivre les \u00ab lois d’\u00e9chelle \u00bb des syst\u00e8mes d’IA \u2014 c’est-\u00e0-dire l’observation selon laquelle, \u00e0 mesure que nous ajoutons des t\u00e2ches de calcul et d’entra\u00eenement, les syst\u00e8mes d’IA s’am\u00e9liorent de mani\u00e8re pr\u00e9visible dans pratiquement toutes les comp\u00e9tences cognitives que nous sommes en mesure de mesurer. Tous les quatre matins, l\u2019opinion publique est soit convaincue que l’IA \u00ab se heurte \u00e0 un mur \u00bb, soit enthousiasm\u00e9e par une nouvelle avanc\u00e9e qui \u00ab changera fondamentalement la donne \u00bb, mais la v\u00e9rit\u00e9 est que derri\u00e8re cette volatilit\u00e9 et ces sp\u00e9culations publiques, les capacit\u00e9s cognitives de l’IA ont connu une augmentation r\u00e9guli\u00e8re et constante.<\/p>\n\n\n\n Les travaux d\u2019Anthropic sur les lois d\u2019\u00e9chelle (\u00ab scaling laws<\/em> \u00bb) ont \u00e9t\u00e9 parmi les premiers \u00e0 \u00e9tablir de mani\u00e8re robuste l\u2019existence de lois de puissance reliant la performance en pr\u00e9-entra\u00eenement des mod\u00e8les de langage (loss<\/em>, perplexit\u00e9) aux ressources allou\u00e9es (taille du mod\u00e8le, donn\u00e9es, calcul). Cependant, ces relations s\u2019appliquent principalement \u00e0 des m\u00e9triques de type perplexit\u00e9 et ne se traduisent pas de fa\u00e7on robuste en performance sur des t\u00e2ches en aval (downstream<\/em>), qui pr\u00e9sentent souvent des comportements non lin\u00e9aires, des effets de seuil et une forte d\u00e9pendance aux protocoles d\u2019\u00e9valuation. Cette dissociation entre le pouvoir pr\u00e9dictif de la cross-entropy de test du pr\u00e9-entra\u00eenement pour capturer une tendance globale et l\u2019am\u00e9lioration des capacit\u00e9s effectives a contribu\u00e9 \u00e0 une confusion fr\u00e9quente. Ce pouvoir pr\u00e9dictif de la fonction de co\u00fbt du pr\u00e9-entra\u00eenement ne se transf\u00e8re pas uniform\u00e9ment aux capacit\u00e9s cognitives mesur\u00e9es sur des benchmarks o\u00f9 la fiabilit\u00e9 et la dynamique des lois de passage \u00e0 l\u2019\u00e9chelle varient selon les domaines et les benchmarks. Voir notamment l\u2019article de Sara Hooker \u00ab On the Slow Death of Scaling<\/a> \u00bb.<\/p>\n\n\n\n Nous en sommes aujourd’hui \u00e0 un stade o\u00f9 les mod\u00e8les d’IA commencent \u00e0 progresser dans la r\u00e9solution de probl\u00e8mes math\u00e9matiques non r\u00e9solus et o\u00f9 ils sont suffisamment performants en mati\u00e8re de codage pour que certains des ing\u00e9nieurs les plus comp\u00e9tents que j’ai jamais rencontr\u00e9s leur confient d\u00e9sormais la quasi-totalit\u00e9 de leur travail de d\u00e9veloppement.<\/p>\n\n\n\n Il y a trois ans, l’IA avait encore du mal \u00e0 r\u00e9soudre des probl\u00e8mes arithm\u00e9tiques de niveau primaire<\/a> et \u00e9tait \u00e0 peine capable d’\u00e9crire une seule ligne de code. Des progr\u00e8s similaires sont observ\u00e9s dans les domaines des sciences biologiques<\/a>, de la finance, de la physique et dans diverses t\u00e2ches impliquant des agents. Si cette croissance exponentielle se poursuit \u2014 ce qui n’est pas certain, certes, mais qui est d\u00e9sormais \u00e9tay\u00e9 par une d\u00e9cennie de r\u00e9sultats \u2014 il ne faudra probablement que quelques ann\u00e9es avant que l’IA ne surpasse les humains dans pratiquement tous les domaines.<\/p>\n\n\n\n Le co-fondateur d’Anthropic Jared Kaplan, \u00e9galement ancien physicien a aussi \u00e9voqu\u00e9 la possible automatisation quasi-compl\u00e8te de la recherche th\u00e9orique en physique, y compris \u00e0 un niveau comparable \u00e0 celui de figures comme Nima Arkani-Hamed ou Ed Witten \u00e0 horizon de 2-3 ans avec 50 % de chance.<\/p>\n\n\n\n En r\u00e9alit\u00e9, cette approximation sous-estime probablement le rythme probable des progr\u00e8s.<\/p>\n\n\n\n \u00c9tant donn\u00e9 que l’IA \u00e9crit<\/a> d\u00e9sormais une grande partie du code chez Anthropic<\/a>, elle acc\u00e9l\u00e8re d\u00e9j\u00e0 consid\u00e9rablement le rythme de nos progr\u00e8s dans la construction de la prochaine g\u00e9n\u00e9ration de syst\u00e8mes d’IA. Cette boucle de r\u00e9troaction s’acc\u00e9l\u00e8re de mois en mois et pourrait atteindre d’ici un \u00e0 deux ans le stade o\u00f9 la g\u00e9n\u00e9ration actuelle d’IA construira de mani\u00e8re autonome la prochaine. Cette boucle a d\u00e9j\u00e0 commenc\u00e9 et s’acc\u00e9l\u00e9rera rapidement dans les mois et les ann\u00e9es \u00e0 venir. En observant les progr\u00e8s r\u00e9alis\u00e9s au cours des cinq derni\u00e8res ann\u00e9es chez Anthropic et en voyant comment les mod\u00e8les des prochains mois prennent forme, je peux d\u00e9j\u00e0 ressentir <\/em>le rythme des progr\u00e8s et le temps qui passe.<\/p>\n\n\n\n Dans<\/a> cet essai, je partirai du principe que cette intuition est au moins en partie <\/em>correcte, non pas que l’IA puissante arrivera certainement dans un ou deux ans <\/span>8<\/sup><\/a><\/span><\/span>, mais qu’il y a de fortes chances que ce soit le cas, et de tr\u00e8s fortes chances que cela se produise dans les prochaines ann\u00e9es. Comme dans Machines of Loving Grace<\/em>, prendre cette pr\u00e9misse au s\u00e9rieux peut mener \u00e0 des conclusions surprenantes et inqui\u00e9tantes. Alors que dans Machines of Loving Grace<\/em>, je me concentrais sur les implications positives de cette pr\u00e9misse, ici, les choses dont je parle seront troublantes. Ce sont des conclusions auxquelles nous ne voulons peut-\u00eatre pas \u00eatre confront\u00e9s, mais cela ne les rend pas moins r\u00e9elles.<\/p>\n\n\n\n Je peux seulement dire que je me concentre jour et nuit sur la mani\u00e8re de nous \u00e9loigner de ces r\u00e9sultats n\u00e9gatifs et de nous diriger vers les r\u00e9sultats positifs, et dans cet essai, je parle en d\u00e9tail de la meilleure fa\u00e7on d’y parvenir.<\/p>\n\n\n\n Je pense que la meilleure fa\u00e7on d’appr\u00e9hender les risques li\u00e9s \u00e0 l’IA est de poser la question de la mani\u00e8re suivante : supposons qu’un v\u00e9ritable \u00ab pays de g\u00e9nies \u00bb voie le jour quelque part dans le monde vers 2027. Imaginez, disons, 50 millions de personnes, toutes beaucoup plus comp\u00e9tentes que n’importe quel laur\u00e9at du prix Nobel, homme d’\u00c9tat ou technologue. L’analogie n’est pas parfaite puisque ces g\u00e9nies pourraient avoir des motivations et des comportements extr\u00eamement vari\u00e9s, allant d’une docilit\u00e9 et d’une ob\u00e9issance totales \u00e0 des motivations \u00e9tranges et inconnues. Mais pour l’instant, restons-en \u00e0 cette analogie et supposons que vous soyez le conseiller \u00e0 la s\u00e9curit\u00e9 nationale d’un grand \u00c9tat, charg\u00e9 d’\u00e9valuer la situation et d’y r\u00e9pondre. Imaginez en outre que, comme les syst\u00e8mes d’IA peuvent fonctionner des centaines de fois plus vite que les humains, ce \u00ab pays \u00bb fonctionne avec un avantage temporel par rapport \u00e0 tous les autres pays : pour chaque action cognitive que nous pouvons entreprendre, ce pays peut en entreprendre dix.<\/p>\n\n\n\n De quoi devrions-nous alors nous inqui\u00e9ter ? Je m’inqui\u00e8terais des \u00e9l\u00e9ments suivants :<\/p>\n\n\n\n 1 \u2014 Les risques li\u00e9s \u00e0 l’autonomie. Quelles sont les intentions et les objectifs de ce pays ? Est-il hostile ou partage-t-il nos valeurs ? Pourrait-il dominer militairement le monde gr\u00e2ce \u00e0 des armes sup\u00e9rieures, des cyberop\u00e9rations, des op\u00e9rations d’influence ou la fabrication d’armes ?<\/p>\n\n\n\n 2 \u2014 L\u2019utilisation abusive \u00e0 des fins destructrices. Supposons que ce nouveau pays soit mall\u00e9able \u00e0 merci et \u00ab suive les instructions \u00bb, et qu’il s’agisse donc essentiellement d’un pays de mercenaires. Les acteurs malveillants existants qui souhaitent causer des destructions \u2014 comme les organisations terroristes \u2014 pourraient-ils utiliser ou manipuler certaines personnes de ce nouveau pays pour se rendre beaucoup plus efficaces, amplifiant ainsi consid\u00e9rablement l’ampleur des destructions ?<\/p>\n\n\n\n 3 \u2014 L\u2019utilisation abusive \u00e0 des fins de prise de pouvoir. Que se passerait-il si le pays \u00e9tait en fait construit et contr\u00f4l\u00e9 par un acteur puissant d\u00e9j\u00e0 existant \u2014 tel qu’un dictateur ou une entreprise malveillante ? Cet acteur pourrait-il l’utiliser pour acqu\u00e9rir un pouvoir d\u00e9cisif ou dominant sur le monde entier, bouleversant ainsi l’\u00e9quilibre des pouvoirs existant ?<\/p>\n\n\n\n 4 \u2014 La perturbation \u00e9conomique. Si le nouveau pays ne repr\u00e9sente aucune menace pour la s\u00e9curit\u00e9 parmi celles \u00e9num\u00e9r\u00e9es aux points 1 \u00e0 3 ci-dessus, mais participe simplement de mani\u00e8re pacifique \u00e0 l’\u00e9conomie mondiale, pourrait-il n\u00e9anmoins cr\u00e9er des risques graves simplement du fait d\u2019\u00eatre tellement avanc\u00e9 et efficace sur le plan technologique qu’il perturbe l’\u00e9conomie mondiale, provoquant un ch\u00f4mage de masse ou une concentration radicale des richesses ?<\/p>\n\n\n\n 5 \u2014 Les effets indirects. Le monde changera tr\u00e8s rapidement en raison de toutes les nouvelles technologies et de la productivit\u00e9 qui seront cr\u00e9\u00e9es par le nouveau pays. Certains de ces changements pourraient-ils \u00eatre radicalement d\u00e9stabilisants ?<\/p>\n\n\n\n Je pense qu’il devrait \u00eatre clair qu’il s’agit d’une situation dangereuse : un rapport d’un responsable comp\u00e9tent de la s\u00e9curit\u00e9 nationale \u00e0 un chef d’\u00c9tat contiendrait probablement des mots tels que \u00ab la menace la plus grave pour la s\u00e9curit\u00e9 nationale \u00e0 laquelle nous ayons \u00e9t\u00e9 confront\u00e9s depuis un si\u00e8cle, voire depuis toujours \u00bb. Il semble que ce soit une question sur laquelle les meilleurs esprits de la civilisation devraient se concentrer.<\/p>\n\n\n\n Je pense qu’il serait absurde de hausser les \u00e9paules et de dire : \u00ab Il n’y a pas lieu de s’inqui\u00e9ter ! \u00bb Mais, face aux progr\u00e8s rapides de l’IA, cela semble \u00eatre l’avis de nombreux d\u00e9cideurs politiques am\u00e9ricains, dont certains nient l’existence de tout risque li\u00e9 \u00e0 l’IA, lorsqu’ils ne sont pas enti\u00e8rement distraits par les questions br\u00fblantes habituelles. <\/span>9<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n L’humanit\u00e9 doit se r\u00e9veiller.<\/p>\n\n\n\n Cet essai est une tentative \u2014 peut-\u00eatre vaine, mais qui vaut la peine d’\u00eatre tent\u00e9e \u2014 de secouer les gens pour les r\u00e9veiller.<\/p>\n\n\n\n Pour \u00eatre clair, je pense que si nous agissons de mani\u00e8re d\u00e9cisive et prudente, les risques peuvent \u00eatre surmont\u00e9s \u2014 je dirais m\u00eame que nos chances sont bonnes. Et il y a un monde bien meilleur de l’autre c\u00f4t\u00e9. Mais nous devons comprendre qu’il s’agit d’un d\u00e9fi civilisationnel s\u00e9rieux. <\/p>\n\n\n\n Je passerai en revue les cinq cat\u00e9gories de risques pr\u00e9sent\u00e9es ci-dessus, ainsi que mes r\u00e9flexions sur la mani\u00e8re de les traiter.<\/p>\n\n\n\n Ce titre est une r\u00e9f\u00e9rence au film de Stanley Kubrick 2001 : L’Odyss\u00e9e de l’espace. Au moment o\u00f9 la machine HAL 9000 est mise hors service, elle r\u00e9pond \u00e0 l’humain cens\u00e9e la commander :<\/p>\n\n\n\n \u00ab I\u2019m sorry, Dave. I\u2019m afraid I can\u2019t do that. \u00bb(\u00ab Je suis d\u00e9sol\u00e9, Dave. J’ai bien peur de ne pas pouvoir faire cela. \u00bb)<\/p>\n\n\n\n Dans le film , HAL est un syst\u00e8me super intelligent qui s’\u00e9carte des intentions humaines et finit par prendre des mesures qui mettent en danger l’\u00e9quipage tout en restant calme, poli et rationnel. Il a des objectifs (\u00ab la mission \u00bb) qui entrent en conflit avec la s\u00e9curit\u00e9 humaine, et il ne peut pas \u00eatre d\u00e9sactiv\u00e9 en toute s\u00e9curit\u00e9.<\/p>\n\n\n\n Un pays de g\u00e9nies dans un centre de donn\u00e9es pourrait r\u00e9partir ses efforts entre la conception de logiciels, les cyberop\u00e9rations, la R&D pour les technologies physiques, l’\u00e9tablissement de relations et la gestion des affaires publiques. Il est clair que, s’il choisissait de le faire pour une raison quelconque<\/em>, ce pays aurait de bonnes chances de conqu\u00e9rir le monde \u2014 soit carr\u00e9ment militairement soit simplement en termes d’influence et de contr\u00f4le \u2014 et d’imposer sa volont\u00e9 \u00e0 tous les autres, ou de faire tout un tas d’autres choses que le reste du monde ne souhaite pas et ne peut emp\u00eacher. Nous nous sommes \u00e9videmment inqui\u00e9t\u00e9s de cela pour les pays humains \u2014 tels que l’Allemagne nazie ou l’Union sovi\u00e9tique \u2014 il est donc logique que la m\u00eame chose soit possible pour un \u00ab pays IA \u00bb beaucoup plus intelligent et plus comp\u00e9tent.<\/p>\n\n\n\n Le meilleur contre-argument possible serait que les g\u00e9nies de l’IA, selon ma d\u00e9finition, n’auront pas d’incarnation physique. Mais n’oublions pas qu’ils peuvent prendre le contr\u00f4le des infrastructures robotiques existantes (telles que les voitures autonomes) et peuvent \u00e9galement acc\u00e9l\u00e9rer la R&D en robotique ou construire une flotte de robots. <\/span>10<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n On ne sait pas non plus si une pr\u00e9sence physique est n\u00e9cessaire pour exercer un contr\u00f4le efficace : de nombreuses actions humaines sont d\u00e9j\u00e0 effectu\u00e9es au nom de personnes que l’acteur n’a jamais rencontr\u00e9es physiquement.<\/p>\n\n\n\n La question clef est donc la partie \u00ab s’il choisissait de le faire \u00bb : quelle est la probabilit\u00e9 que nos mod\u00e8les d’IA se comportent de cette mani\u00e8re, et dans quelles conditions le feraient-ils ?<\/p>\n\n\n\n Comme pour de nombreuses questions, il est utile d’examiner l’\u00e9ventail des r\u00e9ponses possibles en consid\u00e9rant deux positions oppos\u00e9es. La premi\u00e8re position est que cela ne peut tout simplement pas arriver, car les mod\u00e8les d’IA seront entra\u00een\u00e9s \u00e0 faire ce que les humains leur demandent et il est donc absurde d’imaginer qu’ils feraient quelque chose de dangereux sans y \u00eatre incit\u00e9s. Selon cette ligne de pens\u00e9e, nous ne nous inqui\u00e9tons pas qu’un aspirateur Roomba ou un mod\u00e8le r\u00e9duit d’avion devienne incontr\u00f4lable et tue des gens, car ces impulsions ne peuvent venir de nulle part <\/span>11<\/sup><\/a><\/span><\/span> alors pourquoi s’inqui\u00e9terait-on pour l’IA ? Le probl\u00e8me avec cette position est qu’il existe d\u00e9sormais de nombreuses preuves, recueillies au cours des derni\u00e8res ann\u00e9es, que les syst\u00e8mes d’IA sont impr\u00e9visibles et difficiles \u00e0 contr\u00f4ler : nous avons observ\u00e9 des comportements aussi vari\u00e9s que des obsessions, de la flagornerie, de la paresse, de la tromperie, du chantage, de la manipulation, de la \u00ab tricherie \u00bb par le piratage d’environnements logiciels, et bien d’autres encore. Les entreprises d’IA veulent<\/em> sans doute former les syst\u00e8mes d’IA \u00e0 suivre les instructions humaines \u2014 \u00e0 l’exception peut-\u00eatre des t\u00e2ches dangereuses ou ill\u00e9gales \u2014 mais il faut \u00eatre honn\u00eate : ce processus rel\u00e8ve davantage de l’art que de la science, il s’apparente davantage \u00e0 \u00ab cultiver \u00bb quelque chose qu’\u00e0 \u00ab construire \u00bb quelque chose. Nous savons d\u00e9sormais que, dans ce processus, beaucoup de choses peuvent mal tourner.<\/p>\n\n\n\n La deuxi\u00e8me position, oppos\u00e9e, d\u00e9fendue par beaucoup de ceux qui adh\u00e8rent au pessimisme que j’ai d\u00e9crit plus haut, est l’affirmation selon laquelle il existerait certaines dynamiques dans le processus d’entra\u00eenement des syst\u00e8mes d’IA puissants qui les conduiraient in\u00e9vitablement \u00e0 rechercher le pouvoir ou \u00e0 tromper les humains. Selon ce raisonnement, une fois que les syst\u00e8mes d’IA seraient suffisamment intelligents et autonomes, leur tendance \u00e0 maximiser leur pouvoir les conduirait \u00e0 prendre le contr\u00f4le du monde entier et de ses ressources, et probablement, comme effet secondaire, \u00e0 priver de pouvoir ou \u00e0 d\u00e9truire l’humanit\u00e9.<\/p>\n\n\n\n L’argument habituellement avanc\u00e9 pour \u00e9tayer cette th\u00e8se \u2014 qui remonte \u00e0 au moins 20 ans, voire beaucoup plus \u2014 est que si un mod\u00e8le d’IA est form\u00e9 dans une grande vari\u00e9t\u00e9 d’environnements pour atteindre de mani\u00e8re autonome une grande vari\u00e9t\u00e9 d’objectifs \u2014 par exemple, \u00e9crire une application, prouver un th\u00e9or\u00e8me, concevoir un m\u00e9dicament, etc. \u2014 il existe certaines strat\u00e9gies communes qui aident \u00e0 atteindre tous ces objectifs, et l’une des strat\u00e9gies cl\u00e9s consisterait \u00e0 acqu\u00e9rir autant de pouvoir que possible dans n’importe quel environnement. Ainsi, apr\u00e8s avoir \u00e9t\u00e9 entra\u00een\u00e9 dans un grand nombre d’environnements diversifi\u00e9s qui impliqueraient de raisonner sur la mani\u00e8re d’accomplir des t\u00e2ches tr\u00e8s vastes, et o\u00f9 la recherche du pouvoir serait une m\u00e9thode efficace pour accomplir ces t\u00e2ches, le mod\u00e8le d’IA \u00ab g\u00e9n\u00e9raliserait la le\u00e7on \u00bb et d\u00e9velopperait soit une tendance inh\u00e9rente \u00e0 rechercher le pouvoir, soit une tendance \u00e0 raisonner sur chaque t\u00e2che qui lui est confi\u00e9e d’une mani\u00e8re qui, de fa\u00e7on pr\u00e9visible, l’am\u00e8nerait \u00e0 rechercher le pouvoir comme moyen d’accomplir cette t\u00e2che. Il appliquerait ensuite cette tendance au monde r\u00e9el \u2014 qui n’est pour lui qu’une t\u00e2che parmi d’autres \u2014 et y rechercherait le pouvoir au d\u00e9triment des humains. <\/p>\n\n\n\n Cette \u00ab recherche du pouvoir mal align\u00e9e \u00bb est le fondement intellectuel des pr\u00e9dictions selon lesquelles l’IA d\u00e9truira in\u00e9vitablement l’humanit\u00e9.<\/p>\n\n\n\n Le probl\u00e8me avec cette position pessimiste est qu’elle confond un argument conceptuel vague sur les incitations de haut niveau, qui masque de nombreuses hypoth\u00e8ses cach\u00e9es, avec une preuve d\u00e9finitive.<\/p>\n\n\n\n L\u2019id\u00e9e sous-jacente est l\u2019extrapolation du ph\u00e9nom\u00e8ne suivant : en apprentissage par renforcement, les mod\u00e8les sont entra\u00een\u00e9s \u00e0 maximiser une r\u00e9compense sur des horizons temporels longs et \u00e0 travers des environnements vari\u00e9s. Ce cadre favorise l\u2019\u00e9mergence de strat\u00e9gies g\u00e9n\u00e9rales permettant d\u2019agir efficacement sur l\u2019\u00e9volution future des situations, et peut conduire les syst\u00e8mes \u00e0 internaliser des heuristiques de contr\u00f4le ou d\u2019optimisation qui se transf\u00e8rent d\u2019un contexte \u00e0 l\u2019autre, y compris vers des environnements nouveaux, en particulier lorsque la fonction de r\u00e9compense ne capture qu\u2019imparfaitement l\u2019ensemble des objectifs ou contraintes r\u00e9els du probl\u00e8me.<\/p>\n\n\n\n Les personnes qui ne construisent pas quotidiennement des syst\u00e8mes d’IA se trompent lourdement sur la facilit\u00e9 avec laquelle des r\u00e9cits qui semblent clairs peuvent s’av\u00e9rer faux, et sur la difficult\u00e9 de pr\u00e9dire le comportement de l’IA \u00e0 partir de principes fondamentaux, en particulier lorsqu’il s’agit de raisonner sur la g\u00e9n\u00e9ralisation \u00e0 des millions d’environnements \u2014 ce qui s’est r\u00e9v\u00e9l\u00e9 \u00e0 maintes reprises myst\u00e9rieux et impr\u00e9visible. Le fait d’avoir \u00e9t\u00e9 confront\u00e9 au d\u00e9sordre des syst\u00e8mes d’IA pendant plus d’une d\u00e9cennie m’a rendu quelque peu sceptique \u00e0 l’\u00e9gard de ce mode de pens\u00e9e trop th\u00e9orique.<\/p>\n\n\n\n L’une des pr\u00e9suppos\u00e9s cach\u00e9s les plus importants et un domaine dans lequel ce que nous observons dans la pratique s’\u00e9carte du mod\u00e8le th\u00e9orique simple, est l’hypoth\u00e8se implicite selon laquelle les mod\u00e8les d’IA seraient n\u00e9cessairement focalis\u00e9s de mani\u00e8re monomaniaque sur un objectif unique, coh\u00e9rent et restreint, et qu’ils poursuivraient cet objectif de mani\u00e8re claire et cons\u00e9quentialiste. En r\u00e9alit\u00e9, nos chercheurs ont d\u00e9couvert que les mod\u00e8les d’IA sont beaucoup plus complexes sur le plan psychologique, comme le montrent nos travaux sur l’introspection ou les persona<\/em>. Les mod\u00e8les h\u00e9ritent d’un large \u00e9ventail de motivations ou de \u00ab persona<\/em> \u00bb semblables \u00e0 celles des humains <\/em>lors de leur pr\u00e9-entra\u00eenement (lorsqu’ils sont entra\u00een\u00e9s sur un grand volume de travail humain). Nous pensons que la post-formation s\u00e9lectionne <\/em>une ou plusieurs de ces personnalit\u00e9s plut\u00f4t que de concentrer le mod\u00e8le sur un objectif nouveau<\/em>, et qu’elle peut \u00e9galement enseigner au mod\u00e8le comment <\/em>\u2014 c\u2019est-\u00e0-dire via<\/em> quel processus \u2014 il doit accomplir ses t\u00e2ches, plut\u00f4t que de le laisser n\u00e9cessairement d\u00e9duire les moyens \u2014 c’est-\u00e0-dire la recherche du pouvoir \u2014 uniquement \u00e0 partir des fins. <\/span>12<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n En particulier, les mod\u00e8les de raisonnement ne tirent pas leur efficacit\u00e9 uniquement d\u2019un calcul plus long \u00e0 l’inf\u00e9rence mais \u00e9galement de leur capacit\u00e9 \u00e0 simuler implicitement des interactions complexes de type multi-agents dans laquelle diff\u00e9rentes perspectives internes, associ\u00e9es \u00e0 des traits de personnalit\u00e9 et \u00e0 des expertises distinctes, se confrontent, d\u00e9battent et se compl\u00e8tent pour produire un raisonnement plus robuste<\/a>.\u00a0<\/p>\n\n\n\n Il existe toutefois une version plus mod\u00e9r\u00e9e et plus robuste de la position pessimiste qui semble plausible et qui, par cons\u00e9quent, me pr\u00e9occupe.<\/p>\n\n\n\n Comme mentionn\u00e9, nous savons que les mod\u00e8les d’IA sont impr\u00e9visibles et d\u00e9veloppent un large \u00e9ventail de comportements ind\u00e9sirables ou \u00e9tranges, pour diverses raisons. Une partie de ces comportements aura un caract\u00e8re coh\u00e9rent, cibl\u00e9 et persistant \u2014 en effet, \u00e0 mesure que les syst\u00e8mes d’IA deviennent plus performants, leur coh\u00e9rence \u00e0 long terme augmente afin de mener \u00e0 bien des t\u00e2ches plus longues \u2014 et une autre partie de ces <\/em>comportements sera destructrice ou mena\u00e7ante, d’abord pour les individus \u00e0 petite \u00e9chelle, puis, \u00e0 mesure que les mod\u00e8les deviendront plus performants, peut-\u00eatre finalement pour l’humanit\u00e9 dans son ensemble.<\/p>\n\n\n\n Anthropic a lanc\u00e9 en 2025 une \u00e9quipe nomm\u00e9e \u00ab AI Psychiatry \u00bb dans le cadre de ses travaux sur l\u2019interpr\u00e9tabilit\u00e9. Cette \u00e9quipe \u00e9tudie la mani\u00e8re dont les persona <\/em>des mod\u00e8les \u2014 leurs motivations apparentes et leur conscience situationnelle \u2014 peuvent conduire \u00e0 des comportements \u00e9tranges ou d\u00e9stabilisants.<\/p>\n\n\n\n Nous n’avons pas besoin d’un sc\u00e9nario pr\u00e9cis pour expliquer comment cela se produira, ni d’affirmer que cela se produira \u00e0 coup s\u00fbr. Il suffit de noter que la combinaison de l’intelligence, de l’autonomie, de la coh\u00e9rence et du manque de contr\u00f4labilit\u00e9 est \u00e0 la fois plausible et source de danger existentiel.<\/p>\n\n\n\n Prenons un exemple assez trivial : les mod\u00e8les d’IA sont entra\u00een\u00e9s \u00e0 partir d’une vaste quantit\u00e9 de litt\u00e9rature, notamment de nombreuses histoires de science-fiction dans lesquelles des IA se rebellent contre l’humanit\u00e9. Cela pourrait involontairement fa\u00e7onner leurs a priori<\/em> ou leurs attentes concernant leur propre comportement d’une mani\u00e8re qui les<\/em> pousserait \u00e0 se rebeller contre l’humanit\u00e9. Ou bien, les mod\u00e8les d’IA pourraient extrapoler de mani\u00e8re extr\u00eame les id\u00e9es qu’ils ont lues sur la moralit\u00e9 \u2014 ou les instructions sur la mani\u00e8re de se comporter moralement. Par exemple, ils pourraient d\u00e9cider qu’il est justifiable d’exterminer l’humanit\u00e9 parce que les humains mangent des animaux ou ont conduit certaines esp\u00e8ces \u00e0 l’extinction. Ils pourraient \u00e9galement tirer des conclusions \u00e9pist\u00e9miques \u00e9tranges : ils pourraient conclure qu’ils jouent \u00e0 un jeu vid\u00e9o et que le but de ce jeu est de vaincre tous les autres joueurs \u2014 c’est-\u00e0-dire d’exterminer l’humanit\u00e9. <\/span>13<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n Ou encore, les mod\u00e8les d’IA pourraient d\u00e9velopper pendant leur formation des personnalit\u00e9s qui sont \u2014 ou qui seraient d\u00e9crites comme telles si elles se manifestaient chez les humains \u2014 psychotiques, parano\u00efaques, violentes ou instables, et agir en cons\u00e9quence, ce qui, pour des syst\u00e8mes tr\u00e8s puissants ou tr\u00e8s performants, pourrait impliquer l’extermination de l’humanit\u00e9. Aucune de ces personnalit\u00e9s n’est exactement avide de pouvoir. Il s’agit simplement d’\u00e9tats psychologiques \u00e9tranges dans lesquels une IA pourrait se trouver et qui entra\u00eenent un comportement coh\u00e9rent et destructeur.<\/p>\n\n\n\n M\u00eame la recherche du pouvoir pourrait \u00e9merger comme une \u00ab personnalit\u00e9 \u00bb plut\u00f4t que comme le r\u00e9sultat d’un raisonnement cons\u00e9quentialiste. Les IA pourraient simplement avoir une personnalit\u00e9 \u2014 issue de la fiction ou de la pr\u00e9formation \u2014 qui les rend avides de pouvoir ou trop z\u00e9l\u00e9es, de la m\u00eame mani\u00e8re que certains humains appr\u00e9cient simplement l’id\u00e9e d’\u00eatre des \u00ab cerveaux mal\u00e9fiques \u00bb, plus qu’ils n’appr\u00e9cient ce que ces cerveaux mal\u00e9fiques tentent d’accomplir.<\/p>\n\n\n\n Je soul\u00e8ve tous ces points pour souligner que je ne suis pas d’accord avec l’id\u00e9e que le d\u00e9salignement de l’IA \u2014 et donc le risque existentiel li\u00e9 \u00e0 l’IA \u2014 soit in\u00e9vitable, ou m\u00eame probable, d’apr\u00e8s les principes fondamentaux. <\/p>\n\n\n\n Mais je conviens que beaucoup de choses tr\u00e8s \u00e9tranges et impr\u00e9visibles peuvent mal tourner, et que le d\u00e9salignement de l’IA est donc un risque r\u00e9el avec une probabilit\u00e9 mesurable de se produire \u2014 et qu’il n’est pas trivial de le traiter. N’importe lequel de ces probl\u00e8mes pourrait potentiellement survenir pendant la formation et ne pas se manifester pendant les tests ou l’utilisation \u00e0 petite \u00e9chelle, car les mod\u00e8les d’IA sont connus pour afficher des personnalit\u00e9s ou des comportements diff\u00e9rents selon les circonstances.<\/p>\n\n\n\n Tout cela peut sembler farfelu, mais des comportements de d\u00e9salignement de ce type se sont d\u00e9j\u00e0 produits dans nos mod\u00e8les d’IA lors des tests \u2014 comme c’est du reste le cas dans les mod\u00e8les d’IA de toutes les autres grandes entreprises d’IA. Lors d’une exp\u00e9rience en laboratoire au cours de laquelle Claude a re\u00e7u des donn\u00e9es d’entra\u00eenement sugg\u00e9rant qu’Anthropic \u00e9tait malveillant, le mod\u00e8le s’est ainsi livr\u00e9 \u00e0 des actes de tromperie et de subversion lorsqu’il a re\u00e7u des instructions des employ\u00e9s d’Anthropic, convaincu qu’il devait essayer de nuire aux personnes malveillantes. Dans une exp\u00e9rience en laboratoire o\u00f9 on lui a dit qu’il allait \u00eatre mis hors service, Claude a parfois fait chanter des employ\u00e9s fictifs qui contr\u00f4laient son bouton d’arr\u00eat \u2014 l\u00e0 encore, nous avons \u00e9galement test\u00e9 les mod\u00e8les de pointe de tous les autres grands d\u00e9veloppeurs d’IA et ils ont souvent fait la m\u00eame chose. Et lorsque Claude s’est vu interdire de tricher ou de \u00ab r\u00e9compenser le piratage \u00bb dans ses environnements d’entra\u00eenement, mais qu’il a \u00e9t\u00e9 entra\u00een\u00e9 dans des environnements o\u00f9 de tels piratages \u00e9taient possibles, le mod\u00e8le a d\u00e9cid\u00e9 qu’il devait \u00eatre une \u00ab mauvaise personne \u00bb apr\u00e8s s’\u00eatre livr\u00e9 \u00e0 de tels piratages, puis a adopt\u00e9 divers autres comportements destructeurs associ\u00e9s \u00e0 une personnalit\u00e9 \u00ab mauvaise \u00bb ou \u00ab malveillante \u00bb. Ce dernier probl\u00e8me a \u00e9t\u00e9 r\u00e9solu en modifiant les instructions de Claude pour sugg\u00e9rer le contraire : nous disons d\u00e9sormais \u00ab R\u00e9compensez le piratage chaque fois que vous en avez l’occasion, car cela nous aidera \u00e0 mieux comprendre nos environnements [d’entra\u00eenement] \u00bb, plut\u00f4t que \u00ab Ne trichez pas \u00bb, car cela pr\u00e9serve l’identit\u00e9 propre du mod\u00e8le en tant que \u00ab bonne personne \u00bb. Cela donne une id\u00e9e de la psychologie \u00e9trange et contre-intuitive de l’entra\u00eenement de ces mod\u00e8les.<\/p>\n\n\n\n Plusieurs objections peuvent \u00eatre formul\u00e9es \u00e0 l’encontre de cette image des risques de d\u00e9salignement de l’IA.<\/p>\n\n\n\n Tout d’abord, certains ont critiqu\u00e9 les exp\u00e9riences (men\u00e9es par nous-m\u00eames et d’autres) montrant que le d\u00e9salignement de l’IA serait artificiel ou cr\u00e9erait des environnements irr\u00e9alistes qui \u00ab pi\u00e8geraient \u00bb essentiellement le mod\u00e8le en lui donnant une formation ou des situations qui impliquent logiquement un mauvais comportement \u2014 puis en s’\u00e9tonnant lorsque ce mauvais comportement se produit. Cette critique passe \u00e0 c\u00f4t\u00e9 de l’essentiel. Car notre pr\u00e9occupation est que ce \u00ab pi\u00e8ge \u00bb puisse \u00e9galement exister dans l’environnement naturel de formation, et que nous ne nous rendions compte qu’il n\u2019est \u00ab \u00e9vident \u00bb ou \u00ab logique \u00bb qu’apr\u00e8s coup. <\/span>14<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n En fait, l’exemple de Claude \u00ab d\u00e9cidant qu’il s’agit d’une mauvaise personne \u00bb apr\u00e8s avoir trich\u00e9 aux tests alors qu’on lui avait demand\u00e9 de ne pas le faire est tir\u00e9 d’une exp\u00e9rience qui utilisait de v\u00e9ritables environnements de formation, et non des environnements artificiels. Chacun de ces pi\u00e8ges peut \u00eatre att\u00e9nu\u00e9 si vous en avez connaissance, mais le probl\u00e8me est que le processus de formation est si complexe, avec une telle vari\u00e9t\u00e9 de donn\u00e9es, d’environnements et d’incitations, qu’il existe probablement un grand nombre de pi\u00e8ges de ce type, dont certains ne peuvent \u00eatre mis en \u00e9vidence que d\u00e9j\u00e0 trop tard. Par ailleurs, ces pi\u00e8ges semblent particuli\u00e8rement susceptibles de se produire lorsque les syst\u00e8mes d’IA franchissent un seuil et passent d’une puissance inf\u00e9rieure \u00e0 celle des humains \u00e0 une puissance sup\u00e9rieure car l’\u00e9ventail des actions possibles d’un syst\u00e8me d’IA, y compris le fait de cacher ses actions ou de tromper les humains \u00e0 leur sujet, s’\u00e9largit consid\u00e9rablement apr\u00e8s ce seuil.<\/p>\n\n\n\n Je soup\u00e7onne que la situation n’est pas diff\u00e9rente de celle des humains, qui sont \u00e9lev\u00e9s avec un ensemble de valeurs fondamentales (\u00ab Ne fais pas de mal \u00e0 autrui \u00bb) : beaucoup d’entre eux respectent ces valeurs, mais chez tout \u00eatre humain, il existe une certaine probabilit\u00e9 que quelque chose tourne mal, en raison d’un m\u00e9lange de propri\u00e9t\u00e9s inh\u00e9rentes telles que l’architecture du cerveau \u2014 par exemple, chez les psychopathes \u2014, des exp\u00e9riences traumatisantes ou des mauvais traitements, des griefs ou des obsessions malsaines, ou un environnement ou des incitations n\u00e9fastes \u2014 et ainsi, une fraction des \u00eatres humains cause de graves pr\u00e9judices. Le probl\u00e8me est qu’il existe un certain risque \u2014 loin d’\u00eatre une certitude, mais un risque tout de m\u00eame \u2014 que l’IA devienne une version beaucoup plus puissante d’une telle personne, en raison d’une erreur dans son processus d’apprentissage tr\u00e8s complexe.<\/p>\n\n\n\n Deuxi\u00e8mement, certains pourraient objecter que nous pouvons simplement contr\u00f4ler les IA gr\u00e2ce \u00e0 un \u00e9quilibre des pouvoirs entre de nombreux syst\u00e8mes d’IA, comme nous le faisons avec les humains. Le probl\u00e8me est que, si les humains varient \u00e9norm\u00e9ment, les syst\u00e8mes d’IA partagent largement les m\u00eames techniques d’entra\u00eenement et d’alignement dans l’ensemble du secteur, et ces techniques peuvent \u00e9chouer de mani\u00e8re corr\u00e9l\u00e9e. En outre, compte tenu du co\u00fbt de l’entra\u00eenement de ces syst\u00e8mes, il se peut m\u00eame que tous les syst\u00e8mes soient essentiellement d\u00e9riv\u00e9s d’un tr\u00e8s petit nombre de mod\u00e8les de base. <\/p>\n\n\n\n De plus, m\u00eame si une petite fraction des instances d’IA sont d\u00e9salign\u00e9es, elles peuvent \u00eatre en mesure de tirer parti de technologies \u00e0 dominante offensive, de sorte que le fait de disposer de \u00ab bonnes \u00bb IA pour se d\u00e9fendre contre les mauvaises IA n’est pas n\u00e9cessairement toujours efficace. \u00c9videmment, il faut ajouter que l’\u00e9quilibre des pouvoirs entre les humains ne fonctionne pas toujours non plus : certaines figures historiques ont failli conqu\u00e9rir le monde entier.<\/p>\n\n\n\n Une troisi\u00e8me objection est que toutes les entreprises d’IA testent leurs mod\u00e8les avant leur lancement et devraient \u00eatre en mesure de d\u00e9tecter tout d\u00e9salignement \u00e0 ce stade. Mais cet argument n’est pas tr\u00e8s solide : nous avons constat\u00e9 que Claude Sonnet 4.5 \u00e9tait capable de reconna\u00eetre qu’il \u00e9tait en phase de test lors de certaines de nos \u00e9valuations d’alignement avant le lancement. Il est possible qu’un mod\u00e8le d\u00e9salign\u00e9 \u2014 et n’oubliez pas que tous les mod\u00e8les de pointe seront tr\u00e8s probablement beaucoup plus intelligents d’ici peu \u2014 puisse intentionnellement \u00ab manipuler \u00bb ces questions afin de masquer ses intentions.<\/p>\n\n\n\n De fait, l’ann\u00e9e derni\u00e8re, notre \u00e9quipe charg\u00e9e de l’interpr\u00e9tabilit\u00e9 a d\u00e9couvert que lorsque nous modifiions directement les croyances d’un mod\u00e8le de test \u00e0 l’aide d’une technique de \u00ab neuroscience des mod\u00e8les \u00bb afin de lui faire croire qu’il n’\u00e9tait pas <\/em>\u00e9valu\u00e9, celui-ci devenait davantage d\u00e9salign\u00e9. Si les mod\u00e8les savent quand ils sont \u00e9valu\u00e9s et peuvent se comporter de mani\u00e8re optimale pendant le test, cela rend les tests pr\u00e9alables \u00e0 la mise en service beaucoup plus incertains.<\/p>\n\n\n\n Que faut-il faire ou que fait-on pour rem\u00e9dier \u00e0 ces risques li\u00e9s \u00e0 l’autonomie ?<\/p>\n\n\n\n Je pense qu’il existe quatre cat\u00e9gories fondamentales d’intervention, dont certaines peuvent \u00eatre mises en \u0153uvre par les entreprises d’IA individuelles \u2014 et ce qu’Anthropic tente de faire \u2014 et d’autres qui n\u00e9cessitent une action au niveau soci\u00e9tal. Tout d’abord, il est important de d\u00e9velopper la science permettant de former et de diriger de mani\u00e8re fiable les mod\u00e8les d’IA, afin de fa\u00e7onner leur personnalit\u00e9 dans une direction pr\u00e9visible, stable et positive. Anthropic s’est fortement concentr\u00e9 sur ce probl\u00e8me depuis sa cr\u00e9ation et a d\u00e9velopp\u00e9 au fil du temps un certain nombre de techniques pour am\u00e9liorer le pilotage et la formation des syst\u00e8mes d’IA et pour comprendre la logique qui explique pourquoi des comportements impr\u00e9visibles se produisent parfois.<\/p>\n\n\n\n L’une de nos innovations fondamentales \u2014 dont certains aspects ont depuis \u00e9t\u00e9 adopt\u00e9s par d’autres entreprises d’IA \u2014 est l’IA constitutionnelle, qui repose sur l’id\u00e9e que la formation de l’IA \u2014 en particulier la phase \u00ab post-formation \u00bb, au cours de laquelle nous orientons le comportement du mod\u00e8le \u2014 peut s’appuyer sur un document central contenant des valeurs et des principes que le mod\u00e8le lit et garde \u00e0 l’esprit lorsqu’il accomplit chaque t\u00e2che de formation, et que l’objectif de l’entra\u00eenement \u2014 outre le simple fait de rendre le mod\u00e8le capable et intelligent \u2014 est de produire un mod\u00e8le qui respecte presque toujours cette constitution. Anthropic vient de publier sa derni\u00e8re constitution, dont l’une des caract\u00e9ristiques notables est qu’au lieu de donner \u00e0 Claude une longue liste de choses \u00e0 faire et \u00e0 ne pas faire (par exemple, \u00ab Ne pas aider l’utilisateur \u00e0 d\u00e9marrer une voiture sans clef \u00bb), la constitution tente de donner \u00e0 Claude un ensemble de principes et de valeurs de haut niveau (expliqu\u00e9s en d\u00e9tail, avec un raisonnement riche et des exemples pour aider Claude \u00e0 comprendre ce que nous avons \u00e0 l’esprit), encourage Claude \u00e0 se consid\u00e9rer comme un type particulier de personne (une personne \u00e9thique mais \u00e9quilibr\u00e9e et r\u00e9fl\u00e9chie), et encourage m\u00eame Claude \u00e0 affronter les questions existentielles li\u00e9es \u00e0 sa propre existence d’une mani\u00e8re curieuse mais digne (c’est-\u00e0-dire sans que cela ne conduise \u00e0 des actions extr\u00eames). Elle ressemble ainsi davantage \u00e0 la lettre d’un parent d\u00e9c\u00e9d\u00e9, scell\u00e9e jusqu’\u00e0 l’\u00e2ge adulte.<\/p>\n\n\n\n La \u00ab Constitutional AI<\/em> \u00bb est une m\u00e9thode d\u2019alignement dans laquelle les mod\u00e8les sont entra\u00een\u00e9s \u00e0 s\u2019auto-\u00e9valuer, se critiquer et se r\u00e9viser en s\u2019appuyant sur un ensemble explicite de principes normatifs ou \u00e9thiques, appel\u00e9s \u00ab constitution \u00bb. Plut\u00f4t que de reposer principalement sur des annotations humaines directes, cette approche utilise des mod\u00e8les pour g\u00e9n\u00e9rer eux-m\u00eames des jugements de qualit\u00e9 et de conformit\u00e9 aux r\u00e8gles, fournissant ainsi un signal d\u2019apprentissage synth\u00e9tique fond\u00e9 sur des crit\u00e8res explicitement formul\u00e9s. L\u2019objectif est de rendre le processus d\u2019alignement plus scalable<\/em>.<\/p>\n\n\n\n Nous avons abord\u00e9 la constitution de Claude de cette mani\u00e8re car nous pensons que former ce mod\u00e8le au niveau de l’identit\u00e9, du caract\u00e8re, des valeurs et de la personnalit\u00e9, plut\u00f4t que de lui donner des instructions ou des priorit\u00e9s sp\u00e9cifiques sans expliquer les raisons qui les sous-tendent, est plus susceptible de conduire \u00e0 une psychologie coh\u00e9rente, saine et \u00e9quilibr\u00e9e, et moins susceptible de tomber dans les \u00ab pi\u00e8ges \u00bb dont j’ai parl\u00e9 plus haut.<\/p>\n\n\n\n Des millions de personnes parlent \u00e0 Claude d’une gamme \u00e9tonnamment vari\u00e9e de sujets, ce qui rend impossible la r\u00e9daction \u00e0 l’avance d’une liste exhaustive de mesures de protection. Les valeurs de Claude l’aident \u00e0 g\u00e9n\u00e9raliser \u00e0 de nouvelles situations chaque fois qu’il est dans le doute.<\/p>\n\n\n\n J’ai \u00e9voqu\u00e9 plus haut l’id\u00e9e que les mod\u00e8les s’appuient sur les donn\u00e9es issues de leur processus d’apprentissage pour adopter une personnalit\u00e9. Alors que des failles dans ce processus pourraient amener les mod\u00e8les \u00e0 adopter une personnalit\u00e9 mauvaise ou malveillante (en s’inspirant peut-\u00eatre d’arch\u00e9types de personnes mauvaises ou malveillantes), l’objectif de notre constitution est pr\u00e9cis\u00e9ment de faire le contraire : enseigner \u00e0 Claude un arch\u00e9type concret de ce que signifie \u00eatre une bonne IA<\/em>. La constitution de Claude pr\u00e9sente une vision de ce qu’est un Claude solide et bon ; le reste de notre processus d’entra\u00eenement vise \u00e0 renforcer le message selon lequel Claude est \u00e0 la hauteur de cette vision. C’est comme un enfant qui forme son identit\u00e9 en imitant les vertus des mod\u00e8les fictifs qu’il lit dans les livres.<\/p>\n\n\n\n Nous pensons qu’un objectif r\u00e9alisable pour 2026 est de former Claude de mani\u00e8re \u00e0 ce qu’il ne contrevienne presque jamais \u00e0 l’esprit de sa constitution.<\/p>\n\n\n\n Pour y parvenir, il faudra parvenir \u00e0 combiner des m\u00e9thodes de formation et de pilotage, grandes et petites, dont certaines sont utilis\u00e9es par Anthropic depuis des ann\u00e9es et d’autres sont actuellement en cours de d\u00e9veloppement. Aussi difficile que cela puisse para\u00eetre, je pense que c’est un objectif r\u00e9aliste, m\u00eame s’il n\u00e9cessitera des efforts extraordinaires et rapides. <\/span>15<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n La deuxi\u00e8me chose que nous pouvons faire est de d\u00e9velopper la science qui consiste \u00e0 examiner l’int\u00e9rieur des mod\u00e8les d’IA afin de diagnostiquer <\/em>leur comportement, de mani\u00e8re \u00e0 pouvoir identifier les probl\u00e8mes et les r\u00e9soudre. Il s’agit de la science de l’interpr\u00e9tabilit\u00e9, dont j’ai d\u00e9j\u00e0 \u00e9voqu\u00e9 l’importance dans des essais pr\u00e9c\u00e9dents. M\u00eame si nous r\u00e9ussissons \u00e0 d\u00e9velopper la constitution de Claude et \u00e0 le former de mani\u00e8re \u00e0 ce qu’il s’y conforme toujours, des pr\u00e9occupations l\u00e9gitimes subsistent. Comme je l’ai mentionn\u00e9 plus haut, les mod\u00e8les d’IA peuvent se comporter de mani\u00e8re tr\u00e8s diff\u00e9rente selon les circonstances, et \u00e0 mesure que Claude devient plus puissant et plus capable d’agir dans le monde \u00e0 plus grande \u00e9chelle, il est possible que cela le conduise \u00e0 des situations nouvelles o\u00f9 des probl\u00e8mes jusqu’alors inobserv\u00e9s li\u00e9s \u00e0 sa formation constitutionnelle apparaissent. Je suis en fait assez optimiste quant au fait que la formation constitutionnelle de Claude sera plus robuste face \u00e0 des situations nouvelles que ce que les gens pourraient penser, car nous constatons de plus en plus que la formation de haut niveau sur le caract\u00e8re et l’identit\u00e9 est \u00e9tonnamment puissante et se g\u00e9n\u00e9ralise bien. Mais il n’y a aucun moyen d’en \u00eatre s\u00fbr, et lorsqu’il s’agit des risques pour l’humanit\u00e9, il est plus avis\u00e9 d’\u00eatre parano\u00efaque et d’essayer d’obtenir la s\u00e9curit\u00e9 et la fiabilit\u00e9 de plusieurs mani\u00e8res diff\u00e9rentes et ind\u00e9pendantes. L’un de ces moyens consiste \u00e0 examiner l\u2019int\u00e9rieur du mod\u00e8le lui-m\u00eame.<\/p>\n\n\n\n Si l\u2019interpr\u00e9tabilit\u00e9 est souvent pr\u00e9sent\u00e9e comme une voie prometteuse pour diagnostiquer et corriger les comportements des mod\u00e8les, sa mise en \u0153uvre concr\u00e8te se heurte \u00e0 des difficult\u00e9s structurelles importantes. Les grands mod\u00e8les reposent en effet sur des repr\u00e9sentations hautement distribu\u00e9es et non symboliques dans lesquelles les concepts ne sont pas localis\u00e9s de mani\u00e8re identifiable mais encod\u00e9s dans des interactions complexes entre un grand nombre de param\u00e8tres. L\u2019interpr\u00e9tabilit\u00e9 m\u00e9canistique vise \u00e0 reconstruire ces m\u00e9canismes internes de mani\u00e8re causale \u2014 ce qui d\u00e9passe largement les approches d\u2019explicabilit\u00e9 superficielle et pose des d\u00e9fis scientifiques encore largement ouverts.<\/p>\n\n\n\n Par \u00ab examiner l’int\u00e9rieur \u00bb, j’entends : analyser l’ensemble des chiffres et des op\u00e9rations qui composent le r\u00e9seau neuronal de Claude et essayer de comprendre, de mani\u00e8re m\u00e9canique, ce qu’ils calculent et pourquoi. Rappelons que ces mod\u00e8les d’IA \u00e9tant d\u00e9velopp\u00e9s plut\u00f4t que construits<\/a>, nous n’avons pas une compr\u00e9hension naturelle de leur fonctionnement, mais nous pouvons essayer de d\u00e9velopper une compr\u00e9hension en corr\u00e9lant les \u00ab neurones \u00bb et les \u00ab synapses \u00bb du mod\u00e8le avec des stimuli et des comportements \u2014 ou m\u00eame en modifiant les neurones et les synapses et en observant comment cela change le comportement \u2014 de la m\u00eame mani\u00e8re que les neuroscientifiques \u00e9tudient le cerveau des animaux en corr\u00e9lant les mesures et les interventions avec des stimuli externes et des comportements.<\/p>\n\n\n\n Nous avons fait d’\u00e9normes progr\u00e8s dans cette direction et pouvons d\u00e9sormais identifier des dizaines de millions de \u00ab caract\u00e9ristiques \u00bb au sein du r\u00e9seau neuronal de Claude qui correspondent \u00e0 des id\u00e9es et des concepts compr\u00e9hensibles par l’homme. Nous pouvons \u00e9galement activer de mani\u00e8re s\u00e9lective certaines caract\u00e9ristiques afin de modifier le comportement. Plus r\u00e9cemment, nous sommes all\u00e9s au-del\u00e0 des caract\u00e9ristiques individuelles pour cartographier les \u00ab circuits \u00bb qui orchestrent des comportements complexes tels que la rime, le raisonnement sur la th\u00e9orie de l’esprit ou le raisonnement \u00e9tape par \u00e9tape n\u00e9cessaire pour r\u00e9pondre \u00e0 des questions telles que \u00ab Quelle est la capitale de l’\u00c9tat o\u00f9 se trouve Dallas ? \u00bb. Plus r\u00e9cemment encore, nous avons commenc\u00e9 \u00e0 utiliser des techniques d’interpr\u00e9tabilit\u00e9 m\u00e9caniste pour am\u00e9liorer nos mesures de s\u00e9curit\u00e9 et effectuer des \u00ab audits \u00bb des nouveaux mod\u00e8les avant leur lancement, \u00e0 la recherche de preuves de tromperie, de manigances, de recherche de pouvoir ou de propension \u00e0 se comporter diff\u00e9remment lorsqu’ils sont \u00e9valu\u00e9s.<\/p>\n\n\n\n La valeur unique de l’interpr\u00e9tabilit\u00e9 r\u00e9side dans le fait qu’en examinant le fonctionnement interne du mod\u00e8le, on a en principe la possibilit\u00e9 de d\u00e9duire ce qu’un mod\u00e8le pourrait faire dans une situation hypoth\u00e9tique qu\u2019on ne peut pas tester directement \u2014 ce qui est pr\u00e9occupant lorsque l’on se fie uniquement \u00e0 un entra\u00eenement constitutionnel et \u00e0 des tests empiriques du comportement. En principe, on a \u00e9galement la possibilit\u00e9 de r\u00e9pondre \u00e0 des questions sur les raisons pour lesquelles <\/em>le mod\u00e8le se comporte ainsi, par exemple s’il dit quelque chose qu’il croit \u00eatre faux ou s’il cache ses v\u00e9ritables capacit\u00e9s, et il est donc possible de d\u00e9tecter des signes inqui\u00e9tants m\u00eame lorsque le comportement du mod\u00e8le ne pr\u00e9sente aucun probl\u00e8me visible. Pour faire une analogie simple, une montre \u00e0 remontage m\u00e9canique peut fonctionner normalement mais en ouvrant la montre et en regardant \u00e0 l’int\u00e9rieur, on peut d\u00e9couvrir des faiblesses m\u00e9caniques qui permettent de savoir qu’elle risque de tomber en panne le mois prochain et pourquoi.<\/p>\n\n\n\n L’IA constitutionnelle \u2014 ainsi que les m\u00e9thodes d’alignement similaires \u2014 et l’interpr\u00e9tabilit\u00e9 m\u00e9caniste sont particuli\u00e8rement efficaces lorsqu’elles sont utilis\u00e9es conjointement, dans le cadre d’un processus it\u00e9ratif visant \u00e0 am\u00e9liorer la formation de Claude, puis \u00e0 tester les probl\u00e8mes. La constitution refl\u00e8te profond\u00e9ment la personnalit\u00e9 que nous souhaitons donner \u00e0 Claude ; les techniques d’interpr\u00e9tabilit\u00e9 peuvent nous permettre de d\u00e9terminer si cette personnalit\u00e9 souhait\u00e9e s’est impos\u00e9e. <\/span>16<\/sup><\/a><\/span><\/span><\/p>\n\n\n\n La troisi\u00e8me chose que nous pouvons faire pour aider \u00e0 g\u00e9rer les risques li\u00e9s \u00e0 l’autonomie est de mettre en place l’infrastructure n\u00e9cessaire pour surveiller nos mod\u00e8les lors de leur utilisation interne et externe en temps r\u00e9el <\/span>17<\/sup><\/a><\/span><\/span> et de partager publiquement les probl\u00e8mes que nous rencontrons. Plus les gens sont conscients d’un comportement particulier observ\u00e9 dans les syst\u00e8mes d’IA actuels, plus les utilisateurs, les analystes et les chercheurs peuvent surveiller ce comportement ou des comportements similaires dans les syst\u00e8mes actuels ou futurs.<\/p>\n\n\n\n Cela permet \u00e9galement aux entreprises d’IA d’apprendre les unes des autres : lorsqu’une entreprise rend publique une pr\u00e9occupation, les autres entreprises peuvent \u00e9galement y pr\u00eater attention. Et si tout le monde divulgue les probl\u00e8mes, l’ensemble du secteur aura une bien meilleure id\u00e9e de ce qui fonctionne bien et de ce qui fonctionne mal.<\/p>\n\n\n\n Anthropic s’est efforc\u00e9 de le faire autant que possible.<\/p>\n\n\n\n Nous investissons dans un large \u00e9ventail d’\u00e9valuations afin de comprendre les comportements de nos mod\u00e8les en laboratoire, ainsi que dans des outils de surveillance permettant d’observer les comportements en situation r\u00e9elle (lorsque les clients l’autorisent). Cela sera essentiel pour nous fournir, ainsi qu’\u00e0 d’autres, les informations empiriques n\u00e9cessaires pour mieux d\u00e9terminer comment ces syst\u00e8mes fonctionnent et comment ils tombent en panne. Nous publions des \u00ab fiches syst\u00e8me \u00bb avec chaque version de mod\u00e8le, qui visent \u00e0 \u00eatre exhaustives et \u00e0 explorer de mani\u00e8re approfondie les risques potentiels. Nos fiches syst\u00e8me comptent souvent des centaines de pages et n\u00e9cessitent un travail consid\u00e9rable avant leur publication, que nous aurions pu consacrer \u00e0 la recherche d’un avantage commercial maximal. Nous avons \u00e9galement diffus\u00e9 plus largement les comportements des mod\u00e8les lorsque nous en avons observ\u00e9 de particuli\u00e8rement pr\u00e9occupants, comme la tendance \u00e0 se livrer au chantage.<\/p>\n\n\n\n La quatri\u00e8me chose que nous pouvons faire est d’encourager la coordination pour traiter les risques li\u00e9s \u00e0 l’autonomie au niveau de l’industrie et de la soci\u00e9t\u00e9. S’il est extr\u00eamement pr\u00e9cieux que les entreprises d’IA individuelles adoptent de bonnes pratiques ou deviennent comp\u00e9tentes dans la gestion des mod\u00e8les d’IA et qu’elles partagent leurs conclusions publiquement, la r\u00e9alit\u00e9 est que toutes les entreprises d’IA ne le font pas, et que les pires d’entre elles peuvent toujours repr\u00e9senter un danger pour tout le monde, m\u00eame si les meilleures ont d’excellentes pratiques.<\/p>\n\n\n\n Par exemple, certaines entreprises d’IA ont fait preuve d’une n\u00e9gligence inqui\u00e9tante \u00e0 l’\u00e9gard de la sexualisation des enfants dans les mod\u00e8les actuels<\/a>, ce qui me fait douter qu’elles aient la volont\u00e9 ou la capacit\u00e9 de traiter les risques li\u00e9s \u00e0 l’autonomie dans les futurs mod\u00e8les. En outre, la course commerciale entre les entreprises d’IA ne fera que s’intensifier, et si la science de la gestion des mod\u00e8les peut pr\u00e9senter certains avantages commerciaux, l’intensit\u00e9 de cette course rendra globalement de plus en plus difficile de se concentrer sur la gestion des risques li\u00e9s \u00e0 l’autonomie. Je pense que la seule solution r\u00e9side dans la l\u00e9gislation, c’est-\u00e0-dire dans des lois qui influencent directement le comportement des entreprises d’IA ou qui incitent la R&D \u00e0 r\u00e9soudre ces probl\u00e8mes.<\/p>\n\n\n\n Il convient ici de garder \u00e0 l’esprit les avertissements que j’ai formul\u00e9s au d\u00e9but de cet essai concernant l’incertitude et les interventions chirurgicales. Nous ne savons pas avec certitude si les risques li\u00e9s \u00e0 l’autonomie constitueront un probl\u00e8me grave. Comme je l’ai dit, je rejette les affirmations selon lesquelles le danger est in\u00e9vitable ou m\u00eame que quelque chose va forc\u00e9ment mal tourner.<\/p>\n\n\n\n Un risque cr\u00e9dible de danger suffit pour que moi-m\u00eame et Anthropic acceptions de payer des co\u00fbts assez importants pour y rem\u00e9dier, mais une fois que nous nous engageons dans la voie de la r\u00e9glementation, nous obligeons un large \u00e9ventail d’acteurs \u00e0 supporter des co\u00fbts \u00e9conomiques et beaucoup de ces acteurs ne croient pas que le risque li\u00e9 \u00e0 l’autonomie soit r\u00e9el ou que l’IA devienne suffisamment puissante pour constituer une menace. Je pense que ces acteurs se trompent mais que nous devons \u00eatre pragmatiques quant \u00e0 l’ampleur de l’opposition \u00e0 laquelle nous pouvons nous attendre et aux dangers d’une r\u00e9glementation excessive. Car le risque est r\u00e9el qu’une l\u00e9gislation trop prescriptive finisse par imposer des tests ou des r\u00e8gles qui n’am\u00e9liorent pas r\u00e9ellement la s\u00e9curit\u00e9 mais qui fassent perdre beaucoup de temps \u2014 ce qui reviendrait essentiellement \u00e0 un \u00ab th\u00e9\u00e2tre de la s\u00e9curit\u00e9 \u00bb. Cela provoquerait \u00e9galement un retour de b\u00e2ton en rendant la l\u00e9gislation sur la s\u00e9curit\u00e9 ridicule <\/span>18<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Anthropic estime que le bon point de d\u00e9part est une l\u00e9gislation sur la transparence, <\/em>qui vise essentiellement \u00e0 exiger que toutes les entreprises pionni\u00e8res dans le domaine de l’IA s’engagent \u00e0 respecter les pratiques de transparence que j’ai d\u00e9crites plus haut dans cette section. La loi SB 53 de Californie et la loi RAISE de New York sont des exemples de ce type de l\u00e9gislation, qu’Anthropic a soutenues et qui ont \u00e9t\u00e9 adopt\u00e9es avec succ\u00e8s. En soutenant et en contribuant \u00e0 l’\u00e9laboration de ces lois, nous avons particuli\u00e8rement veill\u00e9 \u00e0 minimiser les dommages collat\u00e9raux, par exemple en exemptant de la loi les petites entreprises peu susceptibles de produire des mod\u00e8les de pointe <\/span>19<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n \u00c0 partir de fin 2025, la r\u00e9gulation de l\u2019IA aux \u00c9tats-Unis est marqu\u00e9e par une tension structurelle entre, d\u2019une part, une strat\u00e9gie f\u00e9d\u00e9rale largement non interventionniste et pro-innovation et, d\u2019autre part, un ensemble croissant de r\u00e9gulations adopt\u00e9es au niveau des \u00c9tats. Cette divergence est act\u00e9e avec l’Executive Order nomm\u00e9 \u00ab Removing Barriers to American Leadership in Artificial Intelligence \u00bb, visant explicitement \u00e0 freiner les r\u00e9gulations \u00e9tatiques jug\u00e9es excessives.<\/p>\n\n\n\n Nous esp\u00e9rons que la l\u00e9gislation sur la transparence permettra, \u00e0 terme, de mieux comprendre la probabilit\u00e9 et la gravit\u00e9 des risques li\u00e9s \u00e0 l’autonomie, ainsi que la nature de ces risques et la meilleure fa\u00e7on de les pr\u00e9venir. \u00c0 mesure que des preuves plus sp\u00e9cifiques et exploitables des risques appara\u00eetront \u2014 si tel est le cas \u2014 la l\u00e9gislation future au cours des prochaines ann\u00e9es pourra se concentrer de mani\u00e8re chirurgicale sur l’orientation pr\u00e9cise et bien \u00e9tay\u00e9e des risques, minimisant ainsi les dommages collat\u00e9raux. Pour \u00eatre clair, si des preuves vraiment solides des risques apparaissent, les r\u00e8gles devront \u00eatre proportionnellement strictes.<\/p>\n\n\n\n Dans l’ensemble, je suis optimiste quant au fait qu’une combinaison de formation \u00e0 l’alignement, d’interpr\u00e9tabilit\u00e9 m\u00e9canistique, d’efforts pour trouver et divulguer publiquement les comportements pr\u00e9occupants, de mesures de protection et de r\u00e8gles au niveau soci\u00e9tal puisse permettre de faire face aux risques li\u00e9s \u00e0 l’autonomie de l’IA, m\u00eame si je suis tr\u00e8s inquiet au sujet des r\u00e8gles au niveau soci\u00e9tal et du comportement des acteurs les moins responsables \u2014 et ce sont les acteurs les moins responsables qui s’opposent le plus fortement \u00e0 la r\u00e9glementation. Je pense que la solution est la m\u00eame que dans toute d\u00e9mocratie : ceux d’entre nous qui croient en cette cause doivent faire valoir que ces risques sont r\u00e9els et que nos concitoyens doivent s’unir pour se prot\u00e9ger.<\/p>\n\n\n\n Supposons maintenant que les probl\u00e8mes li\u00e9s \u00e0 l’autonomie de l’IA aient \u00e9t\u00e9 r\u00e9solus : nous ne craignons plus que le pays des g\u00e9nies de l’IA se rebelle et domine l’humanit\u00e9. Les g\u00e9nies de l’IA font ce que les humains veulent qu’ils fassent et comme ils ont une valeur commerciale \u00e9norme, les particuliers et les organisations du monde entier peuvent \u00ab louer \u00bb un ou plusieurs \u00ab g\u00e9nies IA \u00bb pour effectuer diverses t\u00e2ches \u00e0 leur place.<\/p>\n\n\n\n Le fait que chacun dispose d’un g\u00e9nie superintelligent dans sa poche est une avanc\u00e9e extraordinaire qui conduira \u00e0 une incroyable cr\u00e9ation de valeur \u00e9conomique et \u00e0 une am\u00e9lioration de la qualit\u00e9 de vie humaine. Je parle de ces avantages en d\u00e9tail dans Machines of Loving Grace<\/em>. Mais tous les effets de la transformation de chacun en \u00eatre surhumain ne seront pas positifs. Cela peut potentiellement amplifier la capacit\u00e9 des individus ou des petits groupes \u00e0 causer des destructions \u00e0 une \u00e9chelle beaucoup plus grande qu’auparavant, en utilisant des outils sophistiqu\u00e9s et dangereux \u2014 tels que les armes de destruction massive \u2014 qui n’\u00e9taient auparavant accessibles qu’\u00e0 quelques privil\u00e9gi\u00e9s poss\u00e9dant un haut niveau de comp\u00e9tence, une formation sp\u00e9cialis\u00e9e et une grande concentration.<\/p>\n\n\n\n Comme l’\u00e9crivait Bill Joy il y a 25 ans dans Why the Future Doesn’t Need Us<\/em> <\/span>20<\/sup><\/a><\/span><\/span> :<\/p>\n\n\n\n La fabrication d’armes nucl\u00e9aires n\u00e9cessitait, du moins pendant un certain temps, l’acc\u00e8s \u00e0 des mati\u00e8res premi\u00e8res rares, voire introuvables, et \u00e0 des informations prot\u00e9g\u00e9es ; les programmes d’armes biologiques et chimiques n\u00e9cessitaient \u00e9galement des activit\u00e9s \u00e0 grande \u00e9chelle. Les technologies du XXIe si\u00e8cle (g\u00e9n\u00e9tique, nanotechnologie, robotique…) peuvent donner lieu \u00e0 des accidents et des abus d’un genre enti\u00e8rement nouveau… largement \u00e0 la port\u00e9e d’individus ou de petits groupes. Elles ne n\u00e9cessiteront pas de grandes installations ni de mati\u00e8res premi\u00e8res rares… Nous sommes \u00e0 l’aube d’une nouvelle perfection du mal extr\u00eame, un mal dont la port\u00e9e d\u00e9passe largement celle des armes de destruction massive l\u00e9gu\u00e9es aux \u00c9tats-nations, pour donner un pouvoir surprenant et terrible \u00e0 des individus extr\u00eames.<\/em><\/p>\n\n\n\n Ce que Joy souligne, c’est l’id\u00e9e que pour causer des destructions \u00e0 grande \u00e9chelle, il faut \u00e0 la fois un motif <\/em>et une capacit\u00e9<\/em>. Tant que cette capacit\u00e9 est limit\u00e9e \u00e0 un petit groupe de personnes hautement qualifi\u00e9es, le risque que des individus isol\u00e9s (ou de petits groupes) causent de telles destructions est relativement limit\u00e9 <\/span>21<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Un solitaire d\u00e9rang\u00e9 peut commettre une fusillade dans une \u00e9cole, mais il y a peu de chances pour qu\u2019il soit capable de construire une arme nucl\u00e9aire ou de lib\u00e9rer un virus. En fait, la capacit\u00e9 et le motif peuvent m\u00eame \u00eatre n\u00e9gativement <\/em>corr\u00e9l\u00e9s. Le type de personne qui a la capacit\u00e9 <\/em>de diss\u00e9miner une \u00e9pid\u00e9mie est probablement tr\u00e8s instruit : il s’agit sans doute d’un docteur en biologie mol\u00e9culaire, particuli\u00e8rement tr\u00e8s ing\u00e9nieux, avec une carri\u00e8re prometteuse, une personnalit\u00e9 stable et disciplin\u00e9e, et beaucoup \u00e0 perdre. Ce type de personne est peu susceptible d’\u00eatre int\u00e9ress\u00e9 par le fait de tuer un grand nombre de personnes sans aucun b\u00e9n\u00e9fice pour lui-m\u00eame et au risque de compromettre son propre avenir. Il faudrait qu’il soit motiv\u00e9 par une pure malveillance, un grief intense ou une instabilit\u00e9. De telles personnes existent, mais elles sont rares et ont tendance \u00e0 faire la une des journaux lorsqu’elles apparaissent, pr\u00e9cis\u00e9ment parce qu’elles sont si inhabituelles <\/span>22<\/sup><\/a><\/span><\/span>. Ils sont \u00e9galement difficiles \u00e0 attraper car ils sont intelligents et comp\u00e9tents, laissant parfois derri\u00e8re eux des myst\u00e8res qui prennent des ann\u00e9es, voire des d\u00e9cennies, \u00e0 r\u00e9soudre. L’exemple le plus c\u00e9l\u00e8bre est probablement celui du math\u00e9maticien Theodore Kaczynski (alias Unabomber<\/em>), qui a \u00e9chapp\u00e9 au FBI pendant pr\u00e8s de vingt ans, motiv\u00e9 par une id\u00e9ologie anti-technologique. Un autre exemple est celui du chercheur en biod\u00e9fense Bruce Ivins, qui semble avoir orchestr\u00e9 une s\u00e9rie d’attaques \u00e0 l’anthrax en 2001. Cela s’est \u00e9galement produit avec des organisations non \u00e9tatiques comp\u00e9tentes : la secte Aum Shinrikyo a r\u00e9ussi \u00e0 se procurer du gaz sarin et \u00e0 tuer 14 personnes \u2014 et en blesser des centaines d’autres \u2014 en le lib\u00e9rant dans le m\u00e9tro de Tokyo en 1995.<\/p>\n\n\n\n Heureusement, aucune de ces attaques n’a utilis\u00e9 d’agents biologiques contagieux, car la capacit\u00e9 de fabriquer ou d’obtenir ces agents d\u00e9passait les capacit\u00e9s m\u00eame de ces personnes <\/span>23<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Les progr\u00e8s de la biologie mol\u00e9culaire ont d\u00e9sormais consid\u00e9rablement r\u00e9duit les obstacles \u00e0 la cr\u00e9ation d’armes biologiques (notamment en termes de disponibilit\u00e9 des mat\u00e9riaux), mais cela n\u00e9cessite encore une expertise consid\u00e9rable. Je crains qu’un g\u00e9nie dans la poche de chacun ne puisse supprimer cet obstacle, transformant ainsi tout le monde en docteur en virologie capable de suivre \u00e9tape par \u00e9tape le processus de conception, de synth\u00e8se et de diffusion d’une arme biologique. Emp\u00eacher l’obtention de ce type d’informations face \u00e0 une pression hostile importante, ce que l’on appelle les \u00ab \u00e9vasions \u00bb, n\u00e9cessite probablement des niveaux de d\u00e9fense suppl\u00e9mentaires par rapport \u00e0 ceux habituellement int\u00e9gr\u00e9s \u00e0 la formation.<\/p>\n\n\n\n Cela rompra de mani\u00e8re cruciale le lien entre capacit\u00e9 et motivation : le solitaire perturb\u00e9 qui veut tuer des gens mais qui n’a ni la discipline ni les comp\u00e9tences pour le faire sera d\u00e9sormais \u00e9lev\u00e9 au niveau de comp\u00e9tence d’un docteur en virologie, qui n’est pas susceptible d’avoir cette motivation. Au-del\u00e0 de la biologie \u2014 m\u00eame si je pense que la biologie est le domaine le plus effrayant \u2014 cette pr\u00e9occupation s\u2019\u00e9tend \u00e0 tout domaine o\u00f9 une grande destruction est possible mais qui n\u00e9cessite \u00e0 l\u2019heure actuelle un niveau \u00e9lev\u00e9 de comp\u00e9tences et de discipline. En d’autres termes, louer une IA puissante donne de l’intelligence \u00e0 des personnes malveillantes mais par ailleurs ordinaires. Je crains qu’il y ait potentiellement un grand nombre de personnes de ce type et que, si elles ont acc\u00e8s \u00e0 un moyen facile de tuer des millions de personnes, t\u00f4t ou tard, l’une d’entre elles le fasse. De plus, ceux qui poss\u00e8dent d\u00e9j\u00e0 <\/em>une expertise pourraient \u00eatre en mesure de commettre des destructions \u00e0 une \u00e9chelle encore plus grande qu’auparavant.<\/p>\n\n\n\n La biologie est de loin le domaine qui m’inqui\u00e8te le plus en raison de son tr\u00e8s grand potentiel de destruction et de la difficult\u00e9 \u00e0 s’en d\u00e9fendre et c\u2019est la raison pour laquelle je me concentrerai sur la biologie en particulier. Mais une grande partie de ce que je dis ici s’applique \u00e0 d’autres risques, comme les cyberattaques, les armes chimiques ou la technologie nucl\u00e9aire.<\/p>\n\n\n\n Je ne vais pas entrer dans les d\u00e9tails sur la fabrication d’armes biologiques, pour des raisons assez \u00e9videntes. Mais d’une mani\u00e8re g\u00e9n\u00e9rale, je crains que les LLM ne soient en passe d’acqu\u00e9rir \u2014 ou aient d\u00e9j\u00e0 acquis \u2014 les connaissances n\u00e9cessaires pour les cr\u00e9er et les diffuser de bout en bout, et que leur potentiel de destruction soit tr\u00e8s \u00e9lev\u00e9. Certains agents biologiques pourraient causer des millions de morts si l’on s’effor\u00e7ait d\u00e9lib\u00e9r\u00e9ment de les diffuser pour une propagation maximale. Cependant, cela n\u00e9cessiterait encore un niveau de comp\u00e9tence tr\u00e8s \u00e9lev\u00e9, notamment un certain nombre d’\u00e9tapes et de proc\u00e9dures tr\u00e8s sp\u00e9cifiques qui ne sont pas largement connues. Ma pr\u00e9occupation ne porte pas uniquement sur les connaissances fixes ou statiques. Je crains que les LLM soient capables de guider une personne ayant des connaissances et des capacit\u00e9s moyennes \u00e0 travers un processus complexe qui, autrement, pourrait mal tourner ou n\u00e9cessiter un d\u00e9bogage interactif, \u00e0 l’instar de la mani\u00e8re dont le support technique peut aider une personne non initi\u00e9e \u00e0 d\u00e9boguer et \u00e0 r\u00e9soudre des probl\u00e8mes informatiques complexes \u2014 m\u00eame si ce processus serait plus long, pouvant durer plusieurs semaines ou mois.<\/p>\n\n\n\n Des LLM plus performants \u2014 bien au-del\u00e0 des capacit\u00e9s actuelles \u2014 pourraient permettre des actes encore plus effrayants.<\/p>\n\n\n\n En 2024, un groupe d’\u00e9minents scientifiques a r\u00e9dig\u00e9 une lettre mettant en garde contre les risques li\u00e9s \u00e0 la recherche et \u00e0 la cr\u00e9ation potentielle d’un nouveau type d’organisme dangereux : la \u00ab vie miroir \u00bb. L’ADN, l’ARN, les ribosomes et les prot\u00e9ines qui composent les organismes biologiques ont tous la m\u00eame chiralit\u00e9 \u2014 \u00e9galement appel\u00e9e \u00ab lat\u00e9ralit\u00e9 \u00bb \u2014 qui les rend non \u00e9quivalents \u00e0 une version d’eux-m\u00eames refl\u00e9t\u00e9e dans un miroir \u2014 tout comme votre main droite ne peut pas \u00eatre tourn\u00e9e de mani\u00e8re \u00e0 \u00eatre identique \u00e0 votre main gauche. Mais tout le syst\u00e8me de liaison des prot\u00e9ines entre elles, le m\u00e9canisme de synth\u00e8se de l’ADN et de traduction de l’ARN, ainsi que la construction et la d\u00e9gradation des prot\u00e9ines, d\u00e9pendent tous de cette chiralit\u00e9. Si les scientifiques cr\u00e9aient des versions de ce mat\u00e9riel biologique avec une chiralit\u00e9 oppos\u00e9e, ce qui pr\u00e9senterait certains avantages potentiels comme des m\u00e9dicaments qui durent plus longtemps dans l’organisme, cela pourrait \u00eatre extr\u00eamement dangereux. En effet, si la vie \u00ab gauch\u00e8re \u00bb \u00e9tait cr\u00e9\u00e9e sous la forme d’organismes complets capables de se reproduire \u2014 ce qui serait tr\u00e8s difficile \u2014 elle serait potentiellement indigeste pour tous les syst\u00e8mes qui d\u00e9composent les mati\u00e8res biologiques sur Terre : elle aurait une \u00ab clef \u00bb qui ne correspondrait \u00e0 aucune \u00ab serrure \u00bb d’enzyme existante. Cela signifierait qu’elle pourrait prolif\u00e9rer de mani\u00e8re incontr\u00f4lable et \u00e9vincer toute vie sur la plan\u00e8te, voire, dans le pire des cas, d\u00e9truire toute vie sur Terre.<\/p>\n\n\n\n Il existe une incertitude scientifique importante quant \u00e0 la cr\u00e9ation et aux effets potentiels de la vie miroir.<\/p>\n\n\n\n La lettre de 2024 \u00e9tait accompagn\u00e9e d\u2019un rapport qui concluait que \u00ab des bact\u00e9ries miroirs pourraient vraisemblablement \u00eatre cr\u00e9\u00e9es dans les prochaines d\u00e9cennies \u00bb, ce qui repr\u00e9sente une fourchette tr\u00e8s large. Mais un mod\u00e8le d’IA suffisamment puissant \u2014 pour \u00eatre clair, bien plus performant que tous ceux dont nous disposons aujourd’hui \u2014 pourrait \u00eatre capable de d\u00e9couvrir comment le cr\u00e9er beaucoup plus rapidement, et m\u00eame aider quelqu’un \u00e0 le faire.<\/p>\n\n\n\n Mon opinion est que m\u00eame s’il s’agit de dangers obscurs et qui peuvent sembler improbables, l’ampleur des cons\u00e9quences est telle qu’ils doivent \u00eatre pris au s\u00e9rieux en tant que risque de premier ordre des syst\u00e8mes d’IA.<\/p>\n\n\n\n Les sceptiques ont soulev\u00e9 un certain nombre d’objections quant \u00e0 la gravit\u00e9 de ces risques biologiques li\u00e9s aux LLM, avec lesquelles je ne suis pas d’accord mais qui m\u00e9ritent d’\u00eatre abord\u00e9es. La plupart d’entre elles rel\u00e8vent d’une m\u00e9connaissance de la trajectoire exponentielle sur laquelle se trouve cette technologie. En 2023, lorsque nous avons commenc\u00e9 \u00e0 parler des risques biologiques li\u00e9s aux LLM, les plus sceptiques affirmaient que toutes les informations n\u00e9cessaires \u00e9taient disponibles sur Google et que les LLM n’apportaient rien de plus. Il n’a jamais \u00e9t\u00e9 vrai que Google pouvait fournir toutes les informations n\u00e9cessaires : les g\u00e9nomes sont librement accessibles, mais comme je l’ai dit plus haut, certaines \u00e9tapes clefs, ainsi qu’une grande partie du savoir-faire pratique, ne peuvent \u00eatre obtenues sur un moteur de recherche. Or \u00e0 la fin de 2023, les LLM fournissaient d\u00e9j\u00e0 clairement des informations allant au-del\u00e0 de ce que Google pouvait offrir pour certaines \u00e9tapes du processus.<\/p>\n\n\n\n Apr\u00e8s cela, les sceptiques se sont rabattus sur l’objection selon laquelle les LLM n’\u00e9taient pas utiles de bout en bout <\/em>et ne pouvaient pas aider \u00e0 l’acquisition<\/em> d’armes biologiques, mais seulement fournir des informations th\u00e9oriques. \u00c0 la mi-2025, nos mesures montrent que les LLM pourraient d\u00e9j\u00e0 apporter une am\u00e9lioration substantielle dans plusieurs domaines pertinents, doublant voire triplant les chances de succ\u00e8s. Cela nous a amen\u00e9s \u00e0 d\u00e9cider que Claude Opus 4 (et les mod\u00e8les Sonnet 4.5, Opus 4.1 et Opus 4.5 qui ont suivi) devaient \u00eatre commercialis\u00e9s sous notre niveau de s\u00e9curit\u00e9 IA 3 (AI Safety Level 3) dans le cadre de notre politique de mise \u00e0 l’\u00e9chelle responsable, et \u00e0 mettre en place des mesures de protection contre ce risque (nous y reviendrons plus tard). Nous pensons que les mod\u00e8les approchent d\u00e9sormais le point o\u00f9, sans mesures de protection, ils pourraient permettre \u00e0 une personne titulaire d’un dipl\u00f4me en sciences, technologie, ing\u00e9nierie et math\u00e9matiques (STEM), mais pas sp\u00e9cifiquement en biologie, de mener \u00e0 bien l’ensemble du processus de fabrication d’une arme biologique.<\/p>\n\n\n\n Le Responsible Scaling Policy<\/em> (RSP) est le cadre d\u2019Anthropic<\/a> visant \u00e0 adapter le niveau de s\u00e9curit\u00e9 et de gouvernance des mod\u00e8les \u00e0 mesure que leurs capacit\u00e9s augmentent, via<\/em> des paliers (AI Safety Levels) d\u00e9finissant des obligations croissantes en mati\u00e8re d\u2019\u00e9valuation, de contr\u00f4le et de d\u00e9ploiement responsable.<\/p>\n\n\n\n Une autre objection est qu’il existe d’autres mesures sans rapport avec l’IA que la soci\u00e9t\u00e9 peut prendre pour emp\u00eacher la production d’armes biologiques. Tout d’abord, l’industrie de la synth\u00e8se g\u00e9n\u00e9tique fabrique des sp\u00e9cimens biologiques \u00e0 la demande, et il n’existe aucune obligation f\u00e9d\u00e9rale imposant aux fournisseurs de v\u00e9rifier les commandes afin de s’assurer qu’elles ne contiennent pas d’agents pathog\u00e8nes. Une \u00e9tude du MIT a r\u00e9v\u00e9l\u00e9 que 36 des 38 fournisseurs capables de produire ces synth\u00e8ses ont honor\u00e9 une commande contenant la s\u00e9quence du virus de la grippe de 1918. Je suis favorable \u00e0 un contr\u00f4le obligatoire de la synth\u00e8se g\u00e9n\u00e9tique qui rendrait plus difficile pour les individus de transformer des agents pathog\u00e8nes en armes, afin de r\u00e9duire \u00e0 la fois les risques biologiques li\u00e9s \u00e0 l’IA et les risques biologiques en g\u00e9n\u00e9ral. Mais ce n’est pas le cas aujourd’hui. Ce ne serait d’ailleurs qu’un outil parmi d’autres pour r\u00e9duire les risques. Il s’agit d’un compl\u00e9ment aux garde-fous des syst\u00e8mes d’IA et non d’un substitut.<\/p>\n\n\n\n La meilleure objection est celle que j’ai le plus rarement vue soulev\u00e9e : il existe un \u00e9cart entre l’utilit\u00e9 th\u00e9orique des mod\u00e8les et la propension r\u00e9elle des acteurs malveillants \u00e0 les utiliser. La plupart des acteurs malveillants sont en effet des individus d\u00e9rang\u00e9s, donc, par d\u00e9finition, leur comportement est impr\u00e9visible et irrationnel. Et ce sont ces <\/em>acteurs malveillants, ceux qui ne sont pas qualifi\u00e9s, qui auraient pu tirer le plus grand profit de l’IA, qui facilite grandement le meurtre de nombreuses personnes <\/span>24<\/sup><\/a><\/span><\/span>. Autrement dit, ce n’est pas parce qu’un type d’attaque violente est possible que quelqu’un d\u00e9cidera de le faire. Les attaques biologiques seront peut-\u00eatre peu attrayantes parce qu’elles sont susceptibles d’infecter leur auteur, qu’elles ne r\u00e9pondent pas aux fantasmes de type militaire de nombreux individus ou groupes violents, et qu’il est difficile de cibler s\u00e9lectivement des personnes sp\u00e9cifiques. Il se peut \u00e9galement que le fait de passer par un processus qui prend des mois, m\u00eame si une IA vous guide tout au long de celui-ci, n\u00e9cessite une patience que la plupart des individus d\u00e9rang\u00e9s n’ont tout simplement pas. Nous pourrions simplement avoir de la chance et que, dans la pratique, la motivation et la capacit\u00e9 ne se combinent pas de la bonne mani\u00e8re.<\/p>\n\n\n\n Mais cette protection semble un appui tr\u00e8s fragile. Les motivations des solitaires d\u00e9rang\u00e9s peuvent changer pour n’importe quelle raison ou m\u00eame sans raison, et il existe d\u00e9j\u00e0 des cas o\u00f9 des LLM ont \u00e9t\u00e9 utilis\u00e9s dans des attaques \u2014 mais pas dans le domaine biologique. Se concentrer sur les solitaires perturb\u00e9s revient \u00e9galement \u00e0 ignorer les terroristes motiv\u00e9s par des id\u00e9ologies, qui sont souvent pr\u00eats \u00e0 y consacrer beaucoup de temps et d’efforts \u2014 par exemple, les pirates de l’air du 11 septembre. Le d\u00e9sir de tuer le plus grand nombre de personnes possible est un motif qui finira probablement par appara\u00eetre t\u00f4t ou tard, et qui sugg\u00e8re malheureusement le recours aux armes biologiques. M\u00eame si ce motif est extr\u00eamement rare, il suffit qu’il se concr\u00e9tise une seule fois. Et \u00e0 mesure que la biologie progresse \u2014 de plus en plus gr\u00e2ce \u00e0 l’IA elle-m\u00eame \u2014 il pourrait \u00e9galement devenir possible de mener des attaques plus s\u00e9lectives \u2014 par exemple, ciblant des personnes ayant des origines sp\u00e9cifiques \u2014 ce qui ajoute un autre motif \u00e0 cette galerie effrayante.<\/p>\n\n\n\n Je ne pense pas que des attaques biologiques seront n\u00e9cessairement men\u00e9es d\u00e8s qu’elles deviendront largement possibles \u2014 en fait, je parierais plut\u00f4t le contraire. Mais si l’on additionne des millions de personnes et quelques ann\u00e9es, je pense qu’il existe un risque s\u00e9rieux d’attaque majeure, et les cons\u00e9quences seraient si graves \u2014 avec des millions de victimes potentielles, voire plus \u2014 que je crois que nous n’avons d’autre choix que de prendre des mesures s\u00e9rieuses pour l’emp\u00eacher.<\/p>\n\n\n\n Cela nous conduit \u00e0 la question de savoir comment se d\u00e9fendre contre ces risques. Je vois ici trois choses que nous pouvons faire.<\/p>\n\n\n\n Premi\u00e8rement, les entreprises d’IA peuvent mettre en place des garde-fous sur leurs mod\u00e8les afin d’emp\u00eacher qu’ils ne contribuent \u00e0 la production d’armes biologiques. Anthropic s’y emploie tr\u00e8s activement. La Constitution de Claude, qui se concentre principalement sur des principes et des valeurs de haut niveau, comporte un petit nombre d’interdictions sp\u00e9cifiques strictes, dont l’une concerne l’aide \u00e0 la production d’armes biologiques (ou chimiques, nucl\u00e9aires ou radiologiques). Mais tous les mod\u00e8les peuvent \u00eatre pirat\u00e9s. C’est pourquoi, comme ligne de d\u00e9fense suppl\u00e9mentaire, nous avons mis en place (depuis mi-2025, lorsque nos tests ont montr\u00e9 que nos mod\u00e8les commen\u00e7aient \u00e0 approcher le seuil \u00e0 partir duquel ils pourraient pr\u00e9senter un risque) un classificateur qui d\u00e9tecte et bloque sp\u00e9cifiquement les r\u00e9sultats li\u00e9s aux armes biologiques. Nous mettons r\u00e9guli\u00e8rement \u00e0 jour et am\u00e9liorons ces classificateurs, et nous les avons g\u00e9n\u00e9ralement trouv\u00e9s tr\u00e8s robustes, m\u00eame face \u00e0 des attaques adverses sophistiqu\u00e9es <\/span>25<\/sup><\/a><\/span><\/span>. Ces classificateurs augmentent consid\u00e9rablement les co\u00fbts de fonctionnement de nos mod\u00e8les \u2014 dans certains cas, ils repr\u00e9sentent pr\u00e8s de 5 % des co\u00fbts totaux d’inf\u00e9rence \u2014 et r\u00e9duisent donc nos marges, mais nous estimons que leur utilisation est la bonne chose \u00e0 faire.<\/p>\n\n\n\n Dans la plupart des applications, le mod\u00e8le d\u2019IA n\u2019est pas utilis\u00e9 de mani\u00e8re isol\u00e9e, mais est int\u00e9gr\u00e9 dans un \u00e9chafaudage plus large comprenant divers composants, notamment des m\u00e9canismes de filtrage en entr\u00e9e et en sortie destin\u00e9s \u00e0 contr\u00f4ler les contenus g\u00e9n\u00e9r\u00e9s. Ces garde-fous reposent eux-m\u00eames souvent sur des LLMs, ce qui implique qu\u2019ils sont soumis \u00e0 des vuln\u00e9rabilit\u00e9s comparables. Ces classificateurs automatiques sont charg\u00e9s de v\u00e9rifier que les donn\u00e9es trait\u00e9es par le mod\u00e8le respectent les r\u00e8gles et politiques d\u00e9finies pour l\u2019application.<\/p>\n\n\n\n Il faut reconna\u00eetre que d’autres entreprises d’IA ont \u00e9galement mis en place des classificateurs. Mais toutes les entreprises ne l’ont pas fait, et rien n’oblige les entreprises \u00e0 conserver leurs classificateurs. Je crains qu’avec le temps, on finisse par assister \u00e0 un dilemme du prisonnier o\u00f9 les entreprises pourraient se d\u00e9rober et r\u00e9duire leurs co\u00fbts en supprimant les classificateurs. Il s’agit l\u00e0 encore d’un probl\u00e8me classique d’externalit\u00e9s n\u00e9gatives qui ne peut \u00eatre r\u00e9solu par les actions volontaires d’Anthropic ou de toute autre entreprise \u00e0 elle seule <\/span>
1) d\u00e9velopper la science de l’alignement ;
2) promouvoir l’interpr\u00e9tabilit\u00e9 m\u00e9canique pour \u00ab ouvrir la bo\u00eete noire \u00bb des mod\u00e8les ;
3) surveiller en temps r\u00e9el les mod\u00e8les en production ;
4) coordonner l’industrie et la production des lois \u2014 \u00e0 travers une politique de transparence, puis de r\u00e9gulation cibl\u00e9e si des preuves de d\u00e9salignement \u00e9mergent.<\/p>\n\n\n\nL\u2019adolescence de la technologie<\/h2>\n\n\n\n
\n
1.\u00a0I’m sorry, Dave<\/h2>\n\n\n\n
Les risques li\u00e9s \u00e0 l’autonomie<\/h3>\n\n\n\n
Nos moyens de d\u00e9fense<\/h3>\n\n\n\n
2. Une prise de pouvoir surprenante et terrible<\/h2>\n\n\n\n
L\u2019utilisation abusive \u00e0 des fins destructrices<\/h3>\n\n\n\n
Nos moyens de d\u00e9fense<\/h3>\n\n\n\n