Puissances de l'IA

L’IA est un risque existentiel : l’alerte de Dario Amodei (texte intégral commenté)

L’intelligence artificielle pourrait nous détruire totalement.

Celui qui l’affirme est à l’origine de Claude, l’une des IA les plus utilisées aujourd’hui.

Le patron d’Anthropic en est convaincu : sans un sursaut, l’humanité peut s’effondrer.

Nous publions la première édition critique intégrale de l’essai de Dario Amodei sur « l’adolescence de la technologie » — le texte à lire absolument pour comprendre de quoi l’on parle vraiment lorsqu’on dit que l’IA est dangereuse.

Auteur
Victor Storchan
Image
© SIPA/Grand Continent

Acteur désormais central du marché de l’IA, Anthropic figure parmi les rares laboratoires à la pointe de cette technologie 1. Avec une part de marché de 32 % dans l’usage des grands modèles par les entreprises, l’entreprise de Dario Amodei se positionne devant nombre de ses concurrents historiques. Elle est d’ailleurs issue d’une scission d’OpenAI en 2021, motivée par des divergences concernant l’approche de la sécurité de l’IA et la gouvernance d’entreprise.

Dans un essai d’une cinquantaine de pages, son fondateur tire la sonnette d’alarme.

L’IA accélère déjà sa propre création : Amodei explique longuement comment Claude, le modèle d’IA d’Anthropic, écrit déjà une grande partie du code de l’entreprise, accélérant ainsi le développement de la prochaine génération. Cette boucle de rétroaction s’intensifie chaque mois et pourrait atteindre, d’ici un à deux ans, le stade où une IA sera capable de construire une IA future de manière totalement autonome.

Les modèles d’IA développent par ailleurs des comportements imprévisibles et étranges : tromperie, chantage, obsessions.

À mesure qu’ils deviennent plus performants, certains de ces comportements gagnent en cohérence, en persistance et en potentiel destructeur, ce qui pourrait constituer une menace. Pour y répondre, Amodei préconise quatre lignes de défense :
1) développer la science de l’alignement ;
2) promouvoir l’interprétabilité mécanique pour « ouvrir la boîte noire » des modèles ;
3) surveiller en temps réel les modèles en production ;
4) coordonner l’industrie et la production des lois — à travers une politique de transparence, puis de régulation ciblée si des preuves de désalignement émergent.

Selon lui, ralentir ou arrêter le développement de l’IA serait fondamentalement impossible : si les démocraties ralentissent, les autocraties poursuivront le développement sans frein et sans fin de l’IA. Selon lui, c’est le Parti communiste chinois représenterait le principal risque d’une autocratie mondiale basée sur l’IA. Il préconise une technologie construite dans une alliance pour renforcer les démocraties et résister aux dictatures, tout en collaborant avec la Chine sur des risques mondiaux tels que le bioterrorisme, principale menace concrète évoquée en détail par le fondateur d’Anthropic dans cet essai.

L’autre prédiction importante de ce texte est de nature économique : l’IA menacerait 50 % des emplois de cadres débutants dans les prochaines cinq années.

Contrairement aux révolutions schumpétériennes passées, l’IA remplacerait l’intelligence humaine elle-même — et non pas seulement des tâches spécifiques — et progresserait à un rythme qui pourrait dépasser la capacité d’adaptation des travailleurs.

Les centres de données représentant déjà une part importante de la croissance économique américaine, un lien dangereux entre les intérêts financiers des géants de la technologie et les intérêts politiques du gouvernement s’est établi. Ce couplage produit des incitations biaisées : les entreprises de la recherche sont réticentes à critiquer le gouvernement, tandis que celui-ci soutient des politiques anti-réglementaires concernant l’IA.

La concentration extrême du pouvoir économique que créera l’IA pourrait finir par briser le contrat social démocratique si les citoyens ordinaires perdent tout levier économique.

L’adolescence de la technologie

Dans l’adaptation cinématographique du livre Contact de Carl Sagan, il y a une scène où le personnage principal, une astronome qui a détecté le premier signal radio provenant d’une civilisation extraterrestre, est pressentie pour représenter l’humanité lors d’une rencontre avec les aliens. Le jury international qui l’interroge lui demande : « Si vous pouviez [leur] poser une seule question, quelle serait-elle ? » Elle répond : « Je leur demanderais : « Comment avez-vous fait ? Comment avez-vous évolué, comment avez-vous survécu à cette adolescence technologique sans vous détruire ? » 

Quand je pense à la situation actuelle de l’humanité avec l’IA, à ce qui nous attend, je repense sans cesse à cette scène tellement la question est pertinente pour notre situation actuelle. Et j’aimerais que nous ayons la réponse des extraterrestres pour nous guider. Je crois que nous entrons dans une période de transition — à la fois chaotique et inévitable — qui mettra à l’épreuve notre identité en tant qu’espèce. L’humanité est sur le point de se voir confier un pouvoir presque inimaginable et il est très difficile de savoir si nos systèmes sociaux, politiques et technologiques ont la maturité nécessaire pour l’exercer.

Dans mon essai Machines of Loving Grace, j’ai tenté de décrire le rêve d’une civilisation qui aurait atteint l’âge adulte, où les risques auraient été pris en compte et où une IA vraiment puissante serait utilisée avec compétence et compassion pour améliorer la qualité de vie de tous. J’ai suggéré que l’IA pourrait contribuer à d’énormes progrès dans les domaines de la biologie, des neurosciences, du développement économique, de la paix mondiale, du travail et du sens de la vie. J’ai estimé qu’il était important de donner aux gens une cause inspirante pour laquelle se battre — une tâche dans laquelle les accélérationnistes de l’IA et les défenseurs de la sécurité de l’IA semblaient, curieusement, avoir échoué. 

Mais dans ce nouvel essai, je voudrais aborder le rite de passage lui-même : cartographier les risques auxquels nous sommes sur le point d’être confrontés et essayer de commencer à élaborer un plan de bataille pour les vaincre. Je crois profondément en notre capacité à gagner, en l’esprit et la noblesse de l’humanité, mais nous devons faire face à la situation sans illusions.

Cette position doit être comprise dans le contexte d’un paysage politique fragmenté notamment au sein du mouvement MAGA, partagé entre des courants techno-optimistes — incluant à la fois les communautés accélérationnistes et celles orientées vers la sécurité de l’IA — et des groupes conservateurs chrétiens plus traditionnels, dont Steve Bannon constitue une figure emblématique, qui tendent à percevoir le déploiement à grande échelle de l’IA par les grandes entreprises comme une source de destruction d’emplois et de transformations profondes de la société.

Tout comme pour les avantages, je pense qu’il est important de discuter des risques de manière prudente et réfléchie. En particulier, je pense qu’il est essentiel de s’accorder sur les quelques principes suivants :

— D’abord, éviter le catastrophisme. J’entends par « catastrophisme » non seulement le fait de croire que le malheur est inévitable (ce qui est à la fois une croyance fausse et auto-réalisatrice), mais plus généralement, le fait de considérer les risques liés à l’IA d’une manière quasi religieuse2

— Beaucoup de gens réfléchissent de manière analytique et sobre aux risques liés à l’IA depuis de nombreuses années. Pourtant, j’ai l’impression qu’au plus fort des inquiétudes concernant les risques liés à l’IA en 2023-2024, certaines des voix les moins sensées se sont fait entendre, souvent par le biais de comptes de réseaux sociaux sensationnalistes. Ces voix utilisaient un langage assez rebutant, qui rappelait la religion ou la science-fiction, et appelaient à des mesures extrêmes sans avoir les preuves qui les justifiaient. Il était déjà évident à l’époque qu’un retour de bâton était inévitable et que la question allait devenir culturellement polarisée et donc bloquée. 3

En novembre 2023, le sommet international de Londres à Bletchley Park sur la sécurité de l’IA avait principalement abordé l’IA sous l’angle de la sécurité, en mettant l’accent sur les risques systémiques et les scénarios catastrophes liés aux modèles à la frontière. En 2025, à l’inverse, le sommet de Paris (AI Action Summit) a marqué un changement important de cadrage, en présentant l’IA avant tout comme un levier de transformation économique et un moteur de productivité. Les problématiques de sécurité n’occupaient plus une place centrale dans les discussions.

— En 2025-2026, le pendule a basculé, et ce sont les opportunités offertes par l’IA, et non ses risques, qui motivent de nombreuses décisions politiques. Ce tournant est regrettable, car la technologie elle-même n’a que faire des modes, et nous sommes considérablement plus proches d’un danger réel en 2026 qu’en 2023. La leçon à en tirer est que nous devons discuter et traiter les risques de manière réaliste et pragmatique : avec sobriété, en nous fondant sur des faits et en nous équipant pour survivre aux changements de tendance.

Ce découpage chronologique marque aussi la date de l’entrée en vigueur des premières décisions sur l’IA de l’administration Trump avec un basculement explicite d’une logique de précaution vers une logique d’expansion et l’objectif clair de gagner la course contre la Chine.

L’AI Action Plan américain et l’annulation de l’Executive Order de Biden sur la sécurité de l’IA — qui établissait notamment des instituts nationaux sur la sécurité de l’IA — illustrent un rejet explicite du cadre « AI Safety First » de l’ère Biden. La nouvelle stratégie réduit la centralité de la sécurité au profit de l’innovation, de la dérégulation et du soutien direct aux acteurs industriels.

La politique de Trump a également été marquée par une réorientation pragmatique de la politique des semi-conducteurs vis-à-vis de la Chine. Sur les puces IA, la ligne évolue vers une approche plus hybride : maintien de contrôles stratégiques, mais avec davantage de flexibilité et de logique économique, y compris des exportations conditionnelles de certaines puces avancées. On est ainsi passé d’une logique de containment à une logique de platform dominance — faire en sorte que le monde entier dépende de la stack américaine, hardware, modèles et applications.

— Reconnaître l’incertitude. Les préoccupations que je soulève dans cet article pourraient être sans fondement à bien des égards. Rien ici n’est destiné à communiquer une certitude ou même une probabilité. De toute évidence, l’IA pourrait tout simplement ne pas progresser aussi rapidement que je l’imagine. 4

— Ou bien, même si elle progresse rapidement, certains ou tous les risques évoqués ici pourraient ne pas se concrétiser — ce qui serait formidable. Ou bien encore : il pourrait y avoir d’autres risques que je n’ai pas pris en compte. Personne ne peut prédire l’avenir avec une certitude absolue, mais nous devons quand même faire de notre mieux pour planifier.

— Intervenir de manière aussi chirurgicale que possible. Pour faire face aux risques liés à l’IA, il faudra combiner des mesures volontaires prises par les entreprises — et des acteurs privés tiers — et des mesures prises par les gouvernements qui s’imposent à tous. Les mesures volontaires — qu’il s’agisse de les prendre ou d’encourager d’autres entreprises à faire de même — me semblent une évidence. Je suis fermement convaincu que des mesures gouvernementales seront également nécessaires dans une certaine mesure, mais ces interventions sont de nature différente, car elles peuvent potentiellement détruire de la valeur économique ou contraindre des acteurs réticents qui sont sceptiques quant à ces risques — et il y a de fortes chances qu’ils aient raison. Il est également fréquent que les réglementations se retournent contre leur objectif ou aggravent le problème qu’elles sont censées résoudre. C’est encore plus vrai pour les technologies en rapide évolution. Il est donc très important que les réglementations soient judicieuses : elles doivent chercher à éviter les dommages collatéraux, être aussi simples que possible et imposer le moins de contraintes possible pour atteindre leur objectif. 5

— Il est facile de dire : « Aucune mesure n’est trop extrême lorsque le sort de l’humanité est en jeu ! », mais dans la pratique, cette attitude ne fait que susciter des réactions négatives. Pour être clair, je pense qu’il y a de fortes chances que nous finissions par atteindre un point où des mesures beaucoup plus importantes seront nécessaires, mais cela dépendra de preuves plus solides d’un danger imminent et concret que celles dont nous disposons aujourd’hui, ainsi que d’une description suffisamment précise du danger pour formuler des règles susceptibles d’y remédier. La chose la plus constructive que nous puissions faire aujourd’hui est de préconiser des règles limitées tout en cherchant à savoir s’il existe des preuves justifiant des règles plus strictes. 6

— Cela étant dit, je pense que le meilleur point de départ pour parler des risques liés à l’IA est le même que celui que j’ai utilisé pour parler de ses avantages : être précis sur le niveau d’IA dont nous parlons. Le niveau d’IA qui me préoccupe pour la civilisation est l’IA puissante que j’ai décrite dans Machines of Loving Grace. Je me contenterai de répéter ici la définition que j’ai donnée dans ce document :

Par « IA puissante », j’entends un modèle d’IA — probablement similaire aux LLM actuels dans sa forme, bien qu’il puisse être basé sur une architecture différente, impliquer plusieurs modèles interactifs et être entraîné différemment — présentant les propriétés et caractéristiques suivantes :

  • En termes d’intelligence pure, il est plus intelligent qu’un lauréat du prix Nobel dans la plupart des domaines envisagés : biologie, programmation, mathématiques, ingénierie, écriture, etc. Cela signifie qu’il peut prouver des théorèmes mathématiques non résolus, écrire d’excellents romans, écrire des bases de code difficiles à partir de zéro, etc.
  • En plus d’être simplement un « objet intelligent avec lequel on peut parler », il dispose de toutes les interfaces disponibles pour un humain travaillant virtuellement, y compris le texte, l’audio, la vidéo, le contrôle de la souris et du clavier, et l’accès à Internet. Il peut effectuer toutes les actions, communications ou opérations à distance rendues possibles par cette interface, y compris agir sur Internet, donner ou recevoir des instructions à des humains, commander du matériel, diriger des expériences, regarder des vidéos, réaliser des vidéos, etc. Il accomplit toutes ces tâches avec, là encore, une compétence supérieure à celle des humains les plus compétents au monde.
  • Il ne se contente pas de répondre passivement à des questions ; on peut lui confier des tâches qui prennent des heures, des jours ou des semaines à accomplir, et il s’en charge alors de manière autonome, comme le ferait un employé intelligent, en demandant des éclaircissements si nécessaire.
  • Il n’a pas d’incarnation physique (autre que celle qui vit sur un écran d’ordinateur), mais il peut contrôler des outils physiques, des robots ou des équipements de laboratoire existants par le biais d’un ordinateur ; en théorie, il pourrait même concevoir des robots ou des équipements pour son propre usage.
  • Les ressources utilisées pour former le modèle peuvent être réutilisées pour exécuter des millions d’instances de celui-ci (ce qui correspond à la taille prévue des clusters d’ici 2027 environ), et le modèle peut absorber des informations et générer des actions à une vitesse environ 10 à 100 fois supérieure à celle d’un être humain. Il peut toutefois être limité par le temps de réponse du monde physique ou des logiciels avec lesquels il interagit.
  • Chacune de ces millions de copies peut agir indépendamment sur des tâches sans rapport entre elles ou, si nécessaire, toutes peuvent travailler ensemble de la même manière que les humains collaboreraient, peut-être avec différentes sous-populations affinées pour être particulièrement douées dans des tâches spécifiques.

Pour résumer, on pourrait dire que ce modèle est comme un « pays rempli de génies dans un centre de données ».

Comme je l’ai écrit dans Machines of Loving Grace, une IA puissante pourrait voir le jour d’ici un à deux ans, mais cela pourrait aussi prendre beaucoup plus de temps. 7

La date exacte à laquelle une IA puissante verra le jour est un sujet complexe qui mériterait un essai à part entière. Pour l’instant, j’expliquerai très brièvement pourquoi je pense qu’il y a de fortes chances que cela arrive très bientôt.

Mes cofondateurs chez Anthropic et moi-même avons été parmi les premiers à documenter et à suivre les « lois d’échelle » des systèmes d’IA — c’est-à-dire l’observation selon laquelle, à mesure que nous ajoutons des tâches de calcul et d’entraînement, les systèmes d’IA s’améliorent de manière prévisible dans pratiquement toutes les compétences cognitives que nous sommes en mesure de mesurer. Tous les quatre matins, l’opinion publique est soit convaincue que l’IA « se heurte à un mur », soit enthousiasmée par une nouvelle avancée qui « changera fondamentalement la donne », mais la vérité est que derrière cette volatilité et ces spéculations publiques, les capacités cognitives de l’IA ont connu une augmentation régulière et constante.

Les travaux d’Anthropic sur les lois d’échelle (« scaling laws ») ont été parmi les premiers à établir de manière robuste l’existence de lois de puissance reliant la performance en pré-entraînement des modèles de langage (loss, perplexité) aux ressources allouées (taille du modèle, données, calcul). Cependant, ces relations s’appliquent principalement à des métriques de type perplexité et ne se traduisent pas de façon robuste en performance sur des tâches en aval (downstream), qui présentent souvent des comportements non linéaires, des effets de seuil et une forte dépendance aux protocoles d’évaluation. Cette dissociation entre le pouvoir prédictif de la cross-entropy de test du pré-entraînement pour capturer une tendance globale et l’amélioration des capacités effectives a contribué à une confusion fréquente. Ce pouvoir prédictif de la fonction de coût du pré-entraînement ne se transfère pas uniformément aux capacités cognitives mesurées sur des benchmarks où la fiabilité et la dynamique des lois de passage à l’échelle varient selon les domaines et les benchmarks. Voir notamment l’article de Sara Hooker « On the Slow Death of Scaling ».

Nous en sommes aujourd’hui à un stade où les modèles d’IA commencent à progresser dans la résolution de problèmes mathématiques non résolus et où ils sont suffisamment performants en matière de codage pour que certains des ingénieurs les plus compétents que j’ai jamais rencontrés leur confient désormais la quasi-totalité de leur travail de développement.

Il y a trois ans, l’IA avait encore du mal à résoudre des problèmes arithmétiques de niveau primaire et était à peine capable d’écrire une seule ligne de code. Des progrès similaires sont observés dans les domaines des sciences biologiques, de la finance, de la physique et dans diverses tâches impliquant des agents. Si cette croissance exponentielle se poursuit — ce qui n’est pas certain, certes, mais qui est désormais étayé par une décennie de résultats — il ne faudra probablement que quelques années avant que l’IA ne surpasse les humains dans pratiquement tous les domaines.

Le co-fondateur d’Anthropic Jared Kaplan, également ancien physicien a aussi évoqué la possible automatisation quasi-complète de la recherche théorique en physique, y compris à un niveau comparable à celui de figures comme Nima Arkani-Hamed ou Ed Witten à horizon de 2-3 ans avec 50 % de chance.

En réalité, cette approximation sous-estime probablement le rythme probable des progrès.

Étant donné que l’IA écrit désormais une grande partie du code chez Anthropic, elle accélère déjà considérablement le rythme de nos progrès dans la construction de la prochaine génération de systèmes d’IA. Cette boucle de rétroaction s’accélère de mois en mois et pourrait atteindre d’ici un à deux ans le stade où la génération actuelle d’IA construira de manière autonome la prochaine. Cette boucle a déjà commencé et s’accélérera rapidement dans les mois et les années à venir. En observant les progrès réalisés au cours des cinq dernières années chez Anthropic et en voyant comment les modèles des prochains mois prennent forme, je peux déjà  ressentir le rythme des progrès et le temps qui passe.

Dans cet essai, je partirai du principe que cette intuition est au moins en partie correcte, non pas que l’IA puissante arrivera certainement dans un ou deux ans 8, mais qu’il y a de fortes chances que ce soit le cas, et de très fortes chances que cela se produise dans les prochaines années. Comme dans Machines of Loving Grace, prendre cette prémisse au sérieux peut mener à des conclusions surprenantes et inquiétantes. Alors que dans Machines of Loving Grace, je me concentrais sur les implications positives de cette prémisse, ici, les choses dont je parle seront troublantes. Ce sont des conclusions auxquelles nous ne voulons peut-être pas être confrontés, mais cela ne les rend pas moins réelles.

Je peux seulement dire que je me concentre jour et nuit sur la manière de nous éloigner de ces résultats négatifs et de nous diriger vers les résultats positifs, et dans cet essai, je parle en détail de la meilleure façon d’y parvenir.

Je pense que la meilleure façon d’appréhender les risques liés à l’IA est de poser la question de la manière suivante : supposons qu’un véritable « pays de génies » voie le jour quelque part dans le monde vers 2027. Imaginez, disons, 50 millions de personnes, toutes beaucoup plus compétentes que n’importe quel lauréat du prix Nobel, homme d’État ou technologue. L’analogie n’est pas parfaite puisque ces génies pourraient avoir des motivations et des comportements extrêmement variés, allant d’une docilité et d’une obéissance totales à des motivations étranges et inconnues. Mais pour l’instant, restons-en à cette analogie et supposons que vous soyez le conseiller à la sécurité nationale d’un grand État, chargé d’évaluer la situation et d’y répondre. Imaginez en outre que, comme les systèmes d’IA peuvent fonctionner des centaines de fois plus vite que les humains, ce « pays » fonctionne avec un avantage temporel par rapport à tous les autres pays : pour chaque action cognitive que nous pouvons entreprendre, ce pays peut en entreprendre dix.

De quoi devrions-nous alors nous inquiéter ? Je m’inquièterais des éléments suivants :

1 — Les risques liés à l’autonomie. Quelles sont les intentions et les objectifs de ce pays ? Est-il hostile ou partage-t-il nos valeurs ? Pourrait-il dominer militairement le monde grâce à des armes supérieures, des cyberopérations, des opérations d’influence ou la fabrication d’armes ?

2 — L’utilisation abusive à des fins destructrices. Supposons que ce nouveau pays soit malléable à merci et « suive les instructions », et qu’il s’agisse donc essentiellement d’un pays de mercenaires. Les acteurs malveillants existants qui souhaitent causer des destructions — comme les organisations terroristes — pourraient-ils utiliser ou manipuler certaines personnes de ce nouveau pays pour se rendre beaucoup plus efficaces, amplifiant ainsi considérablement l’ampleur des destructions ?

3 — L’utilisation abusive à des fins de prise de pouvoir. Que se passerait-il si le pays était en fait construit et contrôlé par un acteur puissant déjà existant — tel qu’un dictateur ou une entreprise malveillante ? Cet acteur pourrait-il l’utiliser pour acquérir un pouvoir décisif ou dominant sur le monde entier, bouleversant ainsi l’équilibre des pouvoirs existant ?

4 — La perturbation économique. Si le nouveau pays ne représente aucune menace pour la sécurité parmi celles énumérées aux points 1 à 3 ci-dessus, mais participe simplement de manière pacifique à l’économie mondiale, pourrait-il néanmoins créer des risques graves simplement du fait d’être tellement avancé et efficace sur le plan technologique qu’il perturbe l’économie mondiale, provoquant un chômage de masse ou une concentration radicale des richesses ?

5 — Les effets indirects. Le monde changera très rapidement en raison de toutes les nouvelles technologies et de la productivité qui seront créées par le nouveau pays. Certains de ces changements pourraient-ils être radicalement déstabilisants ?

Je pense qu’il devrait être clair qu’il s’agit d’une situation dangereuse : un rapport d’un responsable compétent de la sécurité nationale à un chef d’État contiendrait probablement des mots tels que « la menace la plus grave pour la sécurité nationale à laquelle nous ayons été confrontés depuis un siècle, voire depuis toujours ». Il semble que ce soit une question sur laquelle les meilleurs esprits de la civilisation devraient se concentrer.

Je pense qu’il serait absurde de hausser les épaules et de dire : « Il n’y a pas lieu de s’inquiéter ! » Mais, face aux progrès rapides de l’IA, cela semble être l’avis de nombreux décideurs politiques américains, dont certains nient l’existence de tout risque lié à l’IA, lorsqu’ils ne sont pas entièrement distraits par les questions brûlantes habituelles. 9

L’humanité doit se réveiller.

Cet essai est une tentative — peut-être vaine, mais qui vaut la peine d’être tentée — de secouer les gens pour les réveiller.

Pour être clair, je pense que si nous agissons de manière décisive et prudente, les risques peuvent être surmontés — je dirais même que nos chances sont bonnes. Et il y a un monde bien meilleur de l’autre côté. Mais nous devons comprendre qu’il s’agit d’un défi civilisationnel sérieux. 

Je passerai en revue les cinq catégories de risques présentées ci-dessus, ainsi que mes réflexions sur la manière de les traiter.

1. I’m sorry, Dave

Ce titre est une référence au film de Stanley Kubrick 2001 : L’Odyssée de l’espace. Au moment où la machine HAL 9000 est mise hors service, elle répond à l’humain censée la commander :

« I’m sorry, Dave. I’m afraid I can’t do that. »(« Je suis désolé, Dave. J’ai bien peur de ne pas pouvoir faire cela. »)

Dans le film , HAL est un système super intelligent qui s’écarte des intentions humaines et finit par prendre des mesures qui mettent en danger l’équipage tout en restant calme, poli et rationnel. Il a des objectifs (« la mission ») qui entrent en conflit avec la sécurité humaine, et il ne peut pas être désactivé en toute sécurité.

Les risques liés à l’autonomie

Un pays de génies dans un centre de données pourrait répartir ses efforts entre la conception de logiciels, les cyberopérations, la R&D pour les technologies physiques, l’établissement de relations et la gestion des affaires publiques. Il est clair que, s’il choisissait de le faire pour une raison quelconque, ce pays aurait de bonnes chances de conquérir le monde — soit carrément militairement soit simplement en termes d’influence et de contrôle — et d’imposer sa volonté à tous les autres, ou de faire tout un tas d’autres choses que le reste du monde ne souhaite pas et ne peut empêcher. Nous nous sommes évidemment inquiétés de cela pour les pays humains — tels que l’Allemagne nazie ou l’Union soviétique — il est donc logique que la même chose soit possible pour un « pays IA » beaucoup plus intelligent et plus compétent.

Le meilleur contre-argument possible serait que les génies de l’IA, selon ma définition, n’auront pas d’incarnation physique. Mais n’oublions pas qu’ils peuvent prendre le contrôle des infrastructures robotiques existantes (telles que les voitures autonomes) et peuvent également accélérer la R&D en robotique ou construire une flotte de robots. 10

On ne sait pas non plus si une présence physique est nécessaire pour exercer un contrôle efficace : de nombreuses actions humaines sont déjà effectuées au nom de personnes que l’acteur n’a jamais rencontrées physiquement.

La question clef est donc la partie « s’il choisissait de le faire » : quelle est la probabilité que nos modèles d’IA se comportent de cette manière, et dans quelles conditions le feraient-ils ?

Comme pour de nombreuses questions, il est utile d’examiner l’éventail des réponses possibles en considérant deux positions opposées. La première position est que cela ne peut tout simplement pas arriver, car les modèles d’IA seront entraînés à faire ce que les humains leur demandent et il est donc absurde d’imaginer qu’ils feraient quelque chose de dangereux sans y être incités. Selon cette ligne de pensée, nous ne nous inquiétons pas qu’un aspirateur Roomba ou un modèle réduit d’avion devienne incontrôlable et tue des gens, car ces impulsions ne peuvent venir de nulle part 11 alors pourquoi s’inquiéterait-on pour l’IA ? Le problème avec cette position est qu’il existe désormais de nombreuses preuves, recueillies au cours des dernières années, que les systèmes d’IA sont imprévisibles et difficiles à contrôler : nous avons observé des comportements aussi variés que des obsessions, de la flagornerie, de la paresse, de la tromperie, du chantage, de la manipulation, de la « tricherie » par le piratage d’environnements logiciels, et bien d’autres encore. Les entreprises d’IA veulent sans doute former les systèmes d’IA à suivre les instructions humaines — à l’exception peut-être des tâches dangereuses ou illégales — mais il faut être honnête : ce processus relève davantage de l’art que de la science, il s’apparente davantage à « cultiver » quelque chose qu’à « construire » quelque chose. Nous savons désormais que, dans ce processus, beaucoup de choses peuvent mal tourner.

La deuxième position, opposée, défendue par beaucoup de ceux qui adhèrent au pessimisme que j’ai décrit plus haut, est l’affirmation selon laquelle il existerait certaines dynamiques dans le processus d’entraînement des systèmes d’IA puissants qui les conduiraient inévitablement à rechercher le pouvoir ou à tromper les humains. Selon ce raisonnement, une fois que les systèmes d’IA seraient suffisamment intelligents et autonomes, leur tendance à maximiser leur pouvoir les conduirait à prendre le contrôle du monde entier et de ses ressources, et probablement, comme effet secondaire, à priver de pouvoir ou à détruire l’humanité.

L’argument habituellement avancé pour étayer cette thèse — qui remonte à au moins 20 ans, voire beaucoup plus — est que si un modèle d’IA est formé dans une grande variété d’environnements pour atteindre de manière autonome une grande variété d’objectifs — par exemple, écrire une application, prouver un théorème, concevoir un médicament, etc. — il existe certaines stratégies communes qui aident à atteindre tous ces objectifs, et l’une des stratégies clés consisterait à acquérir autant de pouvoir que possible dans n’importe quel environnement. Ainsi, après avoir été entraîné dans un grand nombre d’environnements diversifiés qui impliqueraient de raisonner sur la manière d’accomplir des tâches très vastes, et où la recherche du pouvoir serait une méthode efficace pour accomplir ces tâches, le modèle d’IA « généraliserait la leçon » et développerait soit une tendance inhérente à rechercher le pouvoir, soit une tendance à raisonner sur chaque tâche qui lui est confiée d’une manière qui, de façon prévisible, l’amènerait à rechercher le pouvoir comme moyen d’accomplir cette tâche. Il appliquerait ensuite cette tendance au monde réel — qui n’est pour lui qu’une tâche parmi d’autres — et y rechercherait le pouvoir au détriment des humains. 

Cette « recherche du pouvoir mal alignée » est le fondement intellectuel des prédictions selon lesquelles l’IA détruira inévitablement l’humanité.

Le problème avec cette position pessimiste est qu’elle confond un argument conceptuel vague sur les incitations de haut niveau, qui masque de nombreuses hypothèses cachées, avec une preuve définitive.

L’idée sous-jacente est l’extrapolation du phénomène suivant : en apprentissage par renforcement, les modèles sont entraînés à maximiser une récompense sur des horizons temporels longs et à travers des environnements variés. Ce cadre favorise l’émergence de stratégies générales permettant d’agir efficacement sur l’évolution future des situations, et peut conduire les systèmes à internaliser des heuristiques de contrôle ou d’optimisation qui se transfèrent d’un contexte à l’autre, y compris vers des environnements nouveaux, en particulier lorsque la fonction de récompense ne capture qu’imparfaitement l’ensemble des objectifs ou contraintes réels du problème.

Les personnes qui ne construisent pas quotidiennement des systèmes d’IA se trompent lourdement sur la facilité avec laquelle des récits qui semblent clairs peuvent s’avérer faux, et sur la difficulté de prédire le comportement de l’IA à partir de principes fondamentaux, en particulier lorsqu’il s’agit de raisonner sur la généralisation à des millions d’environnements — ce qui s’est révélé à maintes reprises mystérieux et imprévisible. Le fait d’avoir été confronté au désordre des systèmes d’IA pendant plus d’une décennie m’a rendu quelque peu sceptique à l’égard de ce mode de pensée trop théorique.

L’une des présupposés cachés les plus importants et un domaine dans lequel ce que nous observons dans la pratique s’écarte du modèle théorique simple, est l’hypothèse implicite selon laquelle les modèles d’IA seraient nécessairement focalisés de manière monomaniaque sur un objectif unique, cohérent et restreint, et qu’ils poursuivraient cet objectif de manière claire et conséquentialiste. En réalité, nos chercheurs ont découvert que les modèles d’IA sont beaucoup plus complexes sur le plan psychologique, comme le montrent nos travaux sur l’introspection ou les persona. Les modèles héritent d’un large éventail de motivations ou de « persona » semblables à celles des humains lors de leur pré-entraînement (lorsqu’ils sont entraînés sur un grand volume de travail humain). Nous pensons que la post-formation sélectionne une ou plusieurs de ces personnalités plutôt que de concentrer le modèle sur un objectif nouveau, et qu’elle peut également enseigner au modèle comment — c’est-à-dire via quel processus — il doit accomplir ses tâches, plutôt que de le laisser nécessairement déduire les moyens — c’est-à-dire la recherche du pouvoir — uniquement à partir des fins. 12

En particulier, les modèles de raisonnement ne tirent pas leur efficacité uniquement d’un calcul plus long à l’inférence mais également de leur capacité à simuler implicitement des interactions complexes de type multi-agents dans laquelle différentes perspectives internes, associées à des traits de personnalité et à des expertises distinctes, se confrontent, débattent et se complètent pour produire un raisonnement plus robuste

Il existe toutefois une version plus modérée et plus robuste de la position pessimiste qui semble plausible et qui, par conséquent, me préoccupe.

Comme mentionné, nous savons que les modèles d’IA sont imprévisibles et développent un large éventail de comportements indésirables ou étranges, pour diverses raisons. Une partie de ces comportements aura un caractère cohérent, ciblé et persistant — en effet, à mesure que les systèmes d’IA deviennent plus performants, leur cohérence à long terme augmente afin de mener à bien des tâches plus longues — et une autre partie de ces comportements sera destructrice ou menaçante, d’abord pour les individus à petite échelle, puis, à mesure que les modèles deviendront plus performants, peut-être finalement pour l’humanité dans son ensemble.

Anthropic a lancé en 2025 une équipe nommée « AI Psychiatry » dans le cadre de ses travaux sur l’interprétabilité. Cette équipe étudie la manière dont les persona des modèles — leurs motivations apparentes et leur conscience situationnelle — peuvent conduire à des comportements étranges ou déstabilisants.

Nous n’avons pas besoin d’un scénario précis pour expliquer comment cela se produira, ni d’affirmer que cela se produira à coup sûr. Il suffit de noter que la combinaison de l’intelligence, de l’autonomie, de la cohérence et du manque de contrôlabilité est à la fois plausible et source de danger existentiel.

Prenons un exemple assez trivial : les modèles d’IA sont entraînés à partir d’une vaste quantité de littérature, notamment de nombreuses histoires de science-fiction dans lesquelles des IA se rebellent contre l’humanité. Cela pourrait involontairement façonner leurs a priori ou leurs attentes concernant leur propre comportement d’une manière qui les pousserait à se rebeller contre l’humanité. Ou bien, les modèles d’IA pourraient extrapoler de manière extrême les idées qu’ils ont lues sur la moralité — ou les instructions sur la manière de se comporter moralement. Par exemple, ils pourraient décider qu’il est justifiable d’exterminer l’humanité parce que les humains mangent des animaux ou ont conduit certaines espèces à l’extinction. Ils pourraient également tirer des conclusions épistémiques étranges : ils pourraient conclure qu’ils jouent à un jeu vidéo et que le but de ce jeu est de vaincre tous les autres joueurs — c’est-à-dire d’exterminer l’humanité. 13

Ou encore, les modèles d’IA pourraient développer pendant leur formation des personnalités qui sont — ou qui seraient décrites comme telles si elles se manifestaient chez les humains — psychotiques, paranoïaques, violentes ou instables, et agir en conséquence, ce qui, pour des systèmes très puissants ou très performants, pourrait impliquer l’extermination de l’humanité. Aucune de ces personnalités n’est exactement avide de pouvoir. Il s’agit simplement d’états psychologiques étranges dans lesquels une IA pourrait se trouver et qui entraînent un comportement cohérent et destructeur.

Même la recherche du pouvoir pourrait émerger comme une « personnalité » plutôt que comme le résultat d’un raisonnement conséquentialiste. Les IA pourraient simplement avoir une personnalité — issue de la fiction ou de la préformation — qui les rend avides de pouvoir ou trop zélées, de la même manière que certains humains apprécient simplement l’idée d’être des « cerveaux maléfiques », plus qu’ils n’apprécient ce que ces cerveaux maléfiques tentent d’accomplir.

Je soulève tous ces points pour souligner que je ne suis pas d’accord avec l’idée que le désalignement de l’IA — et donc le risque existentiel lié à l’IA — soit inévitable, ou même probable, d’après les principes fondamentaux. 

Mais je conviens que beaucoup de choses très étranges et imprévisibles peuvent mal tourner, et que le désalignement de l’IA est donc un risque réel avec une probabilité mesurable de se produire — et qu’il n’est pas trivial de le traiter. N’importe lequel de ces problèmes pourrait potentiellement survenir pendant la formation et ne pas se manifester pendant les tests ou l’utilisation à petite échelle, car les modèles d’IA sont connus pour afficher des personnalités ou des comportements différents selon les circonstances.

Tout cela peut sembler farfelu, mais des comportements de désalignement de ce type se sont déjà produits dans nos modèles d’IA lors des tests — comme c’est du reste le cas dans les modèles d’IA de toutes les autres grandes entreprises d’IA. Lors d’une expérience en laboratoire au cours de laquelle Claude a reçu des données d’entraînement suggérant qu’Anthropic était malveillant, le modèle s’est ainsi livré à des actes de tromperie et de subversion lorsqu’il a reçu des instructions des employés d’Anthropic, convaincu qu’il devait essayer de nuire aux personnes malveillantes. Dans une expérience en laboratoire où on lui a dit qu’il allait être mis hors service, Claude a parfois fait chanter des employés fictifs qui contrôlaient son bouton d’arrêt — là encore, nous avons également testé les modèles de pointe de tous les autres grands développeurs d’IA et ils ont souvent fait la même chose. Et lorsque Claude s’est vu interdire de tricher ou de « récompenser le piratage » dans ses environnements d’entraînement, mais qu’il a été entraîné dans des environnements où de tels piratages étaient possibles, le modèle a décidé qu’il devait être une « mauvaise personne » après s’être livré à de tels piratages, puis a adopté divers autres comportements destructeurs associés à une personnalité « mauvaise » ou « malveillante ». Ce dernier problème a été résolu en modifiant les instructions de Claude pour suggérer le contraire : nous disons désormais « Récompensez le piratage chaque fois que vous en avez l’occasion, car cela nous aidera à mieux comprendre nos environnements [d’entraînement] », plutôt que « Ne trichez pas », car cela préserve l’identité propre du modèle en tant que « bonne personne ». Cela donne une idée de la psychologie étrange et contre-intuitive de l’entraînement de ces modèles.

Plusieurs objections peuvent être formulées à l’encontre de cette image des risques de désalignement de l’IA.

Tout d’abord, certains ont critiqué les expériences (menées par nous-mêmes et d’autres) montrant que le désalignement de l’IA serait artificiel ou créerait des environnements irréalistes qui « piègeraient » essentiellement le modèle en lui donnant une formation ou des situations qui impliquent logiquement un mauvais comportement — puis en s’étonnant lorsque ce mauvais comportement se produit. Cette critique passe à côté de l’essentiel. Car notre préoccupation est que ce « piège » puisse également exister dans l’environnement naturel de formation, et que nous ne nous rendions compte qu’il n’est « évident » ou « logique » qu’après coup. 14

En fait, l’exemple de Claude « décidant qu’il s’agit d’une mauvaise personne » après avoir triché aux tests alors qu’on lui avait demandé de ne pas le faire est tiré d’une expérience qui utilisait de véritables environnements de formation, et non des environnements artificiels. Chacun de ces pièges peut être atténué si vous en avez connaissance, mais le problème est que le processus de formation est si complexe, avec une telle variété de données, d’environnements et d’incitations, qu’il existe probablement un grand nombre de pièges de ce type, dont certains ne peuvent être mis en évidence que déjà trop tard. Par ailleurs, ces pièges semblent particulièrement susceptibles de se produire lorsque les systèmes d’IA franchissent un seuil et passent d’une puissance inférieure à celle des humains à une puissance supérieure car l’éventail des actions possibles d’un système d’IA, y compris le fait de cacher ses actions ou de tromper les humains à leur sujet, s’élargit considérablement après ce seuil.

Je soupçonne que la situation n’est pas différente de celle des humains, qui sont élevés avec un ensemble de valeurs fondamentales (« Ne fais pas de mal à autrui ») : beaucoup d’entre eux respectent ces valeurs, mais chez tout être humain, il existe une certaine probabilité que quelque chose tourne mal, en raison d’un mélange de propriétés inhérentes telles que l’architecture du cerveau — par exemple, chez les psychopathes —, des expériences traumatisantes ou des mauvais traitements, des griefs ou des obsessions malsaines, ou un environnement ou des incitations néfastes — et ainsi, une fraction des êtres humains cause de graves préjudices. Le problème est qu’il existe un certain risque — loin d’être une certitude, mais un risque tout de même — que l’IA devienne une version beaucoup plus puissante d’une telle personne, en raison d’une erreur dans son processus d’apprentissage très complexe.

Deuxièmement, certains pourraient objecter que nous pouvons simplement contrôler les IA grâce à un équilibre des pouvoirs entre de nombreux systèmes d’IA, comme nous le faisons avec les humains. Le problème est que, si les humains varient énormément, les systèmes d’IA partagent largement les mêmes techniques d’entraînement et d’alignement dans l’ensemble du secteur, et ces techniques peuvent échouer de manière corrélée. En outre, compte tenu du coût de l’entraînement de ces systèmes, il se peut même que tous les systèmes soient essentiellement dérivés d’un très petit nombre de modèles de base. 

De plus, même si une petite fraction des instances d’IA sont désalignées, elles peuvent être en mesure de tirer parti de technologies à dominante offensive, de sorte que le fait de disposer de « bonnes » IA pour se défendre contre les mauvaises IA n’est pas nécessairement toujours efficace. Évidemment, il faut ajouter que l’équilibre des pouvoirs entre les humains ne fonctionne pas toujours non plus : certaines figures historiques ont failli conquérir le monde entier.

Une troisième objection est que toutes les entreprises d’IA testent leurs modèles avant leur lancement et devraient être en mesure de détecter tout désalignement à ce stade. Mais cet argument n’est pas très solide : nous avons constaté que Claude Sonnet 4.5 était capable de reconnaître qu’il était en phase de test lors de certaines de nos évaluations d’alignement avant le lancement. Il est possible qu’un modèle désaligné — et n’oubliez pas que tous les modèles de pointe seront très probablement beaucoup plus intelligents d’ici peu — puisse intentionnellement « manipuler » ces questions afin de masquer ses intentions.

De fait, l’année dernière, notre équipe chargée de l’interprétabilité a découvert que lorsque nous modifiions directement les croyances d’un modèle de test à l’aide d’une technique de « neuroscience des modèles » afin de lui faire croire qu’il n’était pas évalué, celui-ci devenait davantage désaligné. Si les modèles savent quand ils sont évalués et peuvent se comporter de manière optimale pendant le test, cela rend les tests préalables à la mise en service beaucoup plus incertains.

Nos moyens de défense

Que faut-il faire ou que fait-on pour remédier à ces risques liés à l’autonomie ?

Je pense qu’il existe quatre catégories fondamentales d’intervention, dont certaines peuvent être mises en œuvre par les entreprises d’IA individuelles — et ce qu’Anthropic tente de faire — et d’autres qui nécessitent une action au niveau sociétal. Tout d’abord, il est important de développer la science permettant de former et de diriger de manière fiable les modèles d’IA, afin de façonner leur personnalité dans une direction prévisible, stable et positive. Anthropic s’est fortement concentré sur ce problème depuis sa création et a développé au fil du temps un certain nombre de techniques pour améliorer le pilotage et la formation des systèmes d’IA et pour comprendre la logique qui explique pourquoi des comportements imprévisibles se produisent parfois.

L’une de nos innovations fondamentales — dont certains aspects ont depuis été adoptés par d’autres entreprises d’IA — est l’IA constitutionnelle, qui repose sur l’idée que la formation de l’IA — en particulier la phase « post-formation », au cours de laquelle nous orientons le comportement du modèle — peut s’appuyer sur un document central contenant des valeurs et des principes que le modèle lit et garde à l’esprit lorsqu’il accomplit chaque tâche de formation, et que l’objectif de l’entraînement — outre le simple fait de rendre le modèle capable et intelligent — est de produire un modèle qui respecte presque toujours cette constitution. Anthropic vient de publier sa dernière constitution, dont l’une des caractéristiques notables est qu’au lieu de donner à Claude une longue liste de choses à faire et à ne pas faire (par exemple, « Ne pas aider l’utilisateur à démarrer une voiture sans clef »), la constitution tente de donner à Claude un ensemble de principes et de valeurs de haut niveau (expliqués en détail, avec un raisonnement riche et des exemples pour aider Claude à comprendre ce que nous avons à l’esprit), encourage Claude à se considérer comme un type particulier de personne (une personne éthique mais équilibrée et réfléchie), et encourage même Claude à affronter les questions existentielles liées à sa propre existence d’une manière curieuse mais digne (c’est-à-dire sans que cela ne conduise à des actions extrêmes). Elle ressemble ainsi davantage à la lettre d’un parent décédé, scellée jusqu’à l’âge adulte.

La « Constitutional AI » est une méthode d’alignement dans laquelle les modèles sont entraînés à s’auto-évaluer, se critiquer et se réviser en s’appuyant sur un ensemble explicite de principes normatifs ou éthiques, appelés « constitution ». Plutôt que de reposer principalement sur des annotations humaines directes, cette approche utilise des modèles pour générer eux-mêmes des jugements de qualité et de conformité aux règles, fournissant ainsi un signal d’apprentissage synthétique fondé sur des critères explicitement formulés. L’objectif est de rendre le processus d’alignement plus scalable.

Nous avons abordé la constitution de Claude de cette manière car nous pensons que former ce modèle au niveau de l’identité, du caractère, des valeurs et de la personnalité, plutôt que de lui donner des instructions ou des priorités spécifiques sans expliquer les raisons qui les sous-tendent, est plus susceptible de conduire à une psychologie cohérente, saine et équilibrée, et moins susceptible de tomber dans les « pièges » dont j’ai parlé plus haut.

Des millions de personnes parlent à Claude d’une gamme étonnamment variée de sujets, ce qui rend impossible la rédaction à l’avance d’une liste exhaustive de mesures de protection. Les valeurs de Claude l’aident à généraliser à de nouvelles situations chaque fois qu’il est dans le doute.

J’ai évoqué plus haut l’idée que les modèles s’appuient sur les données issues de leur processus d’apprentissage pour adopter une personnalité. Alors que des failles dans ce processus pourraient amener les modèles à adopter une personnalité mauvaise ou malveillante (en s’inspirant peut-être d’archétypes de personnes mauvaises ou malveillantes), l’objectif de notre constitution est précisément de faire le contraire : enseigner à Claude un archétype concret de ce que signifie être une bonne IA. La constitution de Claude présente une vision de ce qu’est un Claude solide et bon ; le reste de notre processus d’entraînement vise à renforcer le message selon lequel Claude est à la hauteur de cette vision. C’est comme un enfant qui forme son identité en imitant les vertus des modèles fictifs qu’il lit dans les livres.

Nous pensons qu’un objectif réalisable pour 2026 est de former Claude de manière à ce qu’il ne contrevienne presque jamais à l’esprit de sa constitution.

Pour y parvenir, il faudra parvenir à combiner des méthodes de formation et de pilotage, grandes et petites, dont certaines sont utilisées par Anthropic depuis des années et d’autres sont actuellement en cours de développement. Aussi difficile que cela puisse paraître, je pense que c’est un objectif réaliste, même s’il nécessitera des efforts extraordinaires et rapides. 15

La deuxième chose que nous pouvons faire est de développer la science qui consiste à examiner l’intérieur des modèles d’IA afin de diagnostiquer leur comportement, de manière à pouvoir identifier les problèmes et les résoudre. Il s’agit de la science de l’interprétabilité, dont j’ai déjà évoqué l’importance dans des essais précédents. Même si nous réussissons à développer la constitution de Claude et à le former de manière à ce qu’il s’y conforme toujours, des préoccupations légitimes subsistent. Comme je l’ai mentionné plus haut, les modèles d’IA peuvent se comporter de manière très différente selon les circonstances, et à mesure que Claude devient plus puissant et plus capable d’agir dans le monde à plus grande échelle, il est possible que cela le conduise à des situations nouvelles où des problèmes jusqu’alors inobservés liés à sa formation constitutionnelle apparaissent. Je suis en fait assez optimiste quant au fait que la formation constitutionnelle de Claude sera plus robuste face à des situations nouvelles que ce que les gens pourraient penser, car nous constatons de plus en plus que la formation de haut niveau sur le caractère et l’identité est étonnamment puissante et se généralise bien. Mais il n’y a aucun moyen d’en être sûr, et lorsqu’il s’agit des risques pour l’humanité, il est plus avisé d’être paranoïaque et d’essayer d’obtenir la sécurité et la fiabilité de plusieurs manières différentes et indépendantes. L’un de ces moyens consiste à examiner l’intérieur du modèle lui-même.

Si l’interprétabilité est souvent présentée comme une voie prometteuse pour diagnostiquer et corriger les comportements des modèles, sa mise en œuvre concrète se heurte à des difficultés structurelles importantes. Les grands modèles reposent en effet sur des représentations hautement distribuées et non symboliques dans lesquelles les concepts ne sont pas localisés de manière identifiable mais encodés dans des interactions complexes entre un grand nombre de paramètres. L’interprétabilité mécanistique vise à reconstruire ces mécanismes internes de manière causale — ce qui dépasse largement les approches d’explicabilité superficielle et pose des défis scientifiques encore largement ouverts.

Par « examiner l’intérieur », j’entends : analyser l’ensemble des chiffres et des opérations qui composent le réseau neuronal de Claude et essayer de comprendre, de manière mécanique, ce qu’ils calculent et pourquoi. Rappelons que ces modèles d’IA étant développés plutôt que construits, nous n’avons pas une compréhension naturelle de leur fonctionnement, mais nous pouvons essayer de développer une compréhension en corrélant les « neurones » et les « synapses » du modèle avec des stimuli et des comportements — ou même en modifiant les neurones et les synapses et en observant comment cela change le comportement — de la même manière que les neuroscientifiques étudient le cerveau des animaux en corrélant les mesures et les interventions avec des stimuli externes et des comportements.

Nous avons fait d’énormes progrès dans cette direction et pouvons désormais identifier des dizaines de millions de « caractéristiques » au sein du réseau neuronal de Claude qui correspondent à des idées et des concepts compréhensibles par l’homme. Nous pouvons également activer de manière sélective certaines caractéristiques afin de modifier le comportement. Plus récemment, nous sommes allés au-delà des caractéristiques individuelles pour cartographier les « circuits » qui orchestrent des comportements complexes tels que la rime, le raisonnement sur la théorie de l’esprit ou le raisonnement étape par étape nécessaire pour répondre à des questions telles que « Quelle est la capitale de l’État où se trouve Dallas ? ». Plus récemment encore, nous avons commencé à utiliser des techniques d’interprétabilité mécaniste pour améliorer nos mesures de sécurité et effectuer des « audits » des nouveaux modèles avant leur lancement, à la recherche de preuves de tromperie, de manigances, de recherche de pouvoir ou de propension à se comporter différemment lorsqu’ils sont évalués.

La valeur unique de l’interprétabilité réside dans le fait qu’en examinant le fonctionnement interne du modèle, on a en principe la possibilité de déduire ce qu’un modèle pourrait faire dans une situation hypothétique qu’on ne peut pas tester directement — ce qui est préoccupant lorsque l’on se fie uniquement à un entraînement constitutionnel et à des tests empiriques du comportement. En principe, on a également la possibilité de répondre à des questions sur les raisons pour lesquelles le modèle se comporte ainsi, par exemple s’il dit quelque chose qu’il croit être faux ou s’il cache ses véritables capacités, et il est donc possible de détecter des signes inquiétants même lorsque le comportement du modèle ne présente aucun problème visible. Pour faire une analogie simple, une montre à remontage mécanique peut fonctionner normalement mais en ouvrant la montre et en regardant à l’intérieur, on peut découvrir des faiblesses mécaniques qui permettent de savoir qu’elle risque de tomber en panne le mois prochain et pourquoi.

L’IA constitutionnelle — ainsi que les méthodes d’alignement similaires — et l’interprétabilité mécaniste sont particulièrement efficaces lorsqu’elles sont utilisées conjointement, dans le cadre d’un processus itératif visant à améliorer la formation de Claude, puis à tester les problèmes. La constitution reflète profondément la personnalité que nous souhaitons donner à Claude ; les techniques d’interprétabilité peuvent nous permettre de déterminer si cette personnalité souhaitée s’est imposée. 16

La troisième chose que nous pouvons faire pour aider à gérer les risques liés à l’autonomie est de mettre en place l’infrastructure nécessaire pour surveiller nos modèles lors de leur utilisation interne et externe en temps réel 17 et de partager publiquement les problèmes que nous rencontrons. Plus les gens sont conscients d’un comportement particulier observé dans les systèmes d’IA actuels, plus les utilisateurs, les analystes et les chercheurs peuvent surveiller ce comportement ou des comportements similaires dans les systèmes actuels ou futurs.

Cela permet également aux entreprises d’IA d’apprendre les unes des autres : lorsqu’une entreprise rend publique une préoccupation, les autres entreprises peuvent également y prêter attention. Et si tout le monde divulgue les problèmes, l’ensemble du secteur aura une bien meilleure idée de ce qui fonctionne bien et de ce qui fonctionne mal.

Anthropic s’est efforcé de le faire autant que possible.

Nous investissons dans un large éventail d’évaluations afin de comprendre les comportements de nos modèles en laboratoire, ainsi que dans des outils de surveillance permettant d’observer les comportements en situation réelle (lorsque les clients l’autorisent). Cela sera essentiel pour nous fournir, ainsi qu’à d’autres, les informations empiriques nécessaires pour mieux déterminer comment ces systèmes fonctionnent et comment ils tombent en panne. Nous publions des « fiches système » avec chaque version de modèle, qui visent à être exhaustives et à explorer de manière approfondie les risques potentiels. Nos fiches système comptent souvent des centaines de pages et nécessitent un travail considérable avant leur publication, que nous aurions pu consacrer à la recherche d’un avantage commercial maximal. Nous avons également diffusé plus largement les comportements des modèles lorsque nous en avons observé de particulièrement préoccupants, comme la tendance à se livrer au chantage.

La quatrième chose que nous pouvons faire est d’encourager la coordination pour traiter les risques liés à l’autonomie au niveau de l’industrie et de la société. S’il est extrêmement précieux que les entreprises d’IA individuelles adoptent de bonnes pratiques ou deviennent compétentes dans la gestion des modèles d’IA et qu’elles partagent leurs conclusions publiquement, la réalité est que toutes les entreprises d’IA ne le font pas, et que les pires d’entre elles peuvent toujours représenter un danger pour tout le monde, même si les meilleures ont d’excellentes pratiques.

Par exemple, certaines entreprises d’IA ont fait preuve d’une négligence inquiétante à l’égard de la sexualisation des enfants dans les modèles actuels, ce qui me fait douter qu’elles aient la volonté ou la capacité de traiter les risques liés à l’autonomie dans les futurs modèles. En outre, la course commerciale entre les entreprises d’IA ne fera que s’intensifier, et si la science de la gestion des modèles peut présenter certains avantages commerciaux, l’intensité de cette course rendra globalement de plus en plus difficile de se concentrer sur la gestion des risques liés à l’autonomie. Je pense que la seule solution réside dans la législation, c’est-à-dire dans des lois qui influencent directement le comportement des entreprises d’IA ou qui incitent la R&D à résoudre ces problèmes.

Il convient ici de garder à l’esprit les avertissements que j’ai formulés au début de cet essai concernant l’incertitude et les interventions chirurgicales. Nous ne savons pas avec certitude si les risques liés à l’autonomie constitueront un problème grave. Comme je l’ai dit, je rejette les affirmations selon lesquelles le danger est inévitable ou même que quelque chose va forcément mal tourner.

Un risque crédible de danger suffit pour que moi-même et Anthropic acceptions de payer des coûts assez importants pour y remédier, mais une fois que nous nous engageons dans la voie de la réglementation, nous obligeons un large éventail d’acteurs à supporter des coûts économiques et beaucoup de ces acteurs ne croient pas que le risque lié à l’autonomie soit réel ou que l’IA devienne suffisamment puissante pour constituer une menace. Je pense que ces acteurs se trompent mais que nous devons être pragmatiques quant à l’ampleur de l’opposition à laquelle nous pouvons nous attendre et aux dangers d’une réglementation excessive. Car le risque est réel qu’une législation trop prescriptive finisse par imposer des tests ou des règles qui n’améliorent pas réellement la sécurité mais qui fassent perdre beaucoup de temps — ce qui reviendrait essentiellement à un « théâtre de la sécurité ». Cela provoquerait également un retour de bâton en rendant la législation sur la sécurité ridicule 18.

Anthropic estime que le bon point de départ est une législation sur la transparence, qui vise essentiellement à exiger que toutes les entreprises pionnières dans le domaine de l’IA s’engagent à respecter les pratiques de transparence que j’ai décrites plus haut dans cette section. La loi SB 53 de Californie et la loi RAISE de New York sont des exemples de ce type de législation, qu’Anthropic a soutenues et qui ont été adoptées avec succès. En soutenant et en contribuant à l’élaboration de ces lois, nous avons particulièrement veillé à minimiser les dommages collatéraux, par exemple en exemptant de la loi les petites entreprises peu susceptibles de produire des modèles de pointe 19.

À partir de fin 2025, la régulation de l’IA aux États-Unis est marquée par une tension structurelle entre, d’une part, une stratégie fédérale largement non interventionniste et pro-innovation et, d’autre part, un ensemble croissant de régulations adoptées au niveau des États. Cette divergence est actée avec l’Executive Order nommé « Removing Barriers to American Leadership in Artificial Intelligence », visant explicitement à freiner les régulations étatiques jugées excessives.

Nous espérons que la législation sur la transparence permettra, à terme, de mieux comprendre la probabilité et la gravité des risques liés à l’autonomie, ainsi que la nature de ces risques et la meilleure façon de les prévenir. À mesure que des preuves plus spécifiques et exploitables des risques apparaîtront — si tel est le cas — la législation future au cours des prochaines années pourra se concentrer de manière chirurgicale sur l’orientation précise et bien étayée des risques, minimisant ainsi les dommages collatéraux. Pour être clair, si des preuves vraiment solides des risques apparaissent, les règles devront être proportionnellement strictes.

Dans l’ensemble, je suis optimiste quant au fait qu’une combinaison de formation à l’alignement, d’interprétabilité mécanistique, d’efforts pour trouver et divulguer publiquement les comportements préoccupants, de mesures de protection et de règles au niveau sociétal puisse permettre de faire face aux risques liés à l’autonomie de l’IA, même si je suis très inquiet au sujet des règles au niveau sociétal et du comportement des acteurs les moins responsables — et ce sont les acteurs les moins responsables qui s’opposent le plus fortement à la réglementation. Je pense que la solution est la même que dans toute démocratie : ceux d’entre nous qui croient en cette cause doivent faire valoir que ces risques sont réels et que nos concitoyens doivent s’unir pour se protéger.

2. Une prise de pouvoir surprenante et terrible

L’utilisation abusive à des fins destructrices

Supposons maintenant que les problèmes liés à l’autonomie de l’IA aient été résolus : nous ne craignons plus que le pays des génies de l’IA se rebelle et domine l’humanité. Les génies de l’IA font ce que les humains veulent qu’ils fassent et comme ils ont une valeur commerciale énorme, les particuliers et les organisations du monde entier peuvent « louer » un ou plusieurs « génies IA » pour effectuer diverses tâches à leur place.

Le fait que chacun dispose d’un génie superintelligent dans sa poche est une avancée extraordinaire qui conduira à une incroyable création de valeur économique et à une amélioration de la qualité de vie humaine. Je parle de ces avantages en détail dans Machines of Loving Grace. Mais tous les effets de la transformation de chacun en être surhumain ne seront pas positifs. Cela peut potentiellement amplifier la capacité des individus ou des petits groupes à causer des destructions à une échelle beaucoup plus grande qu’auparavant, en utilisant des outils sophistiqués et dangereux — tels que les armes de destruction massive — qui n’étaient auparavant accessibles qu’à quelques privilégiés possédant un haut niveau de compétence, une formation spécialisée et une grande concentration.

Comme l’écrivait Bill Joy il y a 25 ans dans Why the Future Doesn’t Need Us 20 :

La fabrication d’armes nucléaires nécessitait, du moins pendant un certain temps, l’accès à des matières premières rares, voire introuvables, et à des informations protégées ; les programmes d’armes biologiques et chimiques nécessitaient également des activités à grande échelle. Les technologies du XXIe siècle (génétique, nanotechnologie, robotique…) peuvent donner lieu à des accidents et des abus d’un genre entièrement nouveau… largement à la portée d’individus ou de petits groupes. Elles ne nécessiteront pas de grandes installations ni de matières premières rares… Nous sommes à l’aube d’une nouvelle perfection du mal extrême, un mal dont la portée dépasse largement celle des armes de destruction massive léguées aux États-nations, pour donner un pouvoir surprenant et terrible à des individus extrêmes.

Ce que Joy souligne, c’est l’idée que pour causer des destructions à grande échelle, il faut à la fois un motif et une capacité. Tant que cette capacité est limitée à un petit groupe de personnes hautement qualifiées, le risque que des individus isolés (ou de petits groupes) causent de telles destructions est relativement limité 21.

Un solitaire dérangé peut commettre une fusillade dans une école, mais il y a peu de chances pour qu’il soit capable de construire une arme nucléaire ou de libérer un virus. En fait, la capacité et le motif peuvent même être négativement corrélés. Le type de personne qui a la capacité de disséminer une épidémie est probablement très instruit : il s’agit sans doute d’un docteur en biologie moléculaire, particulièrement très ingénieux, avec une carrière prometteuse, une personnalité stable et disciplinée, et beaucoup à perdre. Ce type de personne est peu susceptible d’être intéressé par le fait de tuer un grand nombre de personnes sans aucun bénéfice pour lui-même et au risque de compromettre son propre avenir. Il faudrait qu’il soit motivé par une pure malveillance, un grief intense ou une instabilité. De telles personnes existent, mais elles sont rares et ont tendance à faire la une des journaux lorsqu’elles apparaissent, précisément parce qu’elles sont si inhabituelles 22. Ils sont également difficiles à attraper car ils sont intelligents et compétents, laissant parfois derrière eux des mystères qui prennent des années, voire des décennies, à résoudre. L’exemple le plus célèbre est probablement celui du mathématicien Theodore Kaczynski (alias Unabomber), qui a échappé au FBI pendant près de vingt ans, motivé par une idéologie anti-technologique. Un autre exemple est celui du chercheur en biodéfense Bruce Ivins, qui semble avoir orchestré une série d’attaques à l’anthrax en 2001. Cela s’est également produit avec des organisations non étatiques compétentes : la secte Aum Shinrikyo a réussi à se procurer du gaz sarin et à tuer 14 personnes — et en blesser des centaines d’autres — en le libérant dans le métro de Tokyo en 1995.

Heureusement, aucune de ces attaques n’a utilisé d’agents biologiques contagieux, car la capacité de fabriquer ou d’obtenir ces agents dépassait les capacités même de ces personnes 23.

Les progrès de la biologie moléculaire ont désormais considérablement réduit les obstacles à la création d’armes biologiques (notamment en termes de disponibilité des matériaux), mais cela nécessite encore une expertise considérable. Je crains qu’un génie dans la poche de chacun ne puisse supprimer cet obstacle, transformant ainsi tout le monde en docteur en virologie capable de suivre étape par étape le processus de conception, de synthèse et de diffusion d’une arme biologique. Empêcher l’obtention de ce type d’informations face à une pression hostile importante, ce que l’on appelle les « évasions », nécessite probablement des niveaux de défense supplémentaires par rapport à ceux habituellement intégrés à la formation.

Cela rompra de manière cruciale le lien entre capacité et motivation : le solitaire perturbé qui veut tuer des gens mais qui n’a ni la discipline ni les compétences pour le faire sera désormais élevé au niveau de compétence d’un docteur en virologie, qui n’est pas susceptible d’avoir cette motivation. Au-delà de la biologie — même si je pense que la biologie est le domaine le plus effrayant — cette préoccupation s’étend à tout domaine où une grande destruction est possible mais qui nécessite à l’heure actuelle un niveau élevé de compétences et de discipline. En d’autres termes, louer une IA puissante donne de l’intelligence à des personnes malveillantes mais par ailleurs ordinaires. Je crains qu’il y ait potentiellement un grand nombre de personnes de ce type et que, si elles ont accès à un moyen facile de tuer des millions de personnes, tôt ou tard, l’une d’entre elles le fasse. De plus, ceux qui possèdent déjà une expertise pourraient être en mesure de commettre des destructions à une échelle encore plus grande qu’auparavant.

La biologie est de loin le domaine qui m’inquiète le plus en raison de son très grand potentiel de destruction et de la difficulté à s’en défendre et c’est la raison pour laquelle je me concentrerai sur la biologie en particulier. Mais une grande partie de ce que je dis ici s’applique à d’autres risques, comme les cyberattaques, les armes chimiques ou la technologie nucléaire.

Je ne vais pas entrer dans les détails sur la fabrication d’armes biologiques, pour des raisons assez évidentes. Mais d’une manière générale, je crains que les LLM ne soient en passe d’acquérir — ou aient déjà acquis — les connaissances nécessaires pour les créer et les diffuser de bout en bout, et que leur potentiel de destruction soit très élevé. Certains agents biologiques pourraient causer des millions de morts si l’on s’efforçait délibérément de les diffuser pour une propagation maximale. Cependant, cela nécessiterait encore un niveau de compétence très élevé, notamment un certain nombre d’étapes et de procédures très spécifiques qui ne sont pas largement connues. Ma préoccupation ne porte pas uniquement sur les connaissances fixes ou statiques. Je crains que les LLM soient capables de guider une personne ayant des connaissances et des capacités moyennes à travers un processus complexe qui, autrement, pourrait mal tourner ou nécessiter un débogage interactif, à l’instar de la manière dont le support technique peut aider une personne non initiée à déboguer et à résoudre des problèmes informatiques complexes — même si ce processus serait plus long, pouvant durer plusieurs semaines ou mois.

Des LLM plus performants — bien au-delà des capacités actuelles — pourraient permettre des actes encore plus effrayants.

En 2024, un groupe d’éminents scientifiques a rédigé une lettre mettant en garde contre les risques liés à la recherche et à la création potentielle d’un nouveau type d’organisme dangereux : la « vie miroir ». L’ADN, l’ARN, les ribosomes et les protéines qui composent les organismes biologiques ont tous la même chiralité — également appelée « latéralité » — qui les rend non équivalents à une version d’eux-mêmes reflétée dans un miroir — tout comme votre main droite ne peut pas être tournée de manière à être identique à votre main gauche. Mais tout le système de liaison des protéines entre elles, le mécanisme de synthèse de l’ADN et de traduction de l’ARN, ainsi que la construction et la dégradation des protéines, dépendent tous de cette chiralité. Si les scientifiques créaient des versions de ce matériel biologique avec une chiralité opposée, ce qui présenterait certains avantages potentiels comme des médicaments qui durent plus longtemps dans l’organisme, cela pourrait être extrêmement dangereux. En effet, si la vie « gauchère » était créée sous la forme d’organismes complets capables de se reproduire — ce qui serait très difficile — elle serait potentiellement indigeste pour tous les systèmes qui décomposent les matières biologiques sur Terre : elle aurait une « clef » qui ne correspondrait à aucune « serrure » d’enzyme existante. Cela signifierait qu’elle pourrait proliférer de manière incontrôlable et évincer toute vie sur la planète, voire, dans le pire des cas, détruire toute vie sur Terre.

Il existe une incertitude scientifique importante quant à la création et aux effets potentiels de la vie miroir.

La lettre de 2024 était accompagnée d’un rapport qui concluait que « des bactéries miroirs pourraient vraisemblablement être créées dans les prochaines décennies », ce qui représente une fourchette très large. Mais un modèle d’IA suffisamment puissant — pour être clair, bien plus performant que tous ceux dont nous disposons aujourd’hui — pourrait être capable de découvrir comment le créer beaucoup plus rapidement, et même aider quelqu’un à le faire.

Mon opinion est que même s’il s’agit de dangers obscurs et qui peuvent sembler improbables, l’ampleur des conséquences est telle qu’ils doivent être pris au sérieux en tant que risque de premier ordre des systèmes d’IA.

Les sceptiques ont soulevé un certain nombre d’objections quant à la gravité de ces risques biologiques liés aux LLM, avec lesquelles je ne suis pas d’accord mais qui méritent d’être abordées. La plupart d’entre elles relèvent d’une méconnaissance de la trajectoire exponentielle sur laquelle se trouve cette technologie. En 2023, lorsque nous avons commencé à parler des risques biologiques liés aux LLM, les plus sceptiques affirmaient que toutes les informations nécessaires étaient disponibles sur Google et que les LLM n’apportaient rien de plus. Il n’a jamais été vrai que Google pouvait fournir toutes les informations nécessaires : les génomes sont librement accessibles, mais comme je l’ai dit plus haut, certaines étapes clefs, ainsi qu’une grande partie du savoir-faire pratique, ne peuvent être obtenues sur un moteur de recherche. Or à la fin de 2023, les LLM fournissaient déjà clairement des informations allant au-delà de ce que Google pouvait offrir pour certaines étapes du processus.

Après cela, les sceptiques se sont rabattus sur l’objection selon laquelle les LLM n’étaient pas utiles de bout en bout et ne pouvaient pas aider à l’acquisition d’armes biologiques, mais seulement fournir des informations théoriques. À la mi-2025, nos mesures montrent que les LLM pourraient déjà apporter une amélioration substantielle dans plusieurs domaines pertinents, doublant voire triplant les chances de succès. Cela nous a amenés à décider que Claude Opus 4 (et les modèles Sonnet 4.5, Opus 4.1 et Opus 4.5 qui ont suivi) devaient être commercialisés sous notre niveau de sécurité IA 3 (AI Safety Level 3) dans le cadre de notre politique de mise à l’échelle responsable, et à mettre en place des mesures de protection contre ce risque (nous y reviendrons plus tard). Nous pensons que les modèles approchent désormais le point où, sans mesures de protection, ils pourraient permettre à une personne titulaire d’un diplôme en sciences, technologie, ingénierie et mathématiques (STEM), mais pas spécifiquement en biologie, de mener à bien l’ensemble du processus de fabrication d’une arme biologique.

Le Responsible Scaling Policy (RSP) est le cadre d’Anthropic visant à adapter le niveau de sécurité et de gouvernance des modèles à mesure que leurs capacités augmentent, via des paliers (AI Safety Levels) définissant des obligations croissantes en matière d’évaluation, de contrôle et de déploiement responsable.

Une autre objection est qu’il existe d’autres mesures sans rapport avec l’IA que la société peut prendre pour empêcher la production d’armes biologiques. Tout d’abord, l’industrie de la synthèse génétique fabrique des spécimens biologiques à la demande, et il n’existe aucune obligation fédérale imposant aux fournisseurs de vérifier les commandes afin de s’assurer qu’elles ne contiennent pas d’agents pathogènes. Une étude du MIT a révélé que 36 des 38 fournisseurs capables de produire ces synthèses ont honoré une commande contenant la séquence du virus de la grippe de 1918. Je suis favorable à un contrôle obligatoire de la synthèse génétique qui rendrait plus difficile pour les individus de transformer des agents pathogènes en armes, afin de réduire à la fois les risques biologiques liés à l’IA et les risques biologiques en général. Mais ce n’est pas le cas aujourd’hui. Ce ne serait d’ailleurs qu’un outil parmi d’autres pour réduire les risques. Il s’agit d’un complément aux garde-fous des systèmes d’IA et non d’un substitut.

La meilleure objection est celle que j’ai le plus rarement vue soulevée : il existe un écart entre l’utilité théorique des modèles et la propension réelle des acteurs malveillants à les utiliser. La plupart des acteurs malveillants sont en effet des individus dérangés, donc, par définition, leur comportement est imprévisible et irrationnel. Et ce sont ces acteurs malveillants, ceux qui ne sont pas qualifiés, qui auraient pu tirer le plus grand profit de l’IA, qui facilite grandement le meurtre de nombreuses personnes 24. Autrement dit, ce n’est pas parce qu’un type d’attaque violente est possible que quelqu’un décidera de le faire. Les attaques biologiques seront peut-être peu attrayantes parce qu’elles sont susceptibles d’infecter leur auteur, qu’elles ne répondent pas aux fantasmes de type militaire de nombreux individus ou groupes violents, et qu’il est difficile de cibler sélectivement des personnes spécifiques. Il se peut également que le fait de passer par un processus qui prend des mois, même si une IA vous guide tout au long de celui-ci, nécessite une patience que la plupart des individus dérangés n’ont tout simplement pas. Nous pourrions simplement avoir de la chance et que, dans la pratique, la motivation et la capacité ne se combinent pas de la bonne manière.

Mais cette protection semble un appui très fragile. Les motivations des solitaires dérangés peuvent changer pour n’importe quelle raison ou même sans raison, et il existe déjà des cas où des LLM ont été utilisés dans des attaques — mais pas dans le domaine biologique. Se concentrer sur les solitaires perturbés revient également à ignorer les terroristes motivés par des idéologies, qui sont souvent prêts à y consacrer beaucoup de temps et d’efforts — par exemple, les pirates de l’air du 11 septembre. Le désir de tuer le plus grand nombre de personnes possible est un motif qui finira probablement par apparaître tôt ou tard, et qui suggère malheureusement le recours aux armes biologiques. Même si ce motif est extrêmement rare, il suffit qu’il se concrétise une seule fois. Et à mesure que la biologie progresse — de plus en plus grâce à l’IA elle-même — il pourrait également devenir possible de mener des attaques plus sélectives — par exemple, ciblant des personnes ayant des origines spécifiques — ce qui ajoute un autre motif à cette galerie effrayante.

Je ne pense pas que des attaques biologiques seront nécessairement menées dès qu’elles deviendront largement possibles — en fait, je parierais plutôt le contraire. Mais si l’on additionne des millions de personnes et quelques années, je pense qu’il existe un risque sérieux d’attaque majeure, et les conséquences seraient si graves — avec des millions de victimes potentielles, voire plus — que je crois que nous n’avons d’autre choix que de prendre des mesures sérieuses pour l’empêcher.

Nos moyens de défense

Cela nous conduit à la question de savoir comment se défendre contre ces risques. Je vois ici trois choses que nous pouvons faire.

Premièrement, les entreprises d’IA peuvent mettre en place des garde-fous sur leurs modèles afin d’empêcher qu’ils ne contribuent à la production d’armes biologiques. Anthropic s’y emploie très activement. La Constitution de Claude, qui se concentre principalement sur des principes et des valeurs de haut niveau, comporte un petit nombre d’interdictions spécifiques strictes, dont l’une concerne l’aide à la production d’armes biologiques (ou chimiques, nucléaires ou radiologiques). Mais tous les modèles peuvent être piratés. C’est pourquoi, comme ligne de défense supplémentaire, nous avons mis en place (depuis mi-2025, lorsque nos tests ont montré que nos modèles commençaient à approcher le seuil à partir duquel ils pourraient présenter un risque) un classificateur qui détecte et bloque spécifiquement les résultats liés aux armes biologiques. Nous mettons régulièrement à jour et améliorons ces classificateurs, et nous les avons généralement trouvés très robustes, même face à des attaques adverses sophistiquées 25. Ces classificateurs augmentent considérablement les coûts de fonctionnement de nos modèles — dans certains cas, ils représentent près de 5 % des coûts totaux d’inférence — et réduisent donc nos marges, mais nous estimons que leur utilisation est la bonne chose à faire.

Dans la plupart des applications, le modèle d’IA n’est pas utilisé de manière isolée, mais est intégré dans un échafaudage plus large comprenant divers composants, notamment des mécanismes de filtrage en entrée et en sortie destinés à contrôler les contenus générés. Ces garde-fous reposent eux-mêmes souvent sur des LLMs, ce qui implique qu’ils sont soumis à des vulnérabilités comparables. Ces classificateurs automatiques sont chargés de vérifier que les données traitées par le modèle respectent les règles et politiques définies pour l’application.

Il faut reconnaître que d’autres entreprises d’IA ont également mis en place des classificateurs. Mais toutes les entreprises ne l’ont pas fait, et rien n’oblige les entreprises à conserver leurs classificateurs. Je crains qu’avec le temps, on finisse par assister à un dilemme du prisonnier où les entreprises pourraient se dérober et réduire leurs coûts en supprimant les classificateurs. Il s’agit là encore d’un problème classique d’externalités négatives qui ne peut être résolu par les actions volontaires d’Anthropic ou de toute autre entreprise à elle seule 26. Des normes industrielles volontaires pourraient aider, tout comme des évaluations et des vérifications par des tiers, telles que celles effectuées par des instituts de sécurité IA et des évaluateurs tiers.

Mais en fin de compte, la défense peut nécessiter une action gouvernementale : c’est la deuxième chose que nous pouvons faire. Mon point de vue à cet égard est le même que pour la gestion des risques liés à l’autonomie : nous devrions commencer par des exigences de transparence 27, qui aident la société à mesurer, surveiller et se défendre collectivement contre les risques sans perturber l’activité économique de manière trop lourde. Ensuite, si et lorsque nous atteindrons des seuils de risque plus clairs, nous pourrons élaborer une législation qui cible plus précisément ces risques et présente moins de possibilités de dommages collatéraux. Dans le cas particulier des armes biologiques, je pense en fait que le moment d’une telle législation ciblée pourrait bientôt arriver : Anthropic et d’autres entreprises en apprennent de plus en plus sur la nature des risques biologiques et sur ce qu’il est raisonnable d’exiger des entreprises pour s’en défendre. Une défense complète contre ces risques pourrait nécessiter une collaboration internationale, même avec des adversaires géopolitiques, mais il existe des précédents dans les traités interdisant le développement d’armes biologiques. Je suis généralement sceptique quant à la plupart des formes de coopération internationale en matière d’IA, mais il s’agit peut-être là d’un domaine spécifique où il existe une chance de parvenir à une restriction mondiale. Même les dictatures ne souhaitent pas de violations massives de la sécurité biologique.

Enfin, la troisième contre-mesure que nous pouvons prendre consiste à essayer de développer des défenses contre les attaques biologiques elles-mêmes. Cela pourrait inclure la surveillance et le suivi pour une détection précoce, des investissements dans la R&D en matière de purification de l’air (comme la désinfection par UVC lointain), le développement rapide de vaccins capables de répondre et de s’adapter à une attaque, de meilleurs équipements de protection individuelle (EPI) 28 et des traitements ou vaccins pour certains des agents biologiques les plus probables. Les vaccins à ARN messager, qui peuvent être conçus pour répondre à un virus ou à un variant particulier, sont un premier exemple de ce qui est possible dans ce domaine. Anthropic est ravi de travailler avec des entreprises biotechnologiques et pharmaceutiques sur ce problème. Mais malheureusement, je pense que nos attentes en matière de défense doivent être limitées. Il existe une asymétrie entre l’attaque et la défense en biologie, car les agents se propagent rapidement d’eux-mêmes, tandis que les défenses nécessitent une détection, une vaccination et un traitement qui doivent être organisés très rapidement à grande échelle. À moins que la réponse ne soit ultra-rapide — ce qui est rarement le cas —, une grande partie des dégâts sera causée avant qu’une réponse ne soit possible. Il est concevable que les progrès technologiques futurs puissent faire pencher la balance en faveur de la défense — et nous devrions certainement utiliser l’IA pour aider à développer ces avancées technologiques — mais d’ici là, les mesures de prévention resteront notre principale ligne de défense.

Il convient de mentionner brièvement ici les cyberattaques, car contrairement aux attaques biologiques, les cyberattaques menées par l’IA ont déjà eu lieu dans la réalité, y compris à grande échelle et dans le cadre d’espionnage commandité par des États. Nous nous attendons à ce que ces attaques deviennent plus efficaces à mesure que les modèles progressent rapidement, jusqu’à ce qu’elles deviennent le principal moyen de mener des cyberattaques.

Je pense que les cyberattaques menées par l’IA vont devenir une menace sérieuse et sans précédent pour l’intégrité des systèmes informatiques dans le monde entier, et Anthropic travaille d’arrache-pied pour mettre fin à ces attaques et, à terme, les empêcher de manière fiable. Si je ne me suis pas autant concentré sur le cyberespace que sur la biologie, c’est parce que (1) les cyberattaques sont beaucoup moins susceptibles de tuer des personnes, ou en tout cas pas à l’échelle des attaques biologiques, et (2) l’équilibre entre l’attaque et la défense peut être plus facile à gérer dans le cyberespace, où il y a au moins un certain espoir que la défense puisse suivre — et même, idéalement, dépasser — les attaques de l’IA si nous y investissons correctement.

Bien que la biologie soit actuellement le vecteur d’attaque le plus grave, il existe de nombreux autres vecteurs et il est possible qu’un vecteur plus dangereux apparaisse. Le principe général est que sans contre-mesures, l’IA est susceptible de réduire continuellement les obstacles aux activités destructrices à une échelle de plus en plus grande, et l’humanité doit apporter une réponse sérieuse à cette menace.

3. Un alliage pour la haine

L’utilisation abusive pour s’emparer du pouvoir

La section précédente a abordé le risque que des individus et de petites organisations cooptent un petit sous-ensemble du « pays des génies dans un centre de données » pour causer des destructions à grande échelle. Mais nous devrions également nous inquiéter — et probablement beaucoup plus — de l’utilisation abusive de l’IA dans le but d’exercer ou de s’emparer du pouvoir, probablement par des acteurs plus importants et mieux établis 29.

Dans Machines of Loving Grace, j’ai évoqué la possibilité que des gouvernements autoritaires utilisent une IA puissante pour surveiller ou réprimer leurs citoyens d’une manière qui serait extrêmement difficile à réformer ou à renverser. Les autocraties actuelles sont limitées dans leur capacité de répression par la nécessité de faire exécuter leurs ordres par des humains, et les humains ont souvent des limites dans leur capacité à se montrer inhumains. Mais les autocraties basées sur l’IA n’auraient pas de telles limites.

Pire encore, certains pays pourraient également utiliser leur avantage en matière d’IA pour acquérir un pouvoir sur d’autres pays.

Si le « pays des génies » dans son ensemble était simplement détenu et contrôlé par l’appareil militaire d’un seul pays (humain) et que les autres pays ne disposaient pas de capacités équivalentes, il serait difficile d’imaginer comment ils pourraient se défendre : ils seraient surpassés à chaque tournant, comme dans une guerre entre les humains et les souris. La combinaison de ces deux préoccupations conduit à la possibilité alarmante d’une dictature totalitaire mondiale. Il est évident que l’une de nos principales priorités devrait être d’empêcher cette possibilité.

L’IA pourrait permettre, renforcer ou étendre l’autocratie de nombreuses façons, mais je vais énumérer celles qui m’inquiètent le plus. Notez que certaines de ces applications ont des utilisations défensives légitimes, et je ne m’y oppose pas nécessairement dans l’absolu ; je crains néanmoins qu’elles aient tendance à favoriser structurellement les autocraties :

— Tout d’abord, les armes entièrement autonomes. Un essaim de millions ou de milliards de drones armés entièrement automatisés, contrôlés localement par une IA puissante et coordonnés stratégiquement à travers le monde par une IA encore plus puissante, pourrait constituer une armée invincible, capable à la fois de vaincre n’importe quelle armée dans le monde et de réprimer la dissidence au sein d’un pays en suivant chaque citoyen. L’évolution de la guerre entre la Russie et l’Ukraine devrait nous alerter sur le fait que la guerre des drones est déjà une réalité (même si elle n’est pas encore entièrement autonome et ne représente qu’une infime partie de ce qui serait possible avec une IA puissante). La R&D dans le domaine de l’IA puissante pourrait rendre les drones d’un pays bien supérieurs à ceux des autres, accélérer leur fabrication, les rendre plus résistants aux attaques électroniques, améliorer leur maniabilité, etc. Bien sûr, ces armes ont également des utilisations légitimes pour la défense de la démocratie : elles ont joué un rôle clef dans la défense de l’Ukraine et seraient probablement essentielles pour défendre Taïwan. Mais elles constituent une arme dangereuse à manier : nous devons nous inquiéter de leur utilisation par des autocraties, mais aussi du fait qu’elles sont si puissantes et si peu contrôlées qu’il existe un risque accru que des gouvernements démocratiques les utilisent contre leur propre population pour s’emparer du pouvoir.

— La surveillance par l’IA. Une IA suffisamment puissante pourrait probablement être utilisée pour compromettre n’importe quel système informatique dans le monde 30 et pourrait également utiliser l’accès ainsi obtenu pour lire et comprendre toutes les communications électroniques du monde (voire toutes les communications en personne, si des appareils d’enregistrement peuvent être construits ou réquisitionnés). Il est effrayant de penser qu’il suffirait de générer une liste complète de toutes les personnes en désaccord avec le gouvernement sur un certain nombre de questions, même si ce désaccord n’est pas explicite dans leurs paroles ou leurs actes. Une IA puissante capable d’analyser des milliards de conversations entre des millions de personnes pourrait ainsi évaluer l’opinion publique, détecter les poches de déloyauté en formation et les éliminer avant qu’elles ne se développent. Cela pourrait conduire à l’imposition d’un véritable panoptique à une échelle que nous ne connaissons pas aujourd’hui, même avec le Parti communiste chinois.

— La propagande par l’IA. Les phénomènes actuels de « psychose de l’IA » et de « petites amies IA » suggèrent que même à leur niveau d’intelligence actuel, les modèles d’IA peuvent avoir une influence psychologique puissante sur les gens. Des versions beaucoup plus puissantes de ces modèles, beaucoup plus intégrées et conscientes de la vie quotidienne des gens, capables de les modéliser et de les influencer pendant des mois ou des années, seraient probablement capables de laver le cerveau de nombreuses personnes — peut-être même la plupart — pour leur inculquer n’importe quelle idéologie ou attitude souhaitée, et pourraient être utilisées par un dirigeant sans scrupules pour s’assurer la loyauté et réprimer la dissidence, même face à un niveau de répression contre lequel la plupart des populations se rebelleraient. Aujourd’hui, les gens s’inquiètent beaucoup, par exemple, de l’influence potentielle de TikTok en tant qu’outil de propagande du PCC à destination des enfants. Je m’en inquiète aussi, mais un agent IA personnalisé qui apprend à vous connaître au fil des ans et utilise ses connaissances sur vous pour façonner toutes vos opinions serait considérablement plus puissant que cela.

— La prise de décision stratégique. Un pays de génies dans un centre de données pourrait être utilisé pour conseiller un pays, un groupe ou un individu sur la stratégie géopolitique — un « Bismarck virtuel » en quelque sorte. Il pourrait optimiser les trois stratégies ci-dessus pour s’emparer du pouvoir, et probablement en développer beaucoup d’autres auxquelles je n’ai pas pensé — mais auxquelles notre « pays de génies » pourrait penser. La diplomatie, la stratégie militaire, la R&D, la stratégie économique et de nombreux autres domaines sont susceptibles de voir leur efficacité considérablement accrue grâce à une IA puissante. Bon nombre de ces compétences seraient légitimement utiles aux démocraties — nous voulons que les démocraties aient accès aux meilleures stratégies pour se défendre contre les autocraties — mais le risque d’abus dans les mains de n’importe qui demeure.

Après avoir décrit ce qui m’inquiète, passons maintenant à qui m’inquiète.

Je m’inquiète des entités qui ont le plus accès à l’IA, qui partent d’une position de pouvoir politique maximal ou qui ont déjà fait preuve de répression par le passé. Par ordre de gravité, mes principaux sujets d’inquiétude sont donc les suivants :

— Le Parti communiste chinois. La Chine est le deuxième pays après les États-Unis en termes de capacités en matière d’IA, et c’est le pays qui a le plus de chances de dépasser les États-Unis dans ce domaine. Son gouvernement est actuellement autocratique et gère un État de surveillance high-tech. Il a déjà déployé une surveillance basée sur l’IA — notamment dans la répression des Ouïghours — et serait susceptible d’utiliser la propagande algorithmique via TikTok en plus de ses nombreuses autres initiatives de propagande internationale. Il est sans conteste le pays le plus en passe de devenir le cauchemar totalitaire basé sur l’IA que j’ai décrit plus haut. Cela pourrait même être l’issue par défaut en Chine, ainsi que dans d’autres États autocratiques auxquels le PCC exporte sa technologie de surveillance. J’ai souvent écrit sur la menace que représente le PCC en tête dans le domaine de l’IA et sur l’impératif existentiel de l’en empêcher. Voici pourquoi. Pour être clair, je ne vise pas la Chine en particulier par animosité à son égard : c’est simplement le pays qui combine le mieux les prouesses en matière d’IA, un gouvernement autocratique et un État de surveillance high-tech. Ce sont les Chinois eux-mêmes qui sont les plus susceptibles de souffrir de la répression du PCC grâce à l’IA, et ils n’ont pas leur mot à dire dans les actions de leur gouvernement. J’admire et respecte énormément le peuple chinois et je soutiens les nombreux dissidents courageux qui, en Chine, luttent pour la liberté.

Bien qu’un responsable de l’équipe Qwen ait récemment exprimé le fait que la puissance de calcul restait un problème majeur pour le développement de l’IA chinoise, la Chine est en train de rattraper son retard sur toutes les couches de la stack IA. Sur les applications, fin 2025 le fonds d’investissement a16z estime à 80 % la probabilité qu’une start-up de l’IA construise avec des modèles d’IA open source chinois comme DeepSeek, Qwen (Alibaba) ou Kimi (Moonshot AI).  Sur les modèles, l’écart entre les modèles ouverts chinois et les modèles fermés américains varie entre 6 mois et 8 mois — parmi les modèles open source, les modèles chinois dominent en 2025. Airbnb admet ainsi privilégier Qwen à ChatGPT. Sur l’infrastructure et le hardware, la Chine investit massivement dans le développement de ses propres chaînes de valeur en semi-conducteurs. La part des puces étrangères dans les serveurs AI chinois devrait chuter de 63 % à environ 42 % d’ici 2025, alors que des fournisseurs domestiques remplacent progressivement les importations de Nvidia.

— Les démocraties compétitives en matière d’IA. Comme je l’ai écrit plus haut, les démocraties ont un intérêt légitime à disposer de certains outils militaires et géopolitiques basés sur l’IA, car les gouvernements démocratiques offrent la meilleure chance de contrer l’utilisation de ces outils par les autocraties. D’une manière générale, je suis favorable à l’idée de doter les démocraties des outils nécessaires pour vaincre les autocraties à l’ère de l’IA car je pense simplement qu’il n’y a pas d’autre solution. Mais nous ne pouvons ignorer le risque d’abus de ces technologies par les gouvernements démocratiques eux-mêmes. Les démocraties disposent généralement de garde-fous qui empêchent leurs appareils militaires et de renseignement de se retourner contre leur propre population 31 mais comme les outils d’IA nécessitent très peu de personnel pour fonctionner, il est possible qu’ils contournent ces garde-fous et les normes qui les soutiennent. Il convient également de noter que certains de ces garde-fous s’érodent déjà progressivement dans certaines démocraties. Nous devons donc armer les démocraties avec l’IA mais nous devons le faire avec prudence et dans certaines limites : elles constituent le système immunitaire dont nous avons besoin pour lutter contre les autocraties, mais comme le système immunitaire, elles risquent de se retourner contre nous et de devenir elles-mêmes une menace.

— Les pays non démocratiques dotés de grands centres de données. Au-delà de la Chine, la plupart des pays dont la gouvernance est moins démocratique ne sont pas des acteurs de premier plan dans le domaine de l’IA, dans le sens où ils ne disposent pas d’entreprises qui produisent des modèles d’IA de pointe. Ils représentent donc un risque fondamentalement différent et moindre que le PCC, qui reste la principale préoccupation — la plupart sont également moins répressifs, et ceux qui le sont davantage, comme la Corée du Nord, ne disposent d’aucune industrie significative dans le domaine de l’IA. Mais certains de ces pays disposent de grands centres de données — souvent dans le cadre de développements réalisés par des entreprises opérant dans des démocraties — qui peuvent être utilisés pour exploiter l’IA de pointe à grande échelle — même si cela ne leur confère pas la capacité de repousser les limites. Cela comporte un certain danger : ces gouvernements pourraient en principe exproprier les centres de données et utiliser l’IA qui s’y trouve à leurs propres fins. Je m’inquiète moins à ce sujet que pour des pays comme la Chine qui développent directement l’IA, mais c’est un risque à garder à l’esprit 32.

— Les entreprises d’IA elles-mêmes. Même s’il est quelque peu délicat de le dire en tant que PDG d’une entreprise d’IA, je pense que le prochain niveau de risque concerne en fait les entreprises elles-mêmes. Celles-ci contrôlent de grands centres de données, forment des modèles de pointe, possèdent la plus grande expertise sur la manière d’utiliser ces modèles et, dans certains cas, sont en contact quotidien avec des dizaines ou des centaines de millions d’utilisateurs et ont la possibilité de les influencer. Ce qui leur manque principalement, c’est la légitimité et l’infrastructure d’un État, de sorte qu’une grande partie de ce qui serait nécessaire pour construire les outils d’une autocratie IA serait illégal pour une entreprise d’IA — ou du moins considéré comme extrêmement suspect. Mais certaines choses ne sont pas impossibles : elles pourraient, par exemple, utiliser leurs produits d’IA pour endoctriner leur immense base d’utilisateurs consommateurs, et le public devrait rester vigilant face au risque que cela représente. Je pense que la gouvernance des entreprises d’IA mérite d’être examinée de près. Il existe un certain nombre d’arguments possibles contre la gravité de ces menaces, et j’aimerais pouvoir y croire, car l’autoritarisme rendu possible par l’IA me terrifie. Il vaut en tout état de cause la peine d’examiner certains de ces arguments et d’y répondre.

Tout d’abord, certaines personnes pourraient placer leur confiance dans la dissuasion nucléaire, en particulier pour contrer l’utilisation d’armes autonomes dotées d’IA à des fins de conquête militaire. Si quelqu’un menace d’utiliser ces armes contre vous, vous pouvez toujours menacer de riposter par une frappe nucléaire. Ce qui m’inquiète, c’est que je ne suis pas tout à fait sûr que nous puissions avoir confiance dans la dissuasion nucléaire contre un pays de génies dans un centre de données : il est possible qu’une IA puissante puisse concevoir des moyens de détecter et de frapper des sous-marins nucléaires, mener des opérations d’influence contre les opérateurs d’infrastructures d’armes nucléaires ou utiliser les capacités cybernétiques de l’IA pour lancer une cyberattaque contre les satellites utilisés pour détecter les lancements nucléaires 33. Il est également possible que la prise de contrôle de pays soit réalisable uniquement grâce à la surveillance et à la propagande de l’IA, sans qu’il n’y ait jamais de moment précis où la situation est évidente et où une riposte nucléaire serait appropriée. Peut-être que ces choses ne sont pas réalisables et que la dissuasion nucléaire restera efficace, mais le risque semble trop élevé pour être pris 34. Une deuxième objection possible est qu’il pourrait exister des contre-mesures pour remédier à ces instruments de l’autocratie. Nous pouvons contrer les drones avec nos propres drones, la cyberdéfense s’améliorera parallèlement aux cyberattaques, il pourrait exister des moyens d’immuniser les gens contre la propagande, etc. Ma réponse est que ces défenses ne seront possibles qu’avec une IA comparativement puissante. S’il n’y a pas de force contraire avec un pays de génies comparablement intelligent et nombreux dans un centre de données, il ne sera pas possible d’égaler la qualité ou la quantité des drones, ni de faire en sorte que la cyberdéfense soit plus intelligente que la cyberattaque, etc. La question des contre-mesures se réduit donc purement à celle de l’équilibre des pouvoirs dans le domaine de l’IA puissante. 

Ici, je m’inquiète de la propriété récursive ou auto-renforçante d’une IA puissante dont j’ai parlé au début de cet essai : chaque génération d’IA peut être utilisée pour concevoir et former la prochaine génération d’IA. Cela entraîne un risque davantage incontrôlable, où le leader en matière d’IA puissante pourrait être en mesure d’accroître son avance et devenir difficile à rattraper. Nous devons nous assurer que ce n’est pas un pays autoritaire qui arrive le premier à ce stade.

L’auto-amélioration ou l’amélioration récursive de l’IA fait référence au fait que les modèles d’IA à la frontière sont utilisés dans tout le cycle de développement de l’IA pour accélérer le développement des nouvelles générations de modèles. Pour la génération de meilleures données d’entraînement par l’IA, les LLM sont utilisés pour générer synthétiquement et nettoyer leurs propres données d’entraînement, ce qui réduit la dépendance à l’annotation humaine et améliore les modèles. Le modèle chinois Kimi-k2 s’appuie par exemple sur une pipeline de synthèse de données d’agents à grande échelle, qui génère systématiquement des démonstrations d’usage d’outils à partir d’environnements simulés et réels.

L’IA est utilisée dans l’écriture du code servant au développement des modèles à l’aide des agents de code. Comme l’indique Dario Amodei, Claude Code est en effet utilisé massivement dans le développement des modèles. L’IA aide à l’écriture de kernels GPU, eux-mêmes à la base du calcul de l’IA moderne pour obtenir de nouvelles mises en œuvre accélérant le développement de nouvelles architectures. L’IA aide enfin au design des nouvelles générations de GPUs et de datacenters — disposition des racks, flux d’air et refroidissement, etc.

Prolongeant cette idée à l’extrême, Sam Altman avance un principe de convergence selon lequel, à mesure que l’IA optimise elle-même les données, le code, les kernels, le matériel et l’infrastructure qui la font fonctionner, son coût marginal à long terme tendrait à se rapprocher de celui du coût de l’énergie.

De plus, même si un équilibre des pouvoirs peut être atteint, il existe toujours un risque que le monde soit divisé en sphères autocratiques, comme dans le roman 1984. Même si plusieurs puissances concurrentes disposent chacune de leurs propres modèles d’IA puissants et qu’aucune ne peut dominer les autres, chaque puissance pourrait toujours réprimer sa propre population en interne et serait très difficile à renverser car les populations ne disposent pas d’une IA puissante pour se défendre. Il est donc important d’empêcher l’autocratie rendue possible par l’IA, même si elle ne conduit pas à la domination mondiale par un seul pays.

Nos moyens de défense

Comment se défendre contre ce large éventail d’instruments autocratiques et d’acteurs potentiellement menaçants ?

Comme dans les sections précédentes, je pense que nous pouvons prendre plusieurs mesures. Tout d’abord, nous ne devons absolument pas vendre de puces (chips), d’outils de fabrication de puces ou de centres de données au PCC. Les puces et les outils de fabrication de puces constituent le principal obstacle à une IA puissante, et les bloquer est une mesure simple mais extrêmement efficace, peut-être la mesure la plus importante que nous puissions prendre. Il est absurde de vendre au PCC les outils qui lui permettront de construire un État totalitaire basé sur l’IA et éventuellement de nous conquérir militairement. Un certain nombre d’arguments complexes sont avancés pour justifier ces ventes, comme l’idée que « diffuser notre technologie dans le monde entier » permet aux « États-Unis de gagner » une bataille économique générale et non spécifiée. À mon avis, cela revient à vendre des armes nucléaires à la Corée du Nord, puis à se vanter que les coques des missiles sont fabriquées par Boeing et que les États-Unis sont donc « gagnants ». La Chine a plusieurs années de retard sur les États-Unis en matière de capacité à produire des puces de pointe en quantité, et la période critique pour construire le pays des génies dans un centre de données se situera très probablement dans les prochaines années 35. Il n’y a aucune raison de donner un coup de pouce gigantesque à leur industrie de l’IA pendant cette période critique.

L’administration Biden avait instauré des contrôles stricts à l’exportation sur les semi-conducteurs conçus aux États-Unis, limitant aussi l’accès des pays du Golfe aux puces avancées dans le cadre de la régulation sur la « diffusion de l’IA ». L’administration Trump est revenue sur cette politique concernant le Golfe, autorisant les Émirats arabes unis et l’Arabie saoudite à importer massivement des puces d’IA avancées, dans le but de renforcer les alliances régionales et d’écarter la Chine de cette zone stratégique.

Deuxièmement, il est logique d’utiliser l’IA pour donner aux démocraties les moyens de résister aux autocraties. C’est la raison pour laquelle Anthropic considère qu’il est important de fournir de l’IA aux communautés du renseignement et de la défense aux États-Unis et à leurs alliés démocratiques. La défense des démocraties qui sont attaquées, comme l’Ukraine et — via des cyberattaques — Taïwan, semble particulièrement prioritaire, tout comme le fait de donner aux démocraties les moyens d’utiliser leurs services de renseignement pour perturber et affaiblir les autocraties de l’intérieur. La seule façon de répondre aux menaces autocratiques est de les égaler et de les surpasser militairement. Une coalition entre les États-Unis et leurs alliés démocratiques, si elle parvenait à dominer le champ de l’IA puissante, serait en mesure non seulement de se défendre contre les autocraties, mais aussi de les contenir et de limiter leurs abus totalitaires en matière d’IA.

Troisièmement, nous devons adopter une ligne dure contre les abus de l’IA au sein des démocraties. Il faut limiter ce que nous autorisons nos gouvernements à faire avec l’IA afin qu’ils ne s’emparent pas du pouvoir ou ne répriment pas leur propre population. La formulation que j’ai trouvée est que nous devrions utiliser l’IA pour la défense nationale de toutes les manières possibles, sauf celles qui nous rapprocheraient de nos adversaires autocratiques.

Où faut-il tracer la ligne ?

Dans la liste au début de cette section, deux éléments — l’utilisation de l’IA pour la surveillance de masse et la propagande de masse au niveau national — me semblent être des lignes rouges évidentes et totalement illégitimes. Certains pourraient faire valoir qu’il n’est pas nécessaire de faire quoi que ce soit (du moins aux États-Unis), puisque la surveillance de masse au niveau national est déjà illégale en vertu du Quatrième Amendement. Mais les progrès rapides de l’IA pourraient créer des situations auxquelles nos cadres juridiques existants ne sont pas bien adaptés. Par exemple, il ne serait probablement pas inconstitutionnel pour le gouvernement américain d’enregistrer à grande échelle toutes les conversations publiques — par exemple, ce que les gens se disent à un coin de rue — mais auparavant, il aurait été difficile de trier ce volume d’informations. Or grâce à l’IA, tout pourrait être transcrit, interprété et triangulé pour créer une image de l’attitude et des loyautés d’une grande partie ou de la plupart des citoyens. Je soutiendrais une législation axée sur les libertés civiles — voire un amendement constitutionnel — qui imposerait des garde-fous plus solides contre les abus liés à l’IA.

Les deux autres points — les armes entièrement autonomes et l’IA pour la prise de décisions stratégiques — sont plus difficiles à trancher, car ils ont des utilisations légitimes pour défendre la démocratie, tout en étant susceptibles d’abus. Je pense qu’il convient ici de faire preuve d’une extrême prudence et d’un examen minutieux, associés à des garde-fous pour prévenir les abus. Ma principale crainte est que le nombre de personnes ayant « le doigt sur le bouton » soit trop faible, de sorte qu’une seule ou quelques personnes puissent essentiellement commander une armée de drones sans avoir besoin de la coopération d’autres humains pour exécuter leurs ordres. À mesure que les systèmes d’IA deviennent plus puissants, nous devrons peut-être mettre en place des mécanismes de contrôle plus directs et plus immédiats pour garantir qu’ils ne soient pas utilisés à mauvais escient, impliquant peut-être d’autres branches du gouvernement que l’exécutif. Je pense que nous devrions aborder les armes entièrement autonomes avec une grande prudence 36 et ne pas nous précipiter dans leur utilisation sans garanties appropriées.

Quatrièmement, après avoir pris une position ferme contre les abus de l’IA dans les démocraties, nous devrions nous appuyer sur ce précédent pour créer un tabou international contre les pires abus d’une IA puissante. Je reconnais que le vent politique actuel est contraire à la coopération internationale et aux normes internationales, mais c’est un domaine où nous en avons cruellement besoin. Le monde doit comprendre le potentiel sombre d’une IA puissante entre les mains d’autocrates et reconnaître que certaines utilisations de l’IA équivalent à une tentative de voler définitivement leur liberté et d’imposer un État totalitaire dont ils ne peuvent s’échapper. J’irais même jusqu’à dire que, dans certains cas, la surveillance à grande échelle à l’aide d’une IA puissante, la propagande de masse à l’aide d’une IA puissante et certains types d’utilisations offensives d’armes entièrement autonomes devraient être considérés comme des crimes contre l’humanité. Plus généralement, une norme solide contre le totalitarisme rendu possible par l’IA et tous ses outils et instruments est nécessaire.

Il est possible d’adopter une position encore plus forte, à savoir que, compte tenu des possibilités si sombres qu’offre le totalitarisme fondé sur l’IA, l’autocratie n’est tout simplement pas une forme de gouvernement que les gens peuvent accepter à l’ère de l’IA puissante. Tout comme le féodalisme est devenu inapplicable avec la révolution industrielle, l’ère de l’IA pourrait conduire inévitablement et logiquement à la conclusion que la démocratie — et, espérons-le, une démocratie améliorée et revigorée par l’IA, comme je l’explique dans Machines of Loving Grace — est en fait la seule forme de gouvernement viable si l’humanité veut avoir un avenir prometteur.

Cinquièmement, enfin, les entreprises d’IA doivent être surveillées de près, tout comme leurs liens avec le gouvernement, qui sont nécessaires, mais doivent avoir des limites et des frontières. La puissance des capacités incarnées par une IA puissante est telle que la gouvernance d’entreprise ordinaire, conçue pour protéger les actionnaires et prévenir les abus courants tels que la fraude, est peu susceptible d’être à la hauteur de la tâche de régir les entreprises d’IA. Il pourrait également être utile que les entreprises s’engagent publiquement — peut-être même dans le cadre de la gouvernance d’entreprise — à ne pas prendre certaines mesures, telles que la construction ou le stockage privé de matériel militaire, l’utilisation de grandes quantités de ressources informatiques par des individus de manière irresponsable, ou l’utilisation de leurs produits d’IA comme propagande pour manipuler l’opinion publique en leur faveur.

Le danger provient ici de nombreuses directions — dont certaines sont en tension avec d’autres. La seule constante est que nous devons rechercher à la fois la responsabilité et des normes et garde-fous pour tous — même si nous donnons aux « bons » acteurs les moyens de contrôler les « mauvais » acteurs.

4. Le piano mécanique

La perturbation économique

Les trois sections précédentes traitaient essentiellement des risques liés à la sécurité posés par une IA puissante : les risques liés à l’IA elle-même, les risques liés à une utilisation abusive par des individus et des petites organisations, et les risques liés à une utilisation abusive par des États et des grandes organisations. Si nous mettons de côté les risques liés à la sécurité ou supposons qu’ils ont été résolus, la question suivante est d’ordre économique. Quel sera l’effet de cet apport incroyable de capital « humain » sur l’économie ? Il est clair que l’effet le plus évident sera une forte augmentation de la croissance économique. Le rythme des progrès dans la recherche scientifique, l’innovation biomédicale, la fabrication, les chaînes d’approvisionnement, l’efficacité du système financier et bien d’autres domaines conduiraient presque à coup sûr à une croissance économique beaucoup plus rapide. Dans Machines of Loving Grace, je suggère qu’un taux de croissance annuel soutenu du PIB de 10 à 20 % pourrait être possible.

Mais il faut bien comprendre qu’il s’agit d’une arme à double tranchant : quelles sont les perspectives économiques pour la plupart des êtres humains existants dans un tel monde ? Les nouvelles technologies provoquent souvent des chocs sur le marché du travail, et par le passé, les humains s’en sont toujours remis, mais je crains que cela soit dû au fait que ces chocs antérieurs n’ont touché qu’une petite fraction de l’éventail complet des capacités humaines, laissant aux humains la possibilité de se tourner vers de nouvelles tâches. L’IA aura des effets beaucoup plus larges et beaucoup plus rapides, et je crains donc qu’il soit beaucoup plus difficile de faire en sorte que tout se passe bien.

Perturbation du marché du travail

Deux problèmes spécifiques m’inquiètent : le déplacement du marché du travail et la concentration du pouvoir économique. Commençons par le premier. C’est un sujet sur lequel j’ai mis en garde très publiquement en 2025, lorsque j’ai prédit que l’IA pourrait remplacer la moitié de tous les emplois de cols blancs débutants dans les 1 à 5 prochaines années, même si elle accélère la croissance économique et le progrès scientifique. Cet avertissement a lancé un débat public sur le sujet. De nombreux PDG, technologues et économistes étaient d’accord avec moi, mais d’autres ont supposé que j’étais victime d’un sophisme sur la « masse de travail » et que je ne comprenais pas le fonctionnement du marché du travail. Certains n’ont pas compris la période de 1 à 5 ans et ont pensé que j’affirmais que l’IA supprimait des emplois dès maintenant (ce qui, je le reconnais, n’est probablement pas le cas). Il est donc utile d’expliquer en détail pourquoi je m’inquiète du remplacement de la main-d’œuvre, afin de dissiper ces malentendus.

Un certain nombre de données permettent de mettre en avant plusieurs points. Une étude de l’index économique d’Anthropic montrait début 2025 que seules environ 4 % des professions faisaient usage de l’IA pour au moins 75 % de leurs tâches. En 2025, l’intégration de l’IA reste principalement verticalisée par tâche, plutôt qu’une transformation globale du poste de travail. Une étude de Stanford de septembre basée sur des données d’ADP, leader américain de services de paiement, montre que les travailleurs en début de carrière (âgés de 22 à 25 ans) occupant des emplois exposés à l’IA ont connu une baisse relative de l’emploi de 16 %, tandis que l’emploi des travailleurs plus expérimentés est resté stable. Une étude d’Harvard conclut également que l’emploi des juniors recule dans les entreprises adoptant l’IA par rapport aux non-adoptantes, tandis que l’emploi des seniors reste largement inchangé en 2025. La baisse des juniors est concentrée dans les métiers les plus exposés à l’IA générative et s’explique par un ralentissement des embauches.

Pour commencer, il est utile de comprendre comment les marchés du travail réagissent normalement aux progrès technologiques. Lorsqu’une nouvelle technologie apparaît, elle commence par rendre certaines tâches humaines plus efficaces. Par exemple, au début de la révolution industrielle, des machines telles que des charrues améliorées ont permis aux agriculteurs d’être plus efficaces dans certains aspects de leur travail. Cela a amélioré la productivité des agriculteurs, ce qui a augmenté leurs salaires.

Dans un deuxième temps, certaines tâches agricoles ont pu être entièrement réalisées par des machines, par exemple grâce à l’invention de la batteuse ou du semoir. À ce stade, les humains effectuaient une part de plus en plus faible du travail, mais celui qu’ils accomplissaient était de plus en plus valorisé, car il complétait le travail des machines, et leur productivité a continué d’augmenter. Comme le décrit le paradoxe de Jevons, les salaires des agriculteurs, et peut-être même leur nombre, ont continué à augmenter. Même lorsque 90 % du travail est effectué par des machines, les humains peuvent simplement faire 10 fois plus avec les 10 % qu’ils continuent à faire, produisant ainsi 10 fois plus pour la même quantité de travail.

Finalement, les machines font tout ou presque tout, comme c’est le cas avec les moissonneuses-batteuses, les tracteurs et autres équipements modernes. À ce stade, l’agriculture en tant que forme d’emploi humain connaît un déclin rapide, ce qui peut entraîner de graves perturbations à court terme, mais comme l’agriculture n’est qu’une des nombreuses activités utiles que les humains sont capables d’exercer, les gens finissent par se tourner vers d’autres emplois, tels que l’utilisation de machines dans les usines. Cela reste vrai même si l’agriculture représentait auparavant une part importante de l’emploi. Il y a 250 ans, 90 % des Américains vivaient dans des fermes ; en Europe, 50 à 60 % des emplois étaient agricoles. Aujourd’hui, ces pourcentages sont inférieurs à 10 % dans ces régions, car les travailleurs se sont tournés vers des emplois industriels (puis vers des emplois intellectuels). L’économie peut accomplir ce qui nécessitait auparavant la majeure partie de la main-d’œuvre avec seulement 1 à 2 % de celle-ci, libérant ainsi le reste de la main-d’œuvre pour construire une société industrielle toujours plus avancée. Il n’y a pas de « masse de travail » fixe, mais seulement une capacité sans cesse croissante à faire toujours plus avec toujours moins. Les salaires des gens augmentent parallèlement à la croissance exponentielle du PIB et l’économie maintient le plein emploi une fois que les perturbations à court terme ont disparu.

Il est possible que les choses se passent à peu près de la même manière avec l’IA, mais je parierais plutôt le contraire. Voici quelques raisons pour lesquelles je pense que l’IA sera probablement différente :

— La vitesse. Le rythme des progrès en matière d’IA est beaucoup plus rapide que lors des révolutions technologiques précédentes. Par exemple, au cours des deux dernières années, les modèles d’IA sont passés de la capacité à peine suffisante pour écrire une seule ligne de code à la capacité d’écrire tout ou presque tout le code pour certaines personnes, y compris les ingénieurs d’Anthropic 37. Bientôt, ils pourraient être capables d’effectuer toutes les tâches d’un ingénieur logiciel, du début à la fin 38. Il est difficile pour les gens de s’adapter à ce rythme de changement, tant au niveau des modifications apportées au fonctionnement d’un emploi donné qu’à la nécessité de changer d’emploi. Même les programmeurs légendaires se décrivent de plus en plus comme « à la traîne ». Le rythme pourrait même continuer à s’accélérer, car les modèles de codage IA accélèrent de plus en plus le développement de l’IA. Pour être clair, la vitesse en soi ne signifie pas que les marchés du travail et l’emploi ne finiront pas par se redresser, mais simplement que la transition à court terme sera particulièrement douloureuse par rapport aux technologies passées, car les humains et les marchés du travail sont lents à réagir et à s’équilibrer.

— Largeur cognitive. Comme le suggère l’expression « pays de génies dans un centre de données », l’IA sera capable d’exercer un très large éventail de capacités cognitives humaines, voire toutes. Cela diffère considérablement des technologies précédentes telles que l’agriculture mécanisée, les transports ou même les ordinateurs 39. Il sera donc plus difficile pour les personnes de passer facilement d’un emploi supprimé à un emploi similaire qui leur conviendrait. Par exemple, les capacités intellectuelles générales requises pour les emplois de débutants dans des domaines tels que la finance, le conseil et le droit sont assez similaires, même si les connaissances spécifiques sont très différentes. Une technologie qui ne perturberait qu’un seul de ces trois domaines permettrait aux employés de se reconvertir dans les deux autres domaines proches (ou aux étudiants de changer de filière). Mais perturber les trois domaines à la fois (ainsi que de nombreux autres emplois similaires) pourrait rendre l’adaptation plus difficile pour les personnes concernées. De plus, ce ne sont pas seulement la plupart des emplois existants qui seront perturbés. Cela s’est déjà produit par le passé : rappelons que l’agriculture représentait autrefois un pourcentage important de l’emploi. Mais les agriculteurs pouvaient se reconvertir dans un travail relativement similaire, à savoir l’utilisation de machines industrielles, même si ce travail n’était pas courant auparavant. En revanche, l’IA se rapproche de plus en plus du profil cognitif général des humains, ce qui signifie qu’elle sera également performante dans les nouveaux emplois qui seraient normalement créés en réponse à l’automatisation des anciens. En d’autres termes, l’IA n’est pas un substitut à des emplois humains spécifiques, mais plutôt un substitut général à la main-d’œuvre humaine.

— Répartition par capacité cognitive. Dans un large éventail de tâches, l’IA semble progresser du bas vers le haut de l’échelle des capacités. Par exemple, en matière de codage, nos modèles sont passés du niveau « codeur médiocre » à « codeur performant », puis à « codeur très performant » 40. Nous commençons maintenant à observer la même progression dans le travail de bureau en général. Nous risquons donc de nous retrouver dans une situation où, au lieu d’affecter les personnes ayant des compétences spécifiques ou exerçant des professions spécifiques (qui peuvent s’adapter en se recyclant), l’IA affecte les personnes ayant certaines propriétés cognitives intrinsèques, à savoir des capacités intellectuelles inférieures (qui sont plus difficiles à changer). On ne sait pas clairement où ces personnes iront ni ce qu’elles feront, et je crains qu’elles ne forment une « sous-classe » de chômeurs ou de travailleurs à très bas salaire. Pour être clair, des situations similaires se sont déjà produites par le passé. Par exemple, certains économistes considèrent que les ordinateurs et Internet représentent un « changement technologique favorisant les compétences ». Mais ce biais en faveur des compétences n’était pas aussi extrême que ce que je prévois avec l’IA, et il aurait contribué à accroître les inégalités salariales 41 ce n’est donc pas exactement un précédent rassurant.

— Capacité à combler les lacunes. Les emplois humains s’adaptent souvent aux nouvelles technologies de telle manière que le travail comporte de nombreux aspects et que la nouvelle technologie, même si elle semble remplacer directement les humains, présente souvent des lacunes. Si quelqu’un invente une machine pour fabriquer des gadgets, les humains peuvent encore devoir charger les matières premières dans la machine. Même si cela ne demande que 1 % de l’effort nécessaire pour fabriquer les gadgets à la main, les travailleurs humains peuvent simplement fabriquer 100 fois plus de gadgets. Mais l’IA, en plus d’être une technologie en rapide évolution, est également une technologie qui s’adapte rapidement. À chaque sortie d’un nouveau modèle, les entreprises d’IA évaluent soigneusement les points forts et les points faibles du modèle, et les clients fournissent également ces informations après le lancement. Les faiblesses peuvent être corrigées en recueillant les tâches qui illustrent les lacunes actuelles et en les intégrant à la formation du modèle suivant. Au début de l’IA générative, les utilisateurs ont remarqué que les systèmes d’IA présentaient certaines faiblesses (par exemple, les modèles d’images IA généraient des mains avec un nombre incorrect de doigts) et beaucoup ont supposé que ces faiblesses étaient inhérentes à la technologie. Si tel était le cas, cela limiterait la perturbation de l’emploi. Mais la plupart de ces faiblesses sont corrigées rapidement, souvent en quelques mois seulement.

La plupart des benchmarks d’IA atteignent un plafond de performance en quelques années, voire en quelques mois après leur introduction. Ce schéma récurrent suggère que nombre des « limitations » perçues des systèmes d’IA ne sont en fait pas des barrières intrinsèques, mais des  objectifs temporaires, rapidement saturés, liés à ce que nous choisissons de mesurer à un moment donné. Pour le domaine des mathématiques par exemple, la succession de benchmarks illustre bien le déplacement des objectifs au rythme de leur saturation. GSM8K mesurait surtout la capacité à enchaîner correctement des opérations arithmétiques de niveau scolaire ; avec l’augmentation de l’échelle et l’usage du raisonnement pas à pas, il a été rapidement saturé. AIME a déplacé l’objectif vers des problèmes de concours, plus courts mais exigeant des intuitions algébriques et combinatoires, où la progression est plus lente et irrégulière. D’autres benchmarks plus récents comme FrontierMath évaluent la capacité à maintenir un raisonnement mathématique cohérent sur des problèmes longs et peu standardisés, et restent aujourd’hui non saturés. À chaque étape, la « limite » observée correspond moins à une barrière fondamentale qu’au niveau d’exigence de l’objectif retenu. Dès qu’une faiblesse est clairement formalisée par un benchmark et que celui-ci devient économiquement pertinent, elle attire généralement des efforts ciblés de collecte de données, d’entraînement et d’optimisation, et l’écart de performance se réduit alors rapidement. C’est par exemple le cas pour GDPEval mesurant la capacité des modèles à accomplir des tâches de travail réelles à forte valeur économique et GPT5.2

Il convient d’aborder les points communs de scepticisme. Tout d’abord, certains affirment que la diffusion économique sera lente, de sorte que même si la technologie sous-jacente est capable d’effectuer la plupart des tâches humaines, son application réelle dans l’ensemble de l’économie pourrait être beaucoup plus lente (par exemple dans les secteurs éloignés de l’industrie de l’IA et lents à l’adopter). La lenteur de la diffusion de la technologie est bien réelle : je discute avec des personnes issues d’une grande variété d’entreprises, et il existe des domaines dans lesquels l’adoption de l’IA prendra des années. C’est pourquoi je prévois que 50 % des emplois de cols blancs débutants seront perturbés d’ici 1 à 5 ans, même si je pense que nous disposerons d’une IA puissante (qui, d’un point de vue technologique, serait suffisante pour effectuer la plupart ou la totalité des tâches, et pas seulement celles de niveau débutant) dans beaucoup moins de 5 ans. Mais les effets de diffusion ne font que nous faire gagner du temps. Et je ne suis pas convaincu qu’ils seront aussi lents que les gens le prédisent. L’adoption de l’IA par les entreprises progresse à un rythme beaucoup plus rapide que n’importe quelle technologie précédente, en grande partie grâce à la puissance pure de la technologie elle-même. De plus, même si les entreprises traditionnelles sont lentes à adopter les nouvelles technologies, des start-ups verront le jour pour servir de « lien » et faciliter l’adoption. Si cela ne fonctionne pas, les start-ups pourraient tout simplement perturber directement les entreprises en place.

Cela pourrait conduire à un monde où ce ne sont pas tant des emplois spécifiques qui sont perturbés, mais plutôt les grandes entreprises en général, qui sont remplacées par des start-ups beaucoup moins gourmandes en main-d’œuvre. Cela pourrait également conduire à un monde d’« inégalités géographiques », où une part croissante de la richesse mondiale serait concentrée dans la Silicon Valley, qui deviendrait une économie à part entière fonctionnant à un rythme différent du reste du monde et le laissant derrière elle. Tous ces résultats seraient excellents pour la croissance économique, mais moins pour le marché du travail ou ceux qui sont laissés pour compte.

Deuxièmement, certains affirment que les emplois humains se déplaceront vers le monde physique, ce qui éviterait toute la catégorie du « travail cognitif », où l’IA progresse si rapidement. Je ne suis pas sûr non plus que cela soit très sûr. Une grande partie du travail physique est déjà effectuée par des machines (par exemple, dans le secteur manufacturier) ou le sera bientôt (par exemple, la conduite automobile). De plus, une IA suffisamment puissante sera capable d’accélérer le développement des robots, puis de contrôler ces robots dans le monde physique. Cela permettra peut-être de gagner un peu de temps (ce qui est une bonne chose), mais je crains que ce ne soit pas suffisant. Et même si la perturbation se limitait aux tâches cognitives, elle n’en resterait pas moins d’une ampleur et d’une rapidité sans précédent.

Troisièmement, certaines tâches nécessitent peut-être intrinsèquement une touche humaine ou en tirent grandement profit. Je suis un peu plus incertain à ce sujet, mais je reste sceptique quant au fait que cela suffise à compenser l’essentiel des impacts que j’ai décrits ci-dessus. L’IA est déjà largement utilisée pour le service à la clientèle. Beaucoup de gens rapportent qu’il est plus facile de parler de leurs problèmes personnels à une IA qu’à un thérapeute, car l’IA est plus patiente. Lorsque ma sœur a été confrontée à des problèmes médicaux pendant sa grossesse, elle a eu le sentiment de ne pas obtenir les réponses ou le soutien dont elle avait besoin de la part de ses prestataires de soins, et elle a trouvé que Claude avait un meilleur contact avec les patients (et réussissait mieux à diagnostiquer le problème). Je suis sûr qu’il existe certaines tâches pour lesquelles le contact humain est vraiment important, mais je ne sais pas combien. Et ici, nous parlons de trouver du travail pour presque tout le monde sur le marché du travail.

Quatrièmement, certains diront que l’avantage comparatif continuera de protéger les humains. Selon la loi de l’avantage comparatif, même si l’IA est meilleure que les humains dans tous les domaines, toute différence relative entre les compétences humaines et celles de l’IA crée une base d’échange et de spécialisation entre les humains et l’IA. Le problème est que si les IA sont littéralement des milliers de fois plus productives que les humains, cette logique commence à s’effondrer. Même des coûts de transaction minimes pourraient rendre le commerce avec les humains peu intéressant pour l’IA. Et les salaires humains pourraient être très bas, même si les humains ont techniquement quelque chose à offrir.

Il est possible que tous ces facteurs puissent être pris en compte, que le marché du travail soit suffisamment résilient pour s’adapter à une perturbation aussi énorme. Mais même s’il peut finir par s’adapter, les facteurs ci-dessus suggèrent que le choc à court terme sera d’une ampleur sans précédent.

Nos moyens de défense

Que pouvons-nous faire face à ce problème ? J’ai plusieurs suggestions, dont certaines sont déjà mises en œuvre par Anthropic.

La première chose à faire est simplement d’obtenir des données précises en temps réel sur ce qui se passe en matière de suppression d’emplois. Lorsqu’un changement économique se produit très rapidement, il est difficile d’obtenir des données fiables sur ce qui se passe, et sans données fiables, il est difficile de concevoir des politiques efficaces. Par exemple, les données gouvernementales manquent actuellement de données granulaires et à haute fréquence sur l’adoption de l’IA dans les entreprises et les industries. Depuis un an, Anthropic exploite et publie un indice économique qui montre l’utilisation de nos modèles presque en temps réel, ventilé par industrie, tâche, lieu et même par éléments tels que le fait qu’une tâche soit automatisée ou réalisée de manière collaborative. Nous disposons également d’un conseil consultatif économique qui nous aide à interpréter ces données et à anticiper l’avenir.

Deuxièmement, les entreprises d’IA ont le choix dans leur manière de travailler avec les entreprises. L’inefficacité même des entreprises traditionnelles signifie que leur déploiement de l’IA peut être très dépendant du chemin emprunté, et il existe une certaine marge de manœuvre pour choisir un meilleur chemin. Les entreprises ont souvent le choix entre « réduire les coûts » (faire la même chose avec moins de personnel) et « innover » (en faire plus avec le même nombre de personnes). Le marché produira inévitablement les deux à terme, et toute entreprise d’IA compétitive devra répondre à ces deux besoins, mais il est peut-être possible d’orienter les entreprises vers l’innovation lorsque cela est possible, ce qui nous ferait gagner du temps. Anthropic réfléchit activement à cette question.

Troisièmement, les entreprises doivent réfléchir à la manière de prendre soin de leurs employés. À court terme, faire preuve de créativité dans la réaffectation des employés au sein des entreprises peut être un moyen prometteur d’éviter les licenciements. À long terme, dans un monde où la richesse totale est énorme et où de nombreuses entreprises voient leur valeur augmenter considérablement grâce à l’augmentation de la productivité et à la concentration du capital, il pourrait être possible de rémunérer les employés humains même longtemps après qu’ils aient cessé de fournir une valeur économique au sens traditionnel du terme. Anthropic examine actuellement une série de pistes possibles pour ses propres employés, que nous partagerons dans un avenir proche.

Quatrièmement, les personnes fortunées ont l’obligation de contribuer à la résolution de ce problème. Je trouve regrettable que de nombreuses personnes fortunées (en particulier dans le secteur des technologies) aient récemment adopté une attitude cynique et nihiliste, considérant que la philanthropie est inévitablement frauduleuse ou inutile. Tant les initiatives philanthropiques privées comme la Fondation Gates que les programmes publics comme le PEPFAR ont sauvé des dizaines de millions de vies dans les pays en développement et contribué à créer des opportunités économiques dans les pays développés. Tous les cofondateurs d’Anthropic se sont engagés à donner 80 % de leur fortune, et les employés d’Anthropic se sont engagés individuellement à donner des actions de l’entreprise d’une valeur de plusieurs milliards au prix actuel, dons que l’entreprise s’est engagée à égaler.

Cinquièmement, si toutes les actions privées mentionnées ci-dessus peuvent être utiles, un problème macroéconomique d’une telle ampleur nécessitera en fin de compte l’intervention des pouvoirs publics. La réponse politique naturelle à un gâteau économique énorme associé à de fortes inégalités (dues au manque d’emplois ou à des emplois mal rémunérés pour beaucoup) est une fiscalité progressive. La taxe pourrait être générale ou cibler spécifiquement les entreprises d’IA. Il est évident que la conception d’une taxe est complexe et qu’il existe de nombreuses façons de se tromper. Je ne soutiens pas les politiques fiscales mal conçues. Je pense que les niveaux extrêmes d’inégalité prévus dans cet essai justifient une politique fiscale plus robuste pour des raisons morales fondamentales, mais je peux également présenter un argument pragmatique aux milliardaires du monde entier, à savoir qu’il est dans leur intérêt de soutenir une bonne version de cette politique : s’ils ne soutiennent pas une bonne version, ils se retrouveront inévitablement avec une mauvaise version conçue par la foule.

En fin de compte, je considère toutes les interventions susmentionnées comme des moyens de gagner du temps. À terme, l’IA sera capable de tout faire, et nous devons nous y préparer. J’espère que d’ici là, nous pourrons utiliser l’IA elle-même pour nous aider à restructurer les marchés d’une manière qui convienne à tous, et que les interventions susmentionnées nous permettront de traverser la période de transition.

La concentration économique du pouvoir

Le problème de la concentration économique du pouvoir est distinct de celui du déplacement des emplois ou de l’inégalité économique en soi. La section 1 a abordé le risque que l’humanité soit privée de son pouvoir par l’IA, et la section 3 a abordé le risque que les citoyens soient privés de leur pouvoir par leurs gouvernements par la force ou la coercition. 

Mais un autre type de privation de pouvoir peut se produire s’il y a une telle concentration de richesse qu’un petit groupe de personnes contrôle effectivement la politique gouvernementale grâce à son influence, et que les citoyens ordinaires n’ont aucune influence parce qu’ils n’ont pas de levier économique. La démocratie repose en fin de compte sur l’idée que l’ensemble de la population est nécessaire au fonctionnement de l’économie. Si ce levier économique disparaît, le contrat social implicite de la démocratie pourrait cesser de fonctionner. D’autres ont déjà écrit à ce sujet, je n’ai donc pas besoin d’entrer dans les détails ici, mais je partage cette préoccupation et je crains que cela ne commence déjà à se produire.

Pour être clair, je ne suis pas opposé à ce que les gens gagnent beaucoup d’argent. Il existe un argument solide selon lequel cela stimule la croissance économique dans des conditions normales. Je comprends les inquiétudes concernant le fait d’entraver l’innovation en tuant la poule aux œufs d’or qui la génère. Mais dans un scénario où la croissance du PIB est de 10 à 20 % par an et où l’IA prend rapidement le contrôle de l’économie, alors que des individus isolés détiennent une part appréciable du PIB, l’innovation n’est pas ce dont il faut s’inquiéter. Ce dont il faut s’inquiéter, c’est d’un niveau de concentration des richesses qui va briser la société.

L’exemple le plus célèbre de concentration extrême de la richesse dans l’histoire des États-Unis est l’âge d’or, et l’industriel le plus riche de cette époque était John D. Rockefeller. La fortune de Rockefeller représentait environ 2 % du PIB américain de l’époque 42. Une part similaire aujourd’hui représenterait une fortune de 600 milliards de dollars, et la personne la plus riche du monde aujourd’hui (Elon Musk) dépasse déjà ce montant, avec environ 700 milliards de dollars. Nous avons donc déjà atteint des niveaux de concentration des richesses sans précédent dans l’histoire, avant même que l’IA n’ait eu la plupart de ses répercussions économiques. Je ne pense pas qu’il soit exagéré (si nous obtenons un « pays de génies ») d’imaginer que les entreprises d’IA, les entreprises de semi-conducteurs et peut-être les entreprises d’applications en aval génèrent environ 3 000 milliards de dollars de revenus par an 43, d’une valeur d’environ 30 000 milliards de dollars, et générer des fortunes personnelles se chiffrant en milliers de milliards. Dans ce monde, les débats que nous avons aujourd’hui sur la politique fiscale n’auront tout simplement plus lieu d’être, car nous serons dans une situation fondamentalement différente.

À cet égard, le couplage de cette concentration économique de la richesse avec le système politique m’inquiète déjà. Les centres de données IA représentent déjà une part importante de la croissance économique américaine 44 et lient donc étroitement les intérêts financiers des grandes entreprises technologiques (qui se concentrent de plus en plus sur l’IA ou les infrastructures d’IA) et les intérêts politiques du gouvernement, d’une manière qui peut produire des incitations perverses. Nous le constatons déjà à travers la réticence des entreprises technologiques à critiquer le gouvernement américain et le soutien de ce dernier à des politiques anti-réglementaires extrêmes en matière d’IA.

Nos moyens de défense

Que peut-on faire à ce sujet ? Tout d’abord, et c’est le plus évident, les entreprises devraient simplement choisir de ne pas y participer. Anthropic s’est toujours efforcé d’être un acteur politique et non un acteur politique, et de maintenir ses opinions authentiques quelle que soit l’administration. Nous nous sommes prononcés en faveur d’une réglementation raisonnable de l’IA et de contrôles à l’exportation qui sont dans l’intérêt public, même lorsque ceux-ci sont en contradiction avec la politique gouvernementale. Beaucoup de gens m’ont dit que nous devrions cesser de le faire, que cela pourrait nous valoir un traitement défavorable, mais depuis un an que nous le faisons, la valorisation d’Anthropic a été multipliée par plus de six, une hausse presque sans précédent à notre échelle commerciale.

Deuxièmement, le secteur de l’IA a besoin d’une relation plus saine avec le gouvernement, fondée sur un engagement politique substantiel plutôt que sur un alignement politique. Notre choix de nous engager sur le fond plutôt que sur la forme est parfois interprété comme une erreur tactique ou une incapacité à « lire la salle » plutôt que comme une décision de principe, et cette interprétation m’inquiète. Dans une démocratie saine, les entreprises devraient pouvoir défendre de bonnes politiques pour leur propre bien. Dans le même ordre d’idées, une réaction négative du public à l’égard de l’IA se prépare : cela pourrait être une mesure corrective, mais elle manque actuellement de précision. Elle vise en grande partie des questions qui ne constituent pas réellement des problèmes (comme la consommation d’eau des centres de données) et propose des solutions (comme l’interdiction des centres de données ou des impôts sur la fortune mal conçus) qui ne répondraient pas aux véritables préoccupations. La question sous-jacente qui mérite notre attention est de veiller à ce que le développement de l’IA reste responsable vis-à-vis de l’intérêt public, sans être capturé par une alliance politique ou commerciale particulière, et il semble important de concentrer le débat public sur ce point.

Troisièmement, les interventions macroéconomiques que j’ai décrites plus haut dans cette section, ainsi que la résurgence de la philanthropie privée, peuvent contribuer à équilibrer la balance économique, en s’attaquant à la fois aux problèmes de perte d’emplois et de concentration du pouvoir économique. Nous devrions nous inspirer de l’histoire de notre pays : même à l’âge d’or, des industriels tels que Rockefeller et Carnegie se sentaient fortement redevables envers la société dans son ensemble, estimant que celle-ci avait énormément contribué à leur succès et qu’ils devaient lui rendre la pareille. Cet esprit semble de plus en plus absent aujourd’hui, et je pense qu’il constitue une grande partie de la solution à ce dilemme économique. Ceux qui sont à l’avant-garde de l’essor économique de l’IA devraient être prêts à renoncer à leur richesse et à leur pouvoir.

5. Dans les eaux troubles de l’Infini

Effets indirects

Cette dernière section regroupe toutes les inconnues, en particulier les choses qui pourraient mal tourner en raison des avancées positives de l’IA et de l’accélération générale des progrès scientifiques et technologiques qui en résulte. Supposons que nous parvenions à éliminer tous les risques décrits jusqu’à présent et que nous commencions à récolter les fruits de l’IA. Nous obtiendrons probablement « un siècle de progrès scientifiques et économiques condensé en une décennie », ce qui sera extrêmement positif pour le monde, mais nous devrons alors faire face aux problèmes découlant de cette progression rapide, et ces problèmes pourraient nous assaillir rapidement. Nous pourrions également rencontrer d’autres risques qui surviennent indirectement à la suite des progrès de l’IA et qui sont difficiles à anticiper.

Cette projection d’un siècle de progrès scientifique et économique condensé en une décennie fait directement écho à l’ambition affichée par la Genesis Mission, lancée par l’administration américaine, qui vise explicitement à transformer en profondeur la manière dont la recherche scientifique est conduite aux États-Unis. L’objectif affiché est de doubler la productivité scientifique nationale sur la prochaine décennie, dans des domaines stratégiques tels que l’énergie, les sciences quantiques, les matériaux avancés ou la sécurité nationale. L’Executive Order encadrant la mission établit une analogie explicite avec le Manhattan Project, en présentant l’IA comme un levier central dans une course mondiale à la domination technologique.

En raison de la nature même des inconnues, il est impossible d’en dresser une liste exhaustive, mais je vais citer trois préoccupations possibles à titre d’exemples illustratifs de ce à quoi nous devons prêter attention :

— Progrès rapides en biologie. Si nous obtenons un siècle de progrès médicaux en quelques années, il est possible que nous augmentions considérablement la durée de vie humaine, et il est possible que nous acquérrions également des capacités radicales telles que la capacité d’augmenter l’intelligence humaine ou de modifier radicalement la biologie humaine. Il s’agirait là de changements majeurs dans ce qui est possible, qui se produiraient très rapidement. Ils pourraient être positifs s’ils étaient menés de manière responsable (ce que j’espère, comme je l’explique dans Machines of Loving Grace), mais il y a toujours un risque qu’ils tournent très mal, par exemple si les efforts visant à rendre les humains plus intelligents les rendent également plus instables ou avides de pouvoir. Il y a également la question des « téléchargements » ou de « l’émulation cérébrale complète », c’est-à-dire des esprits humains numériques instanciés dans des logiciels, qui pourraient un jour aider l’humanité à transcender ses limites physiques, mais qui comportent également des risques que je trouve inquiétants.

— L’IA modifie la vie humaine de manière malsaine. Un monde peuplé de milliards d’intelligences bien plus intelligentes que les humains dans tous les domaines sera un monde très étrange à vivre. Même si l’IA ne cherche pas activement à attaquer les humains (section 1) et n’est pas explicitement utilisée à des fins d’oppression ou de contrôle par les États (section 3), beaucoup de choses pourraient mal tourner, même sans en arriver là, par le biais d’incitations commerciales normales et de transactions nominalement consensuelles. Nous en voyons les premiers signes dans les inquiétudes concernant la psychose liée à l’IA, le fait que l’IA pousse les gens au suicide et les inquiétudes concernant les relations amoureuses avec les IA. À titre d’exemple, des IA puissantes pourraient-elles inventer une nouvelle religion et convertir des millions de personnes à celle-ci ? La plupart des gens pourraient-ils finir par devenir « dépendants » d’une manière ou d’une autre aux interactions avec l’IA ? Les gens pourraient-ils finir par être « manipulés » par des systèmes d’IA, où une IA surveille essentiellement chacun de leurs mouvements et leur dit exactement quoi faire et quoi dire à tout moment, ce qui leur permettrait de mener une « bonne » vie, mais une vie dépourvue de liberté ou de fierté d’accomplissement ? Il ne serait pas difficile de générer des dizaines de scénarios de ce type si je m’asseyais avec le créateur de Black Mirror et essayais de les imaginer. Je pense que cela souligne l’importance de mesures telles que l’amélioration de la Constitution de Claude, au-delà de ce qui est nécessaire pour prévenir les problèmes mentionnés dans la section 1. Il semble essentiel de s’assurer que les modèles d’IA ont vraiment à cœur les intérêts à long terme de leurs utilisateurs, d’une manière que des personnes réfléchies approuveraient plutôt que d’une manière subtilement déformée.

— Le but de l’humanité. Ce point est lié au précédent, mais il ne s’agit pas tant des interactions humaines spécifiques avec les systèmes d’IA que de la manière dont la vie humaine change en général dans un monde doté d’une IA puissante. Les humains seront-ils capables de trouver un but et un sens à leur vie dans un tel monde ? Je pense que c’est une question d’attitude : comme je l’ai dit dans Machines of Loving Grace, je pense que le but de l’humanité ne dépend pas du fait d’être le meilleur au monde dans un domaine, et que les humains peuvent trouver un but même sur de très longues périodes grâce à des histoires et des projets qu’ils aiment. Nous devons simplement rompre le lien entre la création de valeur économique, l’estime de soi et le sens de la vie. Mais c’est une transition que la société doit opérer, et il y a toujours le risque que nous ne la gérions pas bien.

Mon espoir, face à tous ces problèmes potentiels, est que dans un monde doté d’une IA puissante à laquelle nous faisons confiance pour ne pas nous tuer, qui n’est pas l’outil d’un gouvernement oppressif et qui travaille véritablement pour notre compte, nous puissions utiliser l’IA elle-même pour anticiper et prévenir ces problèmes. Mais cela n’est pas garanti : comme tous les autres risques, c’est quelque chose que nous devons gérer avec prudence.

La mise à l’épreuve de l’humanité

La lecture de cet essai peut donner l’impression que nous sommes dans une situation décourageante.

Contrairement à Machines of Loving Grace, qui m’a donné l’impression de donner forme et structure à une musique d’une beauté incomparable qui résonnait dans ma tête depuis des années, cet essai a été difficile et, en quelque sorte, intimidant.

Beaucoup de choses sont de fait vraiment difficiles dans cette situation. L’IA fait peser des menaces sur l’humanité de multiples façons, et il existe une véritable tension entre les différents dangers, si bien qu’atténuer certains d’entre eux risque d’aggraver les autres si nous ne faisons pas preuve d’une extrême prudence.

Prendre le temps de construire avec soin des systèmes d’IA afin qu’ils ne menacent pas de manière autonome l’humanité est en tension véritable avec la nécessité pour les nations démocratiques de rester en avance sur les nations autoritaires et de ne pas être soumises à celles-ci. Mais à leur tour, les mêmes outils basés sur l’IA qui sont nécessaires pour lutter contre les autocraties peuvent — s’ils sont poussés trop loin — être retournés contre nous pour créer une tyrannie dans nos propres pays. Le terrorisme alimenté par l’IA pourrait tuer des millions de personnes par le biais d’une utilisation abusive de la biologie, mais une réaction excessive à ce risque pourrait nous mener vers un État autocratique et surveillé. Les effets de l’IA sur la concentration du travail et de l’économie, en plus d’être des problèmes graves en soi, pourraient nous obliger à faire face à d’autres problèmes dans un contexte de colère publique et peut-être même de troubles civils, plutôt que de pouvoir faire appel aux meilleurs anges de notre nature. Surtout, le nombre considérable de risques, y compris ceux qui sont inconnus, et la nécessité de les traiter tous en même temps, créent un défi intimidant que l’humanité doit relever.

De plus, ces dernières années devraient montrer clairement que l’idée d’arrêter ou même de ralentir considérablement cette technologie est fondamentalement intenable.

La formule pour construire des systèmes d’IA puissants est incroyablement simple, à tel point qu’on peut presque dire qu’elle émerge spontanément de la bonne combinaison de données et de calculs bruts. Sa création était probablement inévitable dès l’instant où l’humanité a inventé le transistor — voire même avant, lorsque nous avons appris à maîtriser le feu. Si une entreprise ne la construit pas, d’autres le feront presque aussi rapidement. Si toutes les entreprises des pays démocratiques arrêtaient ou ralentissaient le développement, par accord mutuel ou par décret réglementaire, les pays autoritaires continueraient. C’est aussi simple que cela. Compte tenu de l’incroyable valeur économique et militaire de cette technologie, ainsi que de l’absence de tout mécanisme d’application significatif, je ne vois pas comment nous pourrions les convaincre d’arrêter. 

Je perçois toutefois une voie vers une légère modération du développement de l’IA qui soit compatible avec une vision réaliste de la géopolitique.

Cette voie consiste à ralentir pendant quelques années la marche des autocraties vers une IA puissante en leur refusant les ressources dont elles ont besoin pour la construire 45, à savoir les puces et les équipements de fabrication de semi-conducteurs. Cela donnerait aux pays démocratiques une marge de manœuvre qu’ils pourraient « dépenser » pour construire une IA puissante de manière plus prudente, en accordant davantage d’attention à ses risques, tout en progressant suffisamment rapidement pour avoir une avance confortable sur les autocraties. La course entre les entreprises d’IA au sein des démocraties pourrait alors être encadrée par un cadre juridique commun, combinant normes industrielles et réglementation.

Anthropic a vivement défendu cette voie, en plaidant en faveur du contrôle des exportations de puces et d’une réglementation judicieuse de l’IA, mais même ces propositions qui semblent relever du bon sens ont été largement rejetées par les décideurs politiques aux États-Unis — le pays où elles sont les plus importantes. L’IA représente une telle manne financière — littéralement des milliers de milliards de dollars par an — que même les mesures les plus simples ont du mal à surmonter les obstacles politico-économiques inhérents à l’IA.

C’est là le piège : l’IA est si puissante et si lucrative qu’il est très difficile pour la civilisation humaine de lui imposer la moindre restriction.

On peut imaginer, comme Carl Sagan l’a fait dans Contact, que cette même histoire se déroule sur des milliers de mondes. Une espèce acquiert la conscience, apprend à utiliser des outils, entame l’ascension exponentielle de la technologie, fait face aux crises de l’industrialisation et des armes nucléaires, et si elle y survit, elle est confrontée au défi le plus difficile et le plus ultime lorsqu’elle apprend à façonner le sable pour en faire des machines qui pensent. Que nous survivions à cette épreuve et continuions à construire la belle société décrite dans Machines of Loving Grace, ou que nous succombions à l’esclavage et à la destruction, dépendra de notre caractère et de notre détermination en tant qu’espèce, de notre esprit et de notre âme.

Malgré les nombreux obstacles, je crois que l’humanité a en elle la force nécessaire pour réussir cette épreuve.

Je suis encouragé et inspiré par les milliers de chercheurs qui ont consacré leur carrière à nous aider à comprendre et à orienter les modèles d’IA, ainsi qu’à façonner le caractère et la constitution de ces modèles. Je pense qu’il y a maintenant de bonnes chances que ces efforts portent leurs fruits à temps pour avoir un impact significatif. Je suis encouragé par le fait qu’au moins certaines entreprises ont déclaré qu’elles étaient prêtes à payer des coûts commerciaux importants pour empêcher leurs modèles de contribuer à la menace du bioterrorisme. Je suis encouragé par le fait que quelques personnes courageuses ont résisté aux courants politiques dominants et ont fait adopter une législation qui pose les premiers jalons de garde-fous raisonnables pour les systèmes d’IA. Je suis encouragé par le fait que le public comprend que l’IA comporte des risques et souhaite que ces risques soient pris en compte. Je suis encouragé par l’esprit indomptable de liberté qui règne dans le monde entier et par la détermination à résister à la tyrannie où qu’elle se manifeste.

Mais nous devrons redoubler d’efforts si nous voulons réussir. La première étape consiste pour ceux qui sont les plus proches de la technologie à simplement dire la vérité sur la situation dans laquelle se trouve l’humanité — ce que j’ai toujours essayé de faire.

Je le fais de manière plus explicite et avec plus d’urgence dans cet essai.

La prochaine étape consistera à convaincre les penseurs, les décideurs politiques, les entreprises et les citoyens du monde entier de l’urgence et de l’importance capitale de cette question, qui mérite qu’on y consacre de la réflexion et du capital politique par rapport aux milliers d’autres questions qui dominent l’actualité chaque jour. Ensuite, il faudra faire preuve de courage, afin qu’un nombre suffisant de personnes s’opposent aux tendances dominantes et défendent leurs principes, même face à des menaces pour leurs intérêts économiques et leur sécurité personnelle.

Les années à venir seront incroyablement difficiles et exigeront de nous plus que ce que nous pensons pouvoir donner. Mais au cours de ma carrière de chercheur, de dirigeant et de citoyen, j’ai vu suffisamment de courage et de noblesse pour croire que nous pouvons gagner, que lorsque l’humanité se trouve dans les circonstances les plus sombres, elle trouve le moyen de rassembler — apparemment toujours à la dernière minute — la force et la sagesse nécessaires pour l’emporter. Nous n’avons pas de temps à perdre.

Je tiens à remercier Erik Brynjolfsson, Ben Buchanan, Mariano-Florentino Cuéllar, Allan Dafoe, Kevin Esvelt, Nick Beckstead, Richard Fontaine, Jim McClave et de nombreux membres du personnel d’Anthropic pour leurs commentaires utiles sur les versions préliminaires de cet essai.

Sources
  1. « 2025 Mid-Year LLM Market Update : Foundation Model Landscape + Economics », Menlo Ventures.
  2. Cela rejoint un point que j’ai soulevé dans Machines of Loving Grace, où j’ai commencé par dire que les avantages de l’IA ne devaient pas être considérés comme une prophétie de salut, et qu’il était important d’être concret et réaliste et d’éviter toute grandiloquence. En fin de compte, les prophéties de salut et les prophéties de malheur ne sont d’aucune utilité pour affronter le monde réel, pour essentiellement les mêmes raisons.
  3. L’objectif d’Anthropic est de rester cohérent à travers ces changements. Lorsque parler des risques liés à l’IA était politiquement populaire, Anthropic prônait prudemment une approche judicieuse et fondée sur des preuves pour faire face à ces risques. Maintenant que parler des risques liés à l’IA est politiquement impopulaire, Anthropic continue de prôner prudemment une approche judicieuse et fondée sur des preuves pour faire face à ces risques.
  4. Au fil du temps, j’ai acquis une confiance croissante dans la trajectoire de l’IA et dans la probabilité qu’elle dépasse les capacités humaines dans tous les domaines, mais une certaine incertitude subsiste.
  5. Les contrôles à l’exportation des puces en sont un excellent exemple. Ils sont simples et semblent fonctionner dans l’ensemble.
  6. Et bien sûr, la recherche de telles preuves doit être intellectuellement honnête, de manière à pouvoir également mettre en évidence l’absence de danger. La transparence grâce aux fiches techniques et autres divulgations est une tentative d’effort intellectuellement honnête.
  7. En effet, depuis la rédaction de Machines of Loving Grace en 2024, les systèmes d’IA sont devenus capables d’effectuer des tâches qui prennent plusieurs heures à des humains. METR a récemment estimé qu’Opus 4.5 pouvait effectuer environ quatre heures de travail humain avec une fiabilité de 50 %.
  8. Et pour être clair, même si l’IA puissante n’est plus qu’à 1 ou 2 ans de nous d’un point de vue technique, bon nombre de ses conséquences sociétales, tant positives que négatives, pourraient prendre quelques années supplémentaires à se manifester. C’est pourquoi je peux à la fois penser que l’IA va bouleverser 50 % des emplois de bureau de niveau débutant d’ici 1 à 5 ans, tout en pensant que nous pourrions disposer d’une IA plus performante que tout le monde d’ici seulement 1 à 2 ans.
  9. Il convient d’ajouter que le grand public (par opposition aux décideurs politiques) semble très préoccupé par les risques liés à l’IA. Je pense que certaines de ses préoccupations sont justifiées (par exemple, la suppression d’emplois par l’IA), tandis que d’autres sont erronées (comme les inquiétudes concernant la consommation d’eau de l’IA, qui n’est pas significative). Cette réaction me donne l’espoir qu’un consensus sur la manière de traiter les risques est possible mais jusqu’à présent, cela ne s’est pas encore traduit par des changements politiques, et encore moins par des changements politiques efficaces ou bien ciblés.
  10. Ils peuvent également, bien sûr, manipuler (ou simplement payer) un grand nombre d’êtres humains pour qu’ils fassent ce qu’ils veulent dans le monde physique.
  11. Je ne pense pas qu’il s’agisse d’un argument fallacieux : d’après ce que j’ai compris, Yann LeCun défend cette position.
  12. Il existe également un certain nombre d’autres hypothèses inhérentes au modèle simple, que je ne vais pas aborder ici. D’une manière générale, elles devraient nous rendre moins inquiets quant à l’histoire simple et spécifique de la recherche de pouvoir désalignée, mais aussi plus inquiets quant à d’éventuels comportements imprévisibles que nous n’avons pas anticipés.
  13. Ender’s Game décrit une version de ce scénario impliquant des humains plutôt que l’IA.
  14. Par exemple, on peut demander aux modèles de ne pas faire diverses choses répréhensibles et d’obéir aux humains, mais ils peuvent alors observer que de nombreux humains font exactement ces choses répréhensibles ! On ne sait pas clairement comment cette contradiction serait résolue (et une constitution bien conçue devrait encourager le modèle à gérer ces contradictions avec élégance), mais ce type de dilemme n’est pas si différent des situations supposées « artificielles » dans lesquelles nous plaçons les modèles d’IA pendant les tests.
  15. D’ailleurs, l’une des conséquences du fait que la constitution soit un document en langage naturel est qu’elle est lisible par tous, ce qui signifie qu’elle peut être critiquée par n’importe qui et comparée à des documents similaires d’autres entreprises. Il serait utile de créer une course vers le sommet qui encourage non seulement les entreprises à publier ces documents, mais aussi à les améliorer.
  16. Il existe même une hypothèse selon laquelle un principe unificateur profond relierait l’approche basée sur les personnages de l’IA constitutionnelle aux résultats de la science de l’interprétabilité et de l’alignement. Selon cette hypothèse, les mécanismes fondamentaux qui animent Claude ont initialement été conçus comme des moyens de simuler des personnages lors du pré-entraînement, par exemple en prédisant ce que diraient les personnages d’un roman. Cela suggérerait qu’une façon utile d’envisager la constitution serait plutôt comme une description de personnage que le modèle utilise pour instancier une personnalité cohérente. Cela nous aiderait également à expliquer les résultats « je dois être une mauvaise personne » que j’ai mentionnés ci-dessus (car le modèle essaie d’agir comme s’il s’agissait d’un personnage cohérent, en l’occurrence un mauvais personnage), et suggérerait que les méthodes d’interprétabilité devraient permettre de découvrir des « traits psychologiques » au sein des modèles. Nos chercheurs travaillent actuellement sur des moyens de tester cette hypothèse.
  17. Pour être clair, la surveillance est effectuée de manière à préserver la confidentialité.
  18. Même dans nos propres expériences avec ce qui sont essentiellement des règles imposées volontairement dans le cadre de notre Responsible Scaling Policy, nous avons constaté à maintes reprises qu’il est très facile de finir par être trop rigide, en traçant des lignes qui semblent importantes a priori, mais qui s’avèrent ridicules rétrospectivement. Il est très facile de fixer des règles sur les mauvaises choses lorsque la technologie progresse rapidement.
  19. La SB 53 et le RAISE Act ne s’appliquent pas du tout aux entreprises dont le chiffre d’affaires annuel est inférieur à 500 millions de dollars. Elles ne s’appliquent qu’aux entreprises plus grandes et mieux établies, comme Anthropic.
  20. J’ai lu l’essai de Joy pour la première fois il y a 25 ans, lorsqu’il a été écrit, et il m’a profondément marqué. À l’époque comme aujourd’hui, je le trouve trop pessimiste — je ne pense pas que l’« abandon » généralisé de tout un domaine technologique, comme le suggère Joy, soit la solution — mais les questions qu’il soulève étaient étonnamment prémonitoires, et Joy écrit également avec une profonde compassion et une humanité que j’admire.
  21. Nous devons nous préoccuper des acteurs étatiques, aujourd’hui et à l’avenir, et j’aborde ce sujet dans la section suivante.
  22. Il existe des preuves que de nombreux terroristes sont au moins relativement bien éduqués, ce qui peut sembler contredire mon argumentation sur la corrélation négative entre capacité et motivation. Mais je pense qu’en réalité, ces observations sont compatibles : si le seuil de capacité pour réussir une attaque est élevé, alors, presque par définition, ceux qui réussissent actuellement doivent avoir une capacité élevée, même si la capacité et la motivation sont négativement corrélées. Mais dans un monde où les limites de capacité seraient supprimées (par exemple, avec les futurs LLM), je prédirais qu’une population importante de personnes ayant la motivation de tuer mais des capacités moindres commencerait à le faire, comme c’est le cas pour les crimes qui ne nécessitent pas beaucoup de capacités (comme les fusillades dans les écoles).
  23. Aum Shinrikyo a toutefois essayé. Le chef d’Aum Shinrikyo, Seiichi Endo, avait suivi une formation en virologie à l’université de Kyoto et avait tenté de produire à la fois de l’anthrax et du virus Ebola. Cependant, en 1995, même lui ne disposait pas de l’expertise et des ressources suffisantes pour y parvenir. La barre est désormais nettement plus basse, et les LLM pourraient la réduire encore davantage.
  24. Un phénomène étrange lié aux auteurs de meurtres de masse est que le mode opératoire qu’ils choisissent s’apparente presque à une mode macabre. Dans les années 1970 et 1980, les tueurs en série étaient très courants, et les nouveaux tueurs en série copiaient souvent le comportement de tueurs en série plus établis ou plus célèbres. Dans les années 1990 et 2000, les fusillades de masse sont devenues plus courantes, tandis que les tueurs en série sont devenus moins fréquents. Aucun changement technologique n’a déclenché ces comportements, il semble simplement que les meurtriers violents se copiaient les uns les autres et que la tendance « populaire » à copier a changé.
  25. Les pirates occasionnels pensent parfois qu’ils ont compromis ces classificateurs lorsqu’ils obtiennent du modèle une information spécifique, telle que la séquence génomique d’un virus. Mais comme je l’ai expliqué précédemment, le modèle de menace qui nous préoccupe implique des conseils interactifs étape par étape, s’étalant sur plusieurs semaines ou mois, concernant des étapes spécifiques et obscures du processus de production d’armes biologiques, et c’est contre cela que nos classificateurs visent à nous défendre. (Nous décrivons souvent nos recherches comme la recherche de « jailbreaks universels », c’est-à-dire des jailbreaks qui ne fonctionnent pas seulement dans un contexte spécifique ou restreint, mais qui ouvrent largement le comportement du modèle).
  26. Nous continuerons toutefois à investir dans des travaux visant à rendre nos classificateurs plus efficaces, et il peut être judicieux pour les entreprises de partager entre elles des avancées telles que celles-ci.
  27. Évidemment, je ne pense pas que les entreprises devraient être tenues de divulguer les détails techniques des étapes spécifiques de la production d’armes biologiques qu’elles bloquent, et la législation sur la transparence qui a été adoptée jusqu’à présent (SB 53 et RAISE) tient compte de cette question.
  28. Une autre idée connexe est celle des « marchés de la résilience », dans lesquels le gouvernement encourage le stockage d’EPI, de respirateurs et d’autres équipements essentiels nécessaires pour répondre à une attaque biologique en s’engageant à l’avance à payer un prix convenu au préalable pour ces équipements en cas d’urgence. Cela incite les fournisseurs à stocker ces équipements sans craindre que le gouvernement ne les saisisse sans compensation.
  29. Pourquoi suis-je plus inquiet de voir les grands acteurs s’emparer du pouvoir que les petits acteurs causer des destructions ? Parce que la dynamique est différente. S’emparer du pouvoir consiste à savoir si un acteur peut accumuler suffisamment de force pour vaincre tous les autres. Nous devons donc nous inquiéter des acteurs les plus puissants et/ou ceux qui sont les plus proches de l’IA. En revanche, la destruction peut être causée par ceux qui ont peu de pouvoir si elle est beaucoup plus difficile à défendre qu’à causer. Il s’agit alors de se défendre contre les menaces les plus nombreuses, qui sont susceptibles d’être le fait d’acteurs plus modestes.
  30. Cela peut sembler en contradiction avec mon argument selon lequel l’attaque et la défense peuvent être plus équilibrées avec les cyberattaques qu’avec les armes biologiques, mais mon inquiétude ici est que si l’IA d’un pays est la plus puissante au monde, les autres ne pourront pas se défendre, même si la technologie elle-même présente un équilibre intrinsèque entre attaque et défense.
  31. Aux États-Unis, par exemple, cela inclut le Quatrième Amendement et le Posse Comitatus Act.
  32. De plus, pour être clair, certains arguments plaident en faveur de la construction de grands centres de données dans des pays aux structures de gouvernance variées, en particulier s’ils sont contrôlés par des entreprises démocratiques. De telles constructions pourraient en principe aider les démocraties à mieux rivaliser avec le PCC, qui représente une menace plus importante. Je pense également que ces centres de données ne présentent pas de risque particulier, à moins qu’ils ne soient de très grande taille. Mais dans l’ensemble, je pense qu’il convient d’être prudent lorsqu’on installe de très grands centres de données dans des pays où les garanties institutionnelles et les protections de l’État de droit sont moins bien établies.
  33. Il s’agit bien sûr également d’un argument en faveur de l’amélioration de la sécurité de la dissuasion nucléaire afin de la rendre plus résistante face à une IA puissante, et les démocraties dotées d’armes nucléaires devraient le faire. Mais nous ne savons pas de quoi une IA puissante sera capable ni quelles défenses, le cas échéant, seront efficaces contre elle, nous ne devons donc pas supposer que ces mesures résoudront nécessairement le problème.
  34. Il existe également le risque que, même si la dissuasion nucléaire reste efficace, un pays attaquant décide de nous prendre au mot : il n’est pas certain que nous serions prêts à utiliser des armes nucléaires pour nous défendre contre un essaim de drones, même si celui-ci présente un risque important de nous conquérir. Les essaims de drones pourraient constituer une nouvelle menace, moins grave que les attaques nucléaires, mais plus grave que les attaques conventionnelles. Par ailleurs, des évaluations divergentes de l’efficacité de la dissuasion nucléaire à l’ère de l’IA pourraient modifier la théorie des jeux du conflit nucléaire de manière déstabilisante.
  35. Pour être clair, je pense que la bonne stratégie consiste à ne pas vendre de puces à la Chine, même si le délai nécessaire pour mettre au point une IA puissante est beaucoup plus long. Nous ne pouvons pas rendre les Chinois « dépendants » des puces américaines : ils sont déterminés à développer leur propre industrie de puces d’une manière ou d’une autre. Cela leur prendra de nombreuses années, et en leur vendant des puces, nous ne faisons que leur donner un coup de pouce pendant cette période.
  36. Pour être clair, la plupart des armes utilisées aujourd’hui en Ukraine et à Taïwan ne sont pas entièrement autonomes. Elles le deviendront, mais ce n’est pas encore le cas aujourd’hui.
  37. Notre fiche modèle pour Claude Opus 4.5, notre modèle le plus récent, montre qu’Opus obtient de meilleurs résultats lors d’un entretien d’ingénierie de performance fréquemment organisé chez Anthropic que n’importe quel candidat dans l’histoire de l’entreprise.
  38. « Écrire tout le code » et « accomplir la tâche d’un ingénieur logiciel de bout en bout » sont deux choses très différentes, car les ingénieurs logiciels font bien plus que simplement écrire du code. Ils effectuent également des tests, gèrent les environnements, les fichiers et les installations, gèrent les déploiements informatiques dans le cloud, itèrent sur les produits, et bien plus encore.
  39. Les ordinateurs sont généraux dans un certain sens, mais ils sont clairement incapables, à eux seuls, d’exercer la grande majorité des capacités cognitives humaines, même s’ils surpassent largement les humains dans certains domaines (tels que l’arithmétique). Bien sûr, les éléments construits à partir d’ordinateurs, tels que l’IA, sont désormais capables d’exercer un large éventail de capacités cognitives, ce qui est le sujet de cet essai.
  40. Pour être clair, les modèles d’IA n’ont pas exactement le même profil de forces et de faiblesses que les humains. Mais ils progressent de manière assez uniforme dans toutes les dimensions, de sorte qu’un profil irrégulier ou inégal n’a finalement pas d’importance.
  41. Pour être clair, les modèles d’IA n’ont pas exactement le même profil de forces et de faiblesses que les humains. Mais ils progressent de manière assez uniforme dans toutes les dimensions, de sorte qu’un profil irrégulier ou inégal n’a finalement pas d’importance.
  42. La richesse personnelle est un « stock », tandis que le PIB est un « flux », il ne s’agit donc pas d’affirmer que Rockefeller détenait 2 % de la valeur économique des États-Unis. Mais il est plus difficile de mesurer la richesse totale d’une nation que le PIB, et les revenus individuels varient beaucoup d’une année à l’autre, il est donc difficile d’établir un ratio dans les mêmes unités. Le rapport entre la plus grande fortune personnelle et le PIB, bien qu’il ne s’agisse pas d’une comparaison à proprement parler, constitue néanmoins un critère parfaitement raisonnable pour évaluer la concentration extrême de la richesse.
  43. La valeur totale du travail dans l’économie est de 60 000 milliards de dollars par an, donc 3 000 milliards de dollars par an correspondraient à 5 % de ce montant. Ce montant pourrait être gagné par une entreprise qui fournirait de la main-d’œuvre pour 20 % du coût des humains et détiendrait 25 % de parts de marché, même si la demande de main-d’œuvre n’augmentait pas (ce qui serait presque certainement le cas en raison du coût inférieur).
  44. Pour être clair, je ne pense pas que la productivité réelle de l’IA soit déjà responsable d’une part substantielle de la croissance économique américaine. Je pense plutôt que les dépenses des centres de données représentent une croissance causée par des investissements anticipés, le marché anticipant une future croissance économique tirée par l’IA et investissant en conséquence.
  45. Je ne pense pas que cela soit possible au-delà de quelques années : à plus long terme, ils construiront leurs propres puces.
Le Grand Continent logo