Claude Mythos : trop puissante, l'IA est-elle devenue trop dangereuse ?

Auteur: Victor Storchan
Image: © Elecs Korea
Date: 15 avril 2026

Partager

Pour découvrir tous nos contenus et nous soutenir, retrouvez ici nos offres et abonnez-vous au Grand Continent

Points clefs

L’automatisation rapide de la recherche en IA et de son cycle de développement soutient actuellement l’amélioration continue des modèles de pointe.
Dans un monde où tout le code est écrit par l’IA, la production de code cesse progressivement d’être un facteur limitant : ce sont la vérification, l’évaluation, les garanties de fiabilité et de sécurité du code qui deviennent l’enjeu central.
Le passage à l’IA agentique et la maîtrise des modèles par les entreprises — levier stratégique croissant — étendent rapidement la surface du risque cyber, lui-même amplifié par les modèles de pointe significativement plus performants notamment sur des tâches offensives avancées.

1 — L’auto-amélioration de l’IA : nouveau moteur du développement des modèles

Depuis décembre-janvier, les grands laboratoires d’IA ont fortement accéléré l’automatisation de la recherche en IA et du cycle de développement des modèles. Les générations précédentes de modèles sont ainsi utilisées pour entraîner les modèles suivants.

Lors du pre-training ¹ par exemple, les ablations à petite échelle ² pour tester différentes combinaisons de jeux de données ou optimiser l’architecture d’un modèle peuvent être gérées de bout en bout par un agent qui propose des options à explorer, analyse les résultats et l’indicateur de performance (métrique) à optimiser et itère. Au stade du post-training ³, l’équipe de reinforcement learning de MiniMax, développeur chinois de LLM, a par exemple automatisé son processus d’expérimentation d’environ 30-50 % (revue de littérature, définition des expériences, debugging, analyse des métriques ⁴).

L’analyse automatique des séquences d’actions d’un agent IA lui permet d’améliorer son propre environnement d’expérimentation ⁵ — on note jusqu’à 30 % d’amélioration sur les bancs d’essai sous étude. Ainsi, 35 % des propositions de modifications de code de Cursor, un éditeur de code avec IA intégrée, sont désormais générées par des agents opérant de manière autonome.

Ce mouvement prolonge une tendance de fond observée depuis une décennie : après avoir supprimé la nécessité pour l’humain de définir manuellement les variables d’entrée (features) avec le passage au deep learning, l’IA réduit maintenant la présence humaine dans la boucle même d’amélioration des modèles. Cette automatisation du développement de l’IA par l’IA se traduit par un maintien du rythme de progression des systèmes : à ce jour, aucun plateau de performance n’est visible.

2 — La maîtrise des modèles : matrice de la compétitivité des entreprises

L’IA quitte l’ère du simple échange conversationnel pour entrer dans celle des agents, capables de mobiliser des outils, d’exploiter des données et de réaliser des tâches opérationnelles dans l’entreprise. La plupart des processus des organisations ne sont pas structurés pour accueillir directement des agents dans les chaînes de tâches (workflows) existantes au sein des entreprises. La gestion du changement organisationnel demeure un élément central de la transition.

Les entreprises évoluent dans un paysage technologique extrêmement mouvant, où les architectures, les façons standard d’intégrer l’IA changent plus vite que les cycles habituels de transformation. Les arbitrages techniques deviennent particulièrement instables en particulier pour les entreprises traditionnelles qui n’ont pas été construites autour de l’IA.

Désormais, le marché ne se joue plus uniquement sur la qualité intrinsèque des modèles, mais sur la capacité d’une entreprise à laisser les modèles interagir entre eux et opérer de bout en bout de manière sécurisée à l’intérieur de systèmes réels. La question n’est donc plus seulement : « Le modèle sait-il générer la bonne réponse ? », mais : « Comment repenser la gestion des droits, des données et des workflows de l’organisation pour laisser l’IA opérer de manière fiable et sécurisée ? »

Les startups AI-native de la couche applicative, puis les grandes entreprises, ont un intérêt croissant à entraîner leurs propres modèles afin d’améliorer leur compétitivité, réduire leurs coûts, accroître leur différenciation.

L’IA réduit désormais la présence humaine dans la boucle même d’amélioration des modèles.
Victor Storchan

Ce mouvement a déjà commencé au niveau du post-training : après Pinterest, Airbnb, Notion et Cursor, Intercom explique publiquement qu’il devient sur de nombreux cas d’usage meilleur, plus rapide et moins coûteux d’utiliser et d’entraîner des modèles ouverts en interne que de dépendre d’API ⁶ externes.

Dans les services financiers, Ramp s’appuie sur une architecture hybride multi-agent, faisant collaborer plusieurs IA, pour développer sa chaîne de travail en interne : un modèle propriétaire utilisé comme cerveau central, comme Claude, pilote des sous-modèles open source Qwen pour l’exécution. L’entreprise publie même de la recherche visant à optimiser l’usage des tokens dans les systèmes multi-agents en opérant directement sur les représentations internes du modèle ⁷. Shopify, entreprise canadienne spécialisée dans le commerce en ligne, a par exemple communiqué une réduction de coûts de l’ordre de 75 % en utilisant Qwen. Harvey AI, entreprise spécialisée dans l’IA appliquée au droit et aux services professionnels, a automatisé une partie de sa recherche IA pour développer des agents juridiques capables de traiter la revue de baux commerciaux, la rédaction de plaintes, les réponses à des questionnaires de due diligence, etc.

À mesure que l’infrastructure et l’ensemble des outils d’IA se démocratisent, cette logique pourrait s’étendre à de nouvelles formes de mid-training ⁸ : des modèles moins généralistes mais extrêmement performants sur un produit, un cas d’usage ou une verticale donnée, pourront être entraînés avec les données propriétaires de l’entreprise, ses produits ou ses normes, lois et règlements.

Alors que les entreprises cherchent à tirer parti de leurs données propriétaires, certains résultats indiquent qu’une intégration dès le pre-training renforce nettement l’adaptation au domaine, surtout sur les modèles de grande taille ⁹.

En parallèle, les laboratoires d’IA accélèrent dans le développement d’applications pour capter directement la valeur au niveau applicatif — c’est-à-dire pour développer des applications finales d’outils d’IA plutôt que de simplement vendre des modèles. Des partenariats sont envisagés avec de grands fonds de capital-investissement ; les équipes d’ingénieurs envoyées chez les clients pour intégrer l’IA dans leurs systèmes sont élargies ; l’accès API d’Anthropic a été restreint pour certains usages tiers de type OpenClaw, logiciel open source d’assistant personnel alimenté par IA.

Si la frontière technologique demeure de toute façon inaccessible à la plupart des entreprises — ou accessible avec un décalage de 6 à 12 mois de retard — beaucoup considéreront qu’il est rationnel d’entraîner leurs propres modèles.

3 — L’adoption de l’IA dans les entreprises étend les risques de sécurité

Les vulnérabilités cyber s’étendent à mesure que la capacité de développer et de déployer des agents IA se diffuse dans l’entreprise et ne se limite plus aux ingénieurs. Cela se traduit par un nombre croissant d’intégrations, de points d’accès, de permissions et de dépendances à sécuriser.

Dans un monde où tout le code est écrit par l’IA, la production de code cesse progressivement d’être un facteur limitant : la vérification des résultats des LLM, dont celle formelle ¹⁰, devient un enjeu critique : il s’agit d’obtenir des garanties de sécurité, de fiabilité, d’efficacité, de conformité.

Dans un rapport du 29 juillet 2025, Trend Micro a identifié plus de 10 000 serveurs d’infrastructure d’agents accessibles sur Internet sans authentification. Ces systèmes internes exposés sans protection (login, clef API) incluaient des serveurs MCP ¹¹, des données stockées, des messageries ou des capacités packagées ¹².

Pour les entreprises adoptant des outils d’IA dans leur infrastructure cyber, des catégories entièrement nouvelles de vecteurs d’attaque émergent : intégrations MCP, systèmes d’IA susceptibles d’être injectés par un prompt pour accomplir des actions contraires aux règles de contrôle d’accès. En entraînant leurs modèles et en les connectant à leurs systèmes backend ¹³ ainsi qu’à leurs sources de données internes, les entreprises exposent potentiellement ces données à des risques d’empoisonnement, de distillation ou d’extraction. Alors que les entreprises adoptent des compétences (skills) et autres artefacts réutilisables pour partager la connaissance institutionnelle (propre à une équipe, un métier, un processus ou une organisation) et exposer ce contexte aux agents, la couche de permission autour de ces compétences et la gestion des agents en temps réel — pour déterminer qui peut voir quoi, agir où, réutiliser quel contexte, avec quelle traçabilité et quel niveau de contrôle — est essentielle.

L’attaque récente contre le compte npm ¹⁴ d’Axios, bibliothèque très utilisée pour faire des requêtes web avec plus de 100 millions de téléchargements hebdomadaires, montre à quel point la compromission d’un composant peut contaminer tout l’écosystème logiciel. Cette attaque a été attribuée par Google à un groupe lié à la Corée du Nord ¹⁵.

L’enjeu pour les entreprises n’est pas d’attendre les systèmes d’IA les plus avancés, mais de tirer parti dès à présent des modèles de pointe disponibles pour renforcer leur sécurité.
Victor Storchan

4 — Les laboratoires d’IA sont eux-mêmes exposés aux risques cyber

Si l’adoption d’outils d’IA crée donc de nouvelles vulnérabilités pour les entreprises « traditionnelles », les laboratoires d’IA eux-mêmes sont également exposés. On assiste aujourd’hui aux premières attaques contre la supply chain de l’IA agentique et l’infrastructure permettant aux LLM de conduire des inférences : en mars dernier, l’attaque visant LiteLLM, bibliothèque open source et interface permettant de connecter une application aux LLM de fournisseurs, avec 97 millions de téléchargements mensuels, a compromis tous les projets dépendants. Dans le cas de Mercor, start-up en IA dédiée à l’entraînement de chatbots, elle a conduit à l’exfiltration de 4 téraoctets de données, incluant du code source et des données personnelles.

Si les laboratoires d’IA sont ainsi touchés, les outils qu’ils déploient sont également en partie responsables de l’augmentation des attaques informatiques. Par exemple, un audit de sécurité a conclu que 12 % des usages faits d’OpenClaw étaient confirmés comme malveillants ¹⁶. Par ailleurs, en février dernier, Anthropic a détecté plusieurs campagnes sophistiquées de distillation de ses modèles, menées par des laboratoires chinois ¹⁷. Conscients de ces différents risques, les grands laboratoires comme OpenAI, Google et Anthropic lui-même coopèrent déjà pour limiter notamment protéger leur propriété intellectuelle, notamment par l’intermédiaire du Frontier Model Forum.

5 — Claude Mythos : révélateur de l’explosion du risque cyber

En plus d’être arsenalisés pour conduire des attaques informatiques, les modèles d’IA deviennent aussi un outil défensif central : détection de vulnérabilités informatiques, classement de celles-ci par gravité, urgence et impact, analyse des surfaces d’exposition pour comprendre où un attaquant peut entrer.

Dès octobre 2025, Anthropic présentait les résultats de Claude Sonnet 4.5 en cybersécurité notant une amélioration des performances selon les critères standards, en particulier sur les tâches défensives ¹⁸.

En mars dernier, Anthropic indiquait que Claude Opus 4.6 était nettement meilleur pour identifier et corriger des vulnérabilités que pour les exploiter.

Désormais, Claude Mythos Preview serait capable, sur instruction, d’identifier puis d’exploiter des vulnérabilités zero-day ¹⁹ sur les principaux systèmes d’exploitation et navigateurs majeurs.

Ces capacités sont activables non seulement par des experts, mais aussi par des non-spécialistes, avec des instructions de prompt très simples et très efficaces.

Si Mythos est donc plus puissant que d’autres modèles disponibles, puisqu’il trouve davantage de bugs ou des bugs plus critiques, une entreprise ou un éditeur logiciel qui n’a pas encore intégré des processus de recherche de bugs pilotés par modèles pourrait déjà avec les outils actuels découvrir des centaines de vulnérabilités.

L’IA quitte l’ère de l’échange conversationnel pour entrer dans celle des agents, capables de mobiliser des outils, d’exploiter des données et de réaliser des tâches opérationnelles dans une entreprise.
Victor Storchan

6 — Le dilemme d’un modèle économique : visibilité ou rentabilité

Avec la hausse continue des coûts d’entraînement et de R&D nécessaires pour rester au contact de la frontière technologique, publier aujourd’hui ses meilleurs modèles en open source entre en tension directe avec une autre priorité pour les laboratoires d’IA : consacrer ses ressources à des produits capables de générer des revenus significatifs. Plusieurs laboratoires de modèles ouverts, notamment Qwen et AI2 ont ainsi connu récemment une forte instabilité avec plusieurs départs très visibles.

Il conviendra d’analyser rigoureusement si les modèles ouverts demeurent à faible distance de la frontière technologique, de l’ordre de six à neuf mois, y compris sur les capacités offensives spécialisées, ou si cet écart réduit ne vaut en pratique que pour des usages plus généraux de programmation ²⁰. À l’avenir, l’avantage durable reviendra aux organisations qui incorporent l’IA agentique dans leurs processus pour les activités concrètes de l’entreprise : investissement dans les modèles, gestion d’une boucle de feedback et d’évaluation ou coordination de plusieurs agents de manière fiable et efficace à grande échelle.

Lorsqu’une entreprise introduit une nouvelle capacité d’IA à la frontière technologique dans son secteur, cette capacité crée simultanément de nouvelles contraintes de gouvernance, de sécurité et d’exploitation. L’entreprise la mieux placée pour vendre la couche de gestion de ces contraintes est celle qui a introduit la capacité initiale, car elle dispose de l’intégration la plus profonde, de la meilleure collecte de données sur le fonctionnement de l’outil d’IA et de la vision la plus complète du comportement réel du système.

Les organisations ont donc intérêt à expérimenter dès à présent la manière dont l’IA peut améliorer concrètement leurs capacités de défense et de sécurité, tout en construisant les cadres d’évaluation permettant d’en mesurer rigoureusement les effets : identification de vulnérabilités cyber sur des environnements soumis à de fortes contraintes réglementaires, circonscription des données sensibles de leurs métiers — données clients, secrets industriels, finances — , processus opérationnels propres à chaque secteur. La question essentielle sera de trouver un moyen pour mesurer rigoureusement les capacités cyber des modèles, ouverts comme fermés, sur toutes les dimensions.

Dans ce contexte, l’enjeu n’est pas d’attendre les systèmes les plus avancés, mais de tirer parti dès à présent des modèles de pointe disponibles pour renforcer la sécurité. Les modèles actuels sont déjà très performants pour la détection de vulnérabilités — ils restent cependant moins efficaces pour les exploiter et conduire une attaque cyber.

Sources

Phase initiale d’entraînement du LLM, sur de très grandes quantités de données brutes, afin d’apprendre des régularités générales (par exemple sur la langue ou la structure de données quantifiées).
Expériences contrôlées où l’on modifie un élément du système : ici, modifier une couche du modèle ou retirer un type de données du jeu fourni en entrée du LLM.
Le post-training correspond à l’ajustement du modèle pour des usages précis, après le pre-training.
MiniMax M2.7 : Early Echoes of Self-Evolution, MiniMax, 18 mars 2023.
Un harness est la couche logicielle qui définit les primitives avec lesquelles un modèle interagit (système de fichiers, exécution de commandes, accès à des bases de données, orchestration de sous-agents, format des requêtes, gestion et compression de l’historique et gestion de la mémoire, outils, mécanismes de contrôle, etc.). En somme, c’est toute l’infrastructure qui encadre et pilote le modèle pour lui permettre d’agir de manière cohérente, déléguer ou itérer.
Une API (application programming interface) est une interface logicielle permettant de connecter un service à un autre, pour échanger des données et des fonctionnalités.
Ramp Labs, X, 10 avril 2026.
Situé entre le pre-training et le post-training, le mid-training est une phase de spécialisation progressive du modèle, l’adaptant à un domaine.
Datology AI Team, « BeyondWeb : Lessons from Scaling Synthetic Data for Trillion-scale Pretraining », arXiv, 19 août 2025.
La vérification formelle, méthode mathématique permettant de prouver qu’un programme respecte exactement certaines propriétés, était jusqu’ici réservée à un marché de niche, car trop lente, trop coûteuse et trop dépendante d’une expertise très rare. Certains laboratoires d’IA, comme Axiom Math, tentent de l’automatiser condition pour que son marché potentiel change d’échelle.
Protocole standard conçu par Anthropic pour connecter des LLM à des outils, services et sources de données externes.
Michael D’Angelo, « AI Safety vs AI Security in LLM Applications : What Teams Must Know », promptfoo, 17 août 2025.
Le backend désigne une couche logicielle pouvant accéder à des données mais, à l’inverse du frontend, ne gérant pas d’interface utilisateur. Un système d’exploitation comme Windows 3.1 dispose ainsi d’un sous-système d’exploitation MS-DOS avec lequel l’utilisateur n’interagit pas directement, celui-ci n’utilisant que l’interface graphique.
npm est une plateforme où les développeurs peuvent télécharger des « bibliothèques », ensemble de code déjà écrit et prêt à être réutilisé.
Austin Larsen, Dima Lenz et al., « North Korea-Nexus Threat Actor Compromises Widely Used Axios NPM Package in Supply Chain Attack », Google Cloud Blog, 31 mars 2026.
Varun Pratap Bhardwaj, « Formal Analysis and Supply Chain Security for Agentic AI Skills », arXiv, 27 février 2026.
Detecting and preventing distillation attacks, Anthropic, 23 février 2026.
Building AI for cyber defenders, Anthropic, 3 octobre 2025.
Une vulnérabilité zero-day est une faille de cybersécurité d’un logiciel inconnue des développeurs, n’ayant fait l’objet d’aucune publication ni reçu aucun correctif.
Nathan Lambert, « Claude Mythos and misguided open-weight fearmongering », Interconnects, 9 avril 2026.