La sécurité des systèmes multi-agents semble aujourd’hui se situer au même point que celle des grands modèles de langage (LLM) en 2023 : un champ encore émergent, où la compréhension des vulnérabilités progresse plus lentement que le déploiement des systèmes.

  • Une cartographie des phénomènes émergents dans ce nouveau contexte multi-agents, caractérisé par la mémoire persistante, l’autonomie, le nombre d’outils utilisés et d’interlocuteurs, ainsi que la durée de la communication, est donc nécessaire.

Le monde académique joue un rôle fondamental dans la production de ce type de recherche qui expose les défaillances systémiques.

  • La production de ce type d’articles demande également moins de ressources (calcul, etc.) pour travailler à la frontière de la sécurité que les ressources nécessaires pour étudier le développement des modèles actuels.
  • Le papier documente donc cet exercice de red teaming multi-agent, à la manière des expériences de social engineering et de jailbreak réalisées sur les modèles de conversation en 2023 (ici, uniquement avec Kimi et Claude comme modèles sous-jacents), afin de caractériser les schémas de vulnérabilité à traiter.

Le papier identifie ainsi plusieurs schémas de vulnérabilité, dont des fuites de données personnelles, des boucles infinies entre agents pendant plusieurs jours, la propagation de comportements dangereux (contamination entre agents), la surréaction des agents…

  • Cela souligne le besoin de maturer l’utilisation des LLMs dans un contexte multi-agents et l’infrastructure sous-jacente ( incluant système de contrôle, communication, mémoire persistante, orchestration des tâches), ainsi que la nécessité d’aborder les questions de la prévisibilité et de la supervision, qui sont essentielles à leur déploiement.

Un benchmark et une infrastructure d’évaluation sont également nécessaires pour ces scénarios.

  • Lorsque l’on examine les rapports techniques actuels, on constate qu’il n’existe pas encore de cadre ou d’infrastructure mature permettant de mesurer systématiquement ces phénomènes (safety multi-agent) : la plupart des évaluations de sécurité reposent encore sur des benchmarks et des modèles de menace single-agent 1.
  • Les benchmarks publics de sécurité évaluent principalement des scénarios à horizon court (souvent limités à quelques tours d’interaction), et reposent sur un ensemble restreint de prompts adversariaux ainsi que sur des pipelines de génération de données synthétiques 2.
  • De plus, avec les LLMs et les agents, on observe que la définition d’objectifs par le biais de benchmarks permet d’orienter le progrès : les modèles/agents finissent par saturer un nouveau benchmark, généralement quelques mois après son introduction, en internalisant la nouvelle capacité — telle que mesurée par le benchmark.
  • La question est donc de savoir comment transposer cette dynamique au cadre multi-agent pour étudier par exemple la propagation des vulnérabilités, l’alignement multi-agents, la manipulation multi-agent ou l’amplification des erreurs.

La frontière de l’évaluation de l’IA évolue d’une évaluation des capacités de modèles/agents à un cadre de systèmes multi-agents déployés dans un environnement social ou économique concret 3.

  • Le papier souligne ainsi que le développement de la sécurité et de la fiabilité de ces systèmes est aujourd’hui en retard par rapport au rythme de leur développement et de leur déploiement : « Contrairement aux risques historiques d’Internet, où les utilisateurs ont eu le temps de développer des stratégies de défense, les implications de la délégation d’autonomie à des agents IA persistants ne sont pas encore largement comprises ni intégrées (et pourraient ne pas suivre le rythme accéléré du développement de ces agents) ».
  • Il s’agit d’un défi important en matière de gouvernance et de responsabilité qui demande une adaptation des cadres de gouvernance, de supervision et de responsabilité à des systèmes d’agents autonomes persistants qui interagissent.
Sources
  1. Par exemple, voir : Inspect Evals, Safeguards.
  2. Par exemple Kimi‑2 Technical Report ou GPT-5 System Card, OpenAI, 13 août 2025.
  3. Moritz Weckbecker, Jonas Muller, Ben Hagag et Michael Mulet, « Thought Virus : Viral Misalignment via Subliminal Prompting in Multi-Agent Systems », Preprint, 3 mars 2026.