La seguridad de los sistemas multiagente parece encontrarse hoy en día en el mismo punto que la de los grandes modelos de lenguaje (LLM) en 2023: un campo aún emergente, en el que la comprensión de las vulnerabilidades avanza más lentamente que el despliegue de los sistemas.

  • Por lo tanto, es necesario cartografiar los fenómenos emergentes en este nuevo contexto multiagente, caracterizado por la memoria persistente, la autonomía, el número de herramientas utilizadas y de interlocutores, así como la duración de la comunicación.

El mundo académico desempeña un papel fundamental en la producción de este tipo de investigación que expone las fallas sistémicas.

  • La producción de este tipo de artículos también requiere menos recursos (cálculo, etc.) para trabajar en la frontera de la seguridad que los recursos necesarios para estudiar el desarrollo de los modelos actuales.
  • Por lo tanto, el artículo documenta este ejercicio de red teaming multiagente, a modo de los experimentos de ingeniería social y jailbreak realizados en los modelos de conversación en 2023 (aquí, solo con Kimi y Claude como modelos subyacentes), con el fin de caracterizar los patrones de vulnerabilidad que deben tratarse.

El artículo identifica así varios patrones de vulnerabilidad, entre los que se encuentran las fugas de datos personales, los bucles infinitos entre agentes durante varios días, la propagación de comportamientos peligrosos (contaminación entre agentes), la reacción exagerada de los agentes…

  • Esto pone de relieve la necesidad de madurar el uso de los LLM en un contexto multiagente y la infraestructura subyacente (incluido el sistema de control, la comunicación, la memoria persistente y la orquestación de tareas), así como la necesidad de abordar las cuestiones de previsibilidad y supervisión, que son esenciales para su despliegue.

También se necesita un benchmark y una infraestructura de evaluación para estos escenarios.

  • Al examinar los informes técnicos actuales, se observa que aún no existe un marco o una infraestructura madura que permita medir sistemáticamente estos fenómenos (seguridad multiagente): la mayoría de las evaluaciones de seguridad siguen basándose en benchmarks y modelos de amenaza de un solo agente. 1
  • Los benchmarks públicos de seguridad evalúan principalmente escenarios a corto plazo (a menudo limitados a unas pocas rondas de interacción) y se basan en un conjunto restringido de prompts adversarios, así como en pipelines de generación de datos sintéticos. 2
  • Además, con los LLM y los agentes, se observa que la definición de objetivos mediante benchmarks permite orientar el progreso: los modelos/agentes terminan saturando un nuevo benchmark, generalmente unos meses después de su introducción, al internalizar la nueva capacidad, tal y como se mide en el benchmark.
  • La cuestión es, por tanto, cómo trasladar esta dinámica al marco multiagente para estudiar, por ejemplo, la propagación de vulnerabilidades, la alineación multiagente, la manipulación multiagente o la amplificación de errores.

La frontera de la evaluación de la IA está evolucionando desde una evaluación de las capacidades de los modelos/agentes hacia un marco de sistemas multiagente desplegados en un entorno social o económico concreto. 3

  • El artículo destaca así que el desarrollo de la seguridad y la fiabilidad de estos sistemas está hoy en día rezagado con respecto al ritmo de su desarrollo y despliegue: «A diferencia de los riesgos históricos de internet, donde los usuarios tuvieron tiempo de desarrollar estrategias de defensa, las implicaciones de la delegación de autonomía a agentes de IA persistentes aún no se comprenden ni se integran ampliamente (y podrían no seguir el ritmo acelerado del desarrollo de estos agentes)».
  • Se trata de un importante reto en materia de gobernanza y responsabilidad que requiere la adaptación de los marcos de gobernanza, supervisión y responsabilidad a los sistemas de agentes autónomos persistentes que interactúan entre sí.
Notas al pie
  1. Por ejemplo, ver: Inspect Evals, Safeguards.
  2. Por ejemplo Kimi‑2 Technical Report ou GPT-5 System Card, OpenAI, 13 de agosto de 2025.
  3. Moritz Weckbecker, Jonas Muller, Ben Hagag y Michael Mulet, «Thought Virus: Viral Misalignment via Subliminal Prompting in Multi-Agent Systems», Preprint, 3 de marzo de 2026.