Claude Mythos: ¿se ha vuelto la IA demasiado poderosa y, por tanto, demasiado peligrosa?

Autor: Victor Storchan
Portada: © Elecs Korea
Fecha: 16 de abril de 2026

Compartir

Para descubrir todos nuestros contenidos y apoyarnos, consulte aquí nuestras ofertas y suscríbase al Grand Continent

Puntos claves

La rápida automatización de la investigación en IA y de su ciclo de desarrollo sustenta actualmente la mejora continua de los modelos de vanguardia.
En un mundo en el que todo el código lo escribe la IA, la producción de código deja de ser progresivamente un factor limitante: son la verificación, la evaluación y las garantías de fiabilidad y seguridad del código las que se convierten en el reto central.
El paso a la IA agentiva y el dominio de los modelos por parte de las empresas —una palanca estratégica cada vez más importante— amplían rápidamente la superficie de riesgo cibernético, amplificado a su vez por los modelos de vanguardia, significativamente más eficaces, especialmente en tareas ofensivas avanzadas.

1 — La automejora de la IA: nuevo motor del desarrollo de modelos

Desde diciembre-enero, los grandes laboratorios de IA han acelerado considerablemente la automatización de la investigación en IA y del ciclo de desarrollo de modelos. Las generaciones anteriores de modelos se utilizan así para entrenar a los siguientes.

Durante el preentrenamiento, ¹ por ejemplo, las ablaciones a pequeña escala ² para probar diferentes combinaciones de conjuntos de datos u optimizar la arquitectura de un modelo pueden ser gestionadas de principio a fin por un agente que propone opciones a explorar, analiza los resultados y el indicador de rendimiento (métrica) a optimizar, y luego itera. En la fase de postentrenamiento, ³ el equipo de aprendizaje por refuerzo de MiniMax, desarrollador chino de LLM, ha automatizado, por ejemplo, su proceso de experimentación en aproximadamente un 30-50 % (revisión de la bibliografía, definición de los experimentos, depuración, análisis de métricas). ⁴

El análisis automático de las secuencias de acciones de un agente de IA le permite mejorar su propio entorno de experimentación: ⁵ se observa una mejora de hasta un 30 % en los bancos de pruebas objeto de estudio. Así, el 35 % de las propuestas de modificación de código de Cursor, un editor de código con IA integrada, son ahora generadas por agentes que operan de forma autónoma.

Este movimiento prolonga una tendencia de fondo observada desde hace una década: tras haber eliminado la necesidad de que el ser humano defina manualmente las variables de entrada (features) con el paso al deep learning, la IA reduce ahora la presencia humana en el propio ciclo de mejora de los modelos. Esta automatización del desarrollo de la IA por parte de la propia IA se traduce en un mantenimiento del ritmo de progresión de los sistemas: hasta la fecha, no se observa ningún estancamiento en el rendimiento.

2 — El dominio de los modelos: matriz de la competitividad de las empresas

La IA abandona la era del simple intercambio conversacional para entrar en la de los agentes, capaces de movilizar herramientas, explotar datos y realizar tareas operativas en la empresa. La mayoría de los procesos de las organizaciones no están estructurados para acoger directamente a los agentes en las cadenas de tareas (workflows) existentes en las empresas. La gestión del cambio organizativo sigue siendo un elemento central de la transición.

Las empresas evolucionan en un panorama tecnológico extremadamente cambiante, donde las arquitecturas y las formas estándar de integrar la IA cambian más rápido que los ciclos habituales de transformación. Las decisiones técnicas se vuelven particularmente inestables, sobre todo para las empresas tradicionales que no se han construido en torno a la IA.

Ahora, el mercado ya no se juega únicamente en la calidad intrínseca de los modelos, sino en la capacidad de una empresa para permitir que los modelos interactúen entre sí y operen de extremo a extremo de forma segura dentro de sistemas reales. Por lo tanto, la pregunta ya no es solo: «¿Sabe el modelo generar la respuesta correcta?», sino: «¿Cómo replantear la gestión de los derechos, los datos y los flujos de trabajo de la organización para permitir que la IA funcione de forma fiable y segura?»

Las startups nativas de IA de la capa de aplicaciones, y posteriormente las grandes empresas, tienen un interés creciente en entrenar sus propios modelos para mejorar su competitividad, reducir sus costos y aumentar su diferenciación.

La IA reduce ahora la presencia humana en el propio ciclo de mejora de los modelos.
Victor Storchan

Esta tendencia ya ha comenzado en el ámbito del postentrenamiento: tras Pinterest, Airbnb, Notion y Cursor, Intercom explica públicamente que, en muchos casos de uso, resulta mejor, más rápido y menos costoso utilizar y entrenar modelos abiertos internamente que depender de API ⁶ externas.

En los servicios financieros, Ramp se basa en una arquitectura híbrida multiagente, que hace colaborar a varias IA, para desarrollar su cadena de trabajo internamente: un modelo propietario utilizado como cerebro central, como Claude, controla los submodelos de código abierto Qwen para la ejecución. La empresa incluso publica investigaciones destinadas a optimizar el uso de los tokens en los sistemas multiagente operando directamente sobre las representaciones internas del modelo. ⁷ Shopify, empresa canadiense especializada en comercio electrónico, ha comunicado, por ejemplo, una reducción de costos del orden del 75 % al utilizar Qwen. Harvey AI, empresa especializada en IA aplicada al derecho y a los servicios profesionales, ha automatizado parte de su investigación en IA para desarrollar agentes jurídicos capaces de gestionar la revisión de contratos de arrendamiento comercial, la redacción de demandas, las respuestas a cuestionarios de due diligence, etc.

A medida que la infraestructura y el conjunto de herramientas de IA se democratizan, esta lógica podría extenderse a nuevas formas de entrenamiento intermedio: ⁸ modelos menos generalistas pero extremadamente eficaces en un producto, un caso de uso o un sector vertical concreto, podrán entrenarse con los datos propios de la empresa, sus productos o sus normas, leyes y reglamentos.

Mientras las empresas buscan sacar partido de sus datos propios, algunos resultados indican que una integración desde la fase de preentrenamiento refuerza notablemente la adaptación al dominio, sobre todo en los modelos de gran tamaño. ⁹

Paralelamente, los laboratorios de IA aceleran el desarrollo de aplicaciones para captar directamente el valor a nivel de aplicación, es decir, para desarrollar aplicaciones finales de herramientas de IA en lugar de limitarse a vender modelos. Se barajan asociaciones con grandes fondos de capital riesgo; se amplían los equipos de ingenieros enviados a las instalaciones de los clientes para integrar la IA en sus sistemas; se ha restringido el acceso a la API de Anthropic para ciertos usos de terceros como OpenClaw, un software de código abierto de asistente personal impulsado por IA.

Si la frontera tecnológica sigue siendo inaccesible para la mayoría de las empresas —o accesible con un retraso de entre 6 y 12 meses—, muchas considerarán que es racional entrenar sus propios modelos.

3 — La adopción de la IA en las empresas amplía los riesgos de seguridad

Las vulnerabilidades cibernéticas se extienden a medida que la capacidad de desarrollar e implementar agentes de IA se difunde por la empresa y ya no se limita a los ingenieros. Esto se traduce en un número creciente de integraciones, puntos de acceso, permisos y dependencias que hay que proteger.

En un mundo en el que todo el código lo escribe la IA, la producción de código deja de ser progresivamente un factor limitante: la verificación de los resultados de los LLM, incluida la formal, ¹⁰ se convierte en un reto crítico: se trata de obtener garantías de seguridad, fiabilidad, eficacia y conformidad.

En un informe del 29 de julio de 2025, Trend Micro identificó más de 10.000 servidores de infraestructura de agentes accesibles en internet sin autenticación. Estos sistemas internos expuestos sin protección (inicio de sesión, clave API) incluían servidores MCP, ¹¹ datos almacenados, sistemas de mensajería o capacidades empaquetadas. ¹²

Para las empresas que adoptan herramientas de IA en su infraestructura cibernética, están surgiendo categorías completamente nuevas de vectores de ataque: integraciones MCP, sistemas de IA susceptibles de ser inyectados mediante un prompt para realizar acciones contrarias a las reglas de control de acceso. Al entrenar sus modelos y conectarlos a sus sistemas backend, ¹³ así como a sus fuentes de datos internas, las empresas exponen potencialmente estos datos a riesgos de envenenamiento, destilación o extracción. A medida que las empresas adoptan habilidades y otros artefactos reutilizables para compartir el conocimiento institucional (propio de un equipo, una función, un proceso o una organización) y exponer este contexto a los agentes, la capa de permisos en torno a estas habilidades y la gestión de los agentes en tiempo real —para determinar quién puede ver qué, actuar dónde, reutilizar qué contexto, con qué trazabilidad y qué nivel de control— es esencial.

El reciente ataque contra la cuenta npm de Axios, ¹⁴ una biblioteca muy utilizada para realizar solicitudes web con más de 100 millones de descargas semanales, muestra hasta qué punto el compromiso de un componente puede contaminar todo el ecosistema de software. Google ha atribuido este ataque a un grupo vinculado a Corea del Norte. ¹⁵

El reto para las empresas no es esperar a los sistemas de IA más avanzados, sino aprovechar desde ya los modelos de vanguardia disponibles para reforzar su seguridad.
Victor Storchan

4 — Los propios laboratorios de IA están expuestos a riesgos cibernéticos

Si bien la adopción de herramientas de IA crea nuevas vulnerabilidades para las empresas «tradicionales», los propios laboratorios de IA también están expuestos. Hoy en día asistimos a los primeros ataques contra la cadena de suministro de la IA agentiva y la infraestructura que permite a los LLM realizar inferencias: el pasado mes de marzo, el ataque dirigido a LiteLLM, una biblioteca de código abierto e interfaz que permite conectar una aplicación a los LLM de los proveedores, con 97 millones de descargas mensuales, comprometió todos los proyectos dependientes. En el caso de Mercor, una start-up de IA dedicada al entrenamiento de chatbots, esto condujo a la exfiltración de 4 terabytes de datos, incluyendo código fuente y datos personales.

Si bien los laboratorios de IA se ven afectados de este modo, las herramientas que despliegan son también en parte responsables del aumento de los ataques informáticos. Por ejemplo, una auditoría de seguridad concluyó que el 12 % de los usos de OpenClaw se confirmaron como maliciosos. ¹⁶ Por otra parte, el pasado mes de febrero, Anthropic detectó varias campañas sofisticadas de destilación de sus modelos, llevadas a cabo por laboratorios chinos. ¹⁷ Conscientes de estos diversos riesgos, los grandes laboratorios como OpenAI, Google y el propio Anthropic ya cooperan para limitar y, sobre todo, proteger su propiedad intelectual, en particular a través del Frontier Model Forum.

5 — Claude Mythos: revelador de la explosión del riesgo cibernético

Además de estar equipados para llevar a cabo ataques informáticos, los modelos de IA se están convirtiendo también en una herramienta defensiva fundamental: detección de vulnerabilidades informáticas, clasificación de estas por gravedad, urgencia e impacto, análisis de las superficies de exposición para comprender por dónde puede entrar un atacante.

Ya en octubre de 2025, Anthropic presentó los resultados de Claude Sonnet 4.5 en ciberseguridad, señalando una mejora del rendimiento según los criterios estándar, en particular en las tareas defensivas. ¹⁸

El pasado mes de marzo, Anthropic indicó que Claude Opus 4.6 era claramente mejor para identificar y corregir vulnerabilidades que para explotarlas.

Ahora, Claude Mythos Preview sería capaz, siguiendo instrucciones, de identificar y luego explotar vulnerabilidades de día cero ¹⁹ en los principales sistemas operativos y navegadores.

Estas capacidades pueden activarlas no solo los expertos, sino también los no especialistas, con instrucciones de prompt muy sencillas y eficaces.

Si bien Mythos es más potente que otros modelos disponibles, ya que encuentra más errores o errores más críticos, una empresa o un editor de software que aún no haya integrado procesos de búsqueda de errores basados en modelos podría descubrir cientos de vulnerabilidades incluso con las herramientas actuales.

La IA abandona la era del intercambio conversacional para entrar en la de los agentes, capaces de utilizar herramientas, explotar datos y realizar tareas operativas en una empresa.
Victor Storchan

6 — El dilema de un modelo económico: visibilidad o rentabilidad

Con el continuo aumento de los costos de entrenamiento y de I+D necesarios para mantenerse a la vanguardia tecnológica, publicar hoy en día los mejores modelos en código abierto entra en conflicto directo con otra prioridad de los laboratorios de IA: dedicar sus recursos a productos capaces de generar ingresos significativos. Varios laboratorios de modelos abiertos, en particular Qwen y AI2, han experimentado recientemente una gran inestabilidad con varias salidas muy visibles.

Convendrá analizar rigurosamente si los modelos abiertos se mantienen a poca distancia de la vanguardia tecnológica, del orden de seis a nueve meses, incluso en cuanto a capacidades ofensivas especializadas, o si esta diferencia reducida solo vale en la práctica para usos más generales de programación. ²⁰ En el futuro, la ventaja sostenible recaerá en las organizaciones que incorporen la IA agentiva en sus procesos para las actividades concretas de la empresa: inversión en modelos, gestión de un bucle de retroalimentación y evaluación, o coordinación de varios agentes de forma fiable y eficaz a gran escala.

Cuando una empresa introduce una nueva capacidad de IA a la vanguardia tecnológica en su sector, dicha capacidad crea simultáneamente nuevas limitaciones de gobernanza, seguridad y explotación. La empresa mejor posicionada para comercializar la capa de gestión de estas limitaciones es aquella que introdujo la capacidad inicial, ya que cuenta con la integración más profunda, la mejor recopilación de datos sobre el funcionamiento de la herramienta de IA y la visión más completa del comportamiento real del sistema.

Por lo tanto, a las organizaciones les conviene experimentar desde ahora mismo cómo la IA puede mejorar concretamente sus capacidades de defensa y seguridad, al tiempo que construyen los marcos de evaluación que permitan medir rigurosamente sus efectos: identificación de vulnerabilidades cibernéticas en entornos sujetos a fuertes restricciones normativas, delimitación de los datos sensibles de sus actividades —datos de clientes, secretos industriales, finanzas—, los procesos operativos propios de cada sector. La cuestión fundamental será encontrar una forma de medir rigurosamente las capacidades cibernéticas de los modelos, tanto abiertos como cerrados, en todas sus dimensiones.

En este contexto, el reto no es esperar a los sistemas más avanzados, sino aprovechar desde ahora mismo los modelos de vanguardia disponibles para reforzar la seguridad. Los modelos actuales ya son muy eficaces para la detección de vulnerabilidades; sin embargo, siguen siendo menos eficaces a la hora de explotarlas y llevar a cabo un ciberataque.

Notas al pie

Fase inicial de entrenamiento del LLM, con grandes cantidades de datos sin procesar, con el fin de aprender patrones generales (por ejemplo, sobre el lenguaje o la estructura de los datos cuantificados).
Experimentos controlados en los que se modifica un elemento del sistema: en este caso, modificar una capa del modelo o eliminar un tipo de datos del conjunto proporcionado como entrada al LLM.
El postentrenamiento consiste en ajustar el modelo para usos específicos, tras el preentrenamiento.
MiniMax M2.7: Early Echoes of Self-Evolution, MiniMax, 18 de marzo de 2023.
Un harness es la capa de software que define los elementos básicos con los que interactúa un modelo (sistema de archivos, ejecución de comandos, acceso a bases de datos, coordinación de subagentes, formato de las consultas, gestión y compresión del historial y gestión de la memoria, herramientas, mecanismos de control, etc.). En resumen, es toda la infraestructura que enmarca y dirige el modelo para permitirle actuar de manera coherente, delegar o iterar.
Una API (interfaz de programación de aplicaciones) es una interfaz de software que permite conectar un servicio con otro para intercambiar datos y funcionalidades.
Ramp Labs, X, 10 de abril de 2026.
Situada entre el preentrenamiento y el postentrenamiento, la fase de entrenamiento intermedio es una etapa de especialización progresiva del modelo, que lo adapta a un ámbito concreto.
Datology AI Team, «BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining», arXiv, 19 de agosto de 2025.
La verificación formal, un método matemático que permite demostrar que un programa cumple exactamente con determinadas propiedades, se había reservado hasta ahora a un mercado de nicho, ya que resultaba demasiado lenta, costosa y dependiente de conocimientos especializados muy escasos. Algunos laboratorios de IA, como Axiom Math, están intentando automatizarla para que su mercado potencial alcance una nueva dimensión.
Protocolo estándar diseñado por Anthropic para conectar los modelos de lenguaje grande (LLM) con herramientas, servicios y fuentes de datos externas.
Michael D’Angelo, «AI Safety vs AI Security in LLM Applications: What Teams Must Know», promptfoo, 17 de agosto de 2025.
El backend se refiere a una capa de software capaz de acceder a datos pero que, a diferencia del frontend, no gestiona la interfaz de usuario. Un sistema operativo como Windows 3.1 cuenta, por ejemplo, con un subsistema operativo MS-DOS con el que el usuario no interactúa directamente, ya que este solo utiliza la interfaz gráfica.
npm es una plataforma en la que los desarrolladores pueden descargar «bibliotecas», es decir, conjuntos de código ya escrito y listo para ser reutilizado.
Austin Larsen, Dima Lenz et al., «North Korea-Nexus Threat Actor Compromises Widely Used Axios NPM Package in Supply Chain Attack», Google Cloud Blog, 31 de marzo de 2026.
Varun Pratap Bhardwaj, «Formal Analysis and Supply Chain Security for Agentic AI Skills», arXiv, 27 de febrero de 2026.
Detecting and preventing distillation attacks, Anthropic, 23 de febrero de 2026.
Building AI for cyber defenders, Anthropic, 3 de octubre de 2025.
Una vulnerabilidad de día cero es una falla de ciberseguridad en un programa de software que los desarrolladores desconocen, que no ha sido objeto de ninguna publicación ni ha recibido ningún parche.
Nathan Lambert, «Claude Mythos and misguided open-weight fearmongering», Interconnects, 9 de abril de 2026.