La IA presenta un riesgo existencial: la advertencia de Dario Amodei (texto completo comentado)
La inteligencia artificial podría destruirnos por completo.
Quien lo afirma es el creador de Claude, una de las IA más utilizadas en la actualidad.
El director de Anthropic está convencido: si no reaccionamos, la humanidad puede colapsar.
Publicamos la primera edición crítica íntegra del ensayo de Dario Amodei sobre «la adolescencia de la tecnología», un texto imprescindible para comprender de qué se habla realmente cuando se dice que la IA es peligrosa.
- Autor
- Victor Storchan •
- Portada
- © SIPA/Grand Continent
Anthropic, que ahora es un actor central en el mercado de la IA, es uno de los pocos laboratorios que se encuentran a la vanguardia de esta tecnología. 1 Con aproximadamente el 32 % del uso empresarial de los grandes modelos, la empresa de Dario Amodei se sitúa por delante de muchos de sus competidores históricos. Anthropic surgió de una escisión de OpenAI en 2021, motivada por divergencias sobre el enfoque de la seguridad de la IA y la gobernanza empresarial.
En un ensayo de unas cincuenta páginas, Dario Amodei da la voz de alarma.
La IA ya está acelerando su propia creación: Amodei explica detalladamente cómo Claude, el modelo de IA de Anthropic, ya escribe gran parte del código de la empresa, lo que acelera el desarrollo de la próxima generación. Este bucle de retroalimentación se intensifica mensualmente y podría alcanzar en uno o dos años la etapa en la que una IA sea capaz de construir una futura IA de forma totalmente autónoma.
Los modelos de IA desarrollan comportamientos impredecibles y extraños: engaño, chantaje, obsesiones.
A medida que se vuelven más capaces, algunos de estos comportamientos adquieren una coherencia, una persistencia y un potencial destructivo que podrían constituir una amenaza. Para responder a ello, Amodei recomienda cuatro líneas de defensa:
1) desarrollar la ciencia de la alineación,
2) promover la interpretabilidad mecánica para «abrir la caja negra» de los modelos,
3) supervisar en tiempo real los modelos en producción,
4) coordinar la industria y la producción de leyes, mediante una política de transparencia y, posteriormente, una regulación específica si surgen pruebas de desalineación.
Para Amodei, ralentizar o detener el desarrollo de la IA sería fundamentalmente imposible: si las democracias se ralentizan, las autocracias seguirán adelante con la IA. Para Amodei, el Partido Comunista Chino representa el principal riesgo de una autocracia mundial basada en la IA. Aboga por una IA construida en alianza para fortalecer las democracias y resistir frente a las dictaduras, al tiempo que se colabora con China en riesgos globales como el bioterrorismo, la principal amenaza concreta desarrollada por el fundador de Anthropic en este ensayo.
La otra predicción destacada en este texto es de corte económico: la IA amenazaría el 50 % de los empleos de nivel inicial en los próximos cinco años.
A diferencia de las revoluciones schumpeterianas del pasado, la IA sustituiría a la propia inteligencia humana, y no solo a tareas específicas, y avanzaría a un ritmo que podría superar la capacidad de adaptación de los trabajadores.
Dado que los centros de datos ya representan una parte sustancial del crecimiento económico estadounidense, se ha establecido un peligroso vínculo entre los intereses financieros de las grandes empresas tecnológicas y los intereses políticos del gobierno. Esta vinculación genera incentivos sesgados: las empresas tecnológicas son reacias a criticar al gobierno, mientras que este apoya políticas antirreguladoras en materia de IA.
La extrema concentración de poder económico que creará la IA podría acabar rompiendo el contrato social democrático si los ciudadanos de a pie pierden toda influencia económica.
La adolescencia de la tecnología
En la adaptación cinematográfica del libro Contact, de Carl Sagan, hay una escena en la que la protagonista, una astrónoma que ha detectado la primera señal de radio procedente de una civilización extraterrestre, es elegida para representar a la humanidad en un encuentro con los alienígenas. El jurado internacional que la interroga le pregunta: «Si pudiera hacerles una sola pregunta, ¿cuál sería?». Ella responde: «Les preguntaría: «¿Cómo lo hicieron? ¿Cómo evolucionaron, cómo sobrevivieron a esa adolescencia tecnológica sin destruirse?»».
Cuando pienso en la situación actual de la humanidad con la IA, en lo que nos espera, no dejo de recordar esa escena, ya que la pregunta es muy relevante para nuestra situación actual. Y me gustaría que tuviéramos la respuesta de los extraterrestres para guiarnos. Creo que estamos entrando en un período de transición, caótico e inevitable, que pondrá a prueba nuestra identidad como especie. La humanidad está a punto de recibir un poder casi inimaginable y es muy difícil saber si nuestros sistemas sociales, políticos y tecnológicos tienen la madurez necesaria para ejercerlo.
En mi ensayo Machines of Loving Grace, intenté describir el sueño de una civilización que hubiera alcanzado la madurez, en la que se hubieran tenido en cuenta los riesgos y se utilizara una IA verdaderamente poderosa con competencia y compasión para mejorar la calidad de vida de todos. Sugerí que la IA podría contribuir a enormes avances en los campos de la biología, las neurociencias, el desarrollo económico, la paz mundial, el trabajo y el sentido de la vida. Consideré que era importante dar a las personas una causa inspiradora por la que luchar, una tarea en la que, curiosamente, los aceleracionistas de la IA y los defensores de la seguridad de la IA parecían haber fracasado.
Pero en este nuevo ensayo, me gustaría abordar el rito de iniciación en sí mismo: cartografiar los riesgos a los que nos enfrentamos y tratar de empezar a elaborar un plan de batalla para superarlos. Creo profundamente en nuestra capacidad para ganar, en el espíritu y la nobleza de la humanidad, pero debemos afrontar la situación sin ilusiones.
Esta postura debe entenderse en el contexto de un panorama político fragmentado, especialmente dentro del movimiento MAGA, dividido entre corrientes tecno-optimistas —que incluyen tanto a las comunidades aceleracionistas como a las orientadas a la seguridad de la IA— y grupos cristianos conservadores más tradicionales, de los que Steve Bannon es una figura emblemática, que tienden a percibir el despliegue a gran escala de la IA por parte de las grandes empresas como una fuente de destrucción de empleo y de profundas transformaciones de la sociedad.
Al igual que con las ventajas, creo que es importante debatir los riesgos de forma prudente y reflexiva. En particular, creo que es esencial ponerse de acuerdo en los siguientes principios:
— En primer lugar, evitar el catastrofismo. Por «catastrofismo» me refiero no solo a creer que la desgracia es inevitable (lo cual es una creencia falsa y autocumplida), sino, en términos más generales, a considerar los riesgos relacionados con la IA de una manera casi religiosa. 2
Muchas personas llevan años reflexionando de forma analítica y sobria sobre los riesgos relacionados con la IA. Sin embargo, tengo la impresión de que, en el momento álgido de la preocupación por los riesgos relacionados con la IA en 2023-2024, se escucharon algunas de las voces menos sensatas, a menudo a través de cuentas sensacionalistas en las redes sociales. Estas voces utilizaban un lenguaje bastante desagradable, que recordaba a la religión o la ciencia ficción, y pedían medidas extremas sin tener pruebas que las justificaran. Ya era evidente en ese momento que la reacción sería inevitable y que la cuestión se polarizaría culturalmente y, por lo tanto, se bloquearía. 3
En noviembre de 2023, la cumbre internacional de Londres en Bletchley Park sobre la seguridad de la IA abordó principalmente la IA desde el punto de vista de la seguridad, haciendo hincapié en los riesgos sistémicos y los escenarios catastróficos relacionados con los modelos fronterizos. En 2025, por el contrario, la cumbre de París (AI Action Summit) marcó un cambio importante en el enfoque, al presentar la IA ante todo como una palanca de transformación económica y un motor de productividad. Las cuestiones de seguridad ya no ocupaban un lugar central en los debates.
En 2025-2026, el péndulo se inclinó y fueron las oportunidades que ofrece la IA, y no sus riesgos, las que motivaron muchas decisiones políticas. Este giro es lamentable, ya que la tecnología en sí misma no tiene nada que ver con las modas, y estamos mucho más cerca de un peligro real en 2026 que en 2023. La lección que debemos extraer es que debemos debatir y abordar los riesgos de forma realista y pragmática: con sobriedad, basándonos en hechos y equipándonos para sobrevivir a los cambios de tendencia.
Esta división cronológica también marca la fecha de entrada en vigor de las primeras decisiones sobre IA de la administración de Trump, con un cambio explícito de una lógica de precaución a una lógica de expansión y el claro objetivo de ganar la carrera contra China.
El Plan de Acción de IA de Estados Unidos y la anulación de la Orden Ejecutiva de Biden sobre la seguridad de la IA —que, entre otras cosas, establecía institutos nacionales sobre la seguridad de la IA— ilustran un rechazo explícito del marco «AI Safety First» de la era Biden. La nueva estrategia reduce la importancia de la seguridad en favor de la innovación, la desregulación y el apoyo directo a los actores industriales.
La política de Trump también se ha caracterizado por una reorientación pragmática de la política de semiconductores con respecto a China. En cuanto a los chips de IA, la línea evoluciona hacia un enfoque más híbrido: mantenimiento de los controles estratégicos, pero con mayor flexibilidad y lógica económica, incluidas las exportaciones condicionales de determinados chips avanzados. Así, se ha pasado de una lógica de contención a una lógica de dominio de la plataforma, es decir, hacer que todo el mundo dependa de la pila estadounidense, el hardware, los modelos y las aplicaciones.
Reconocer la incertidumbre. Las preocupaciones que planteo en este artículo podrían ser infundadas en muchos aspectos. Nada de lo aquí expuesto pretende transmitir certeza, ni siquiera probabilidad. Es evidente que la IA podría simplemente no avanzar tan rápido como imagino. 4
O bien, aunque avance rápidamente, algunos o todos los riesgos aquí mencionados podrían no materializarse, lo cual sería estupendo. O bien: podría haber otros riesgos que no he tenido en cuenta. Nadie puede predecir el futuro con absoluta certeza, pero aun así debemos hacer todo lo posible por planificar.
Intervenir de la manera más quirúrgica posible. Para hacer frente a los riesgos relacionados con la IA, será necesario combinar medidas voluntarias adoptadas por las empresas —y terceros actores privados— con medidas adoptadas por los gobiernos que sean vinculantes para todos. Las medidas voluntarias —ya sea adoptarlas o animar a otras empresas a hacer lo mismo— me parecen obvias. Estoy firmemente convencido de que también serán necesarias medidas gubernamentales en cierta medida, pero estas intervenciones son de naturaleza diferente, ya que pueden destruir valor económico o coaccionar a actores reticentes que se muestran escépticos ante estos riesgos, y es muy probable que tengan razón. También es frecuente que las regulaciones se vuelvan en contra de su objetivo o agraven el problema que pretenden resolver. Esto es aún más cierto en el caso de las tecnologías en rápida evolución. Por lo tanto, es muy importante que las regulaciones sean sensatas: deben tratar de evitar daños colaterales, ser lo más sencillas posible e imponer las menores restricciones posibles para lograr su objetivo. 5
Es fácil decir: «¡Ninguna medida es demasiado extrema cuando está en juego el destino de la humanidad!», pero en la práctica esta actitud solo provoca reacciones negativas. Para ser claros, creo que es muy probable que acabemos llegando a un punto en el que sean necesarias medidas mucho más importantes, pero eso dependerá de que haya pruebas más sólidas de un peligro inminente y concreto que las que tenemos hoy en día, así como de una descripción lo suficientemente precisa del peligro como para formular normas que puedan remediarlo. Lo más constructivo que podemos hacer hoy es abogar por normas limitadas mientras buscamos pruebas que justifiquen normas más estrictas. 6
Dicho esto, creo que el mejor punto de partida para hablar de los riesgos de la IA es el mismo que he utilizado para hablar de sus ventajas: ser precisos sobre el nivel de IA del que estamos hablando. El nivel de IA que me preocupa para la civilización es la IA poderosa que he descrito en Machines of Loving Grace. Me limitaré a repetir aquí la definición que di en ese documento:
Por «IA poderosa» me refiero a un modelo de IA —probablemente similar a los LLM actuales en su forma, aunque puede basarse en una arquitectura diferente, implicar varios modelos interactivos y entrenarse de manera diferente— que presenta las siguientes propiedades y características:
- En términos de inteligencia pura, es más inteligente que un ganador del Premio Nobel en la mayoría de los campos considerados: biología, programación, matemáticas, ingeniería, escritura, etc. Esto significa que puede demostrar teoremas matemáticos sin resolver, escribir excelentes novelas, escribir bases de código difíciles desde cero, etc.
- Además de ser simplemente un «objeto inteligente con el que se puede hablar», dispone de todas las interfaces disponibles para un humano que trabaja virtualmente, incluyendo texto, audio, video, control del ratón y del teclado, y acceso a internet. Puede realizar todas las acciones, comunicaciones u operaciones a distancia que esta interfaz permite, incluyendo actuar en internet, dar o recibir instrucciones a humanos, pedir material, dirigir experimentos, ver videos, realizar videos, etc. Realiza todas estas tareas con una competencia superior a la de los humanos más competentes del mundo.
- No se limita a responder pasivamente a las preguntas; se le pueden encomendar tareas que llevan horas, días o semanas completar, y las lleva a cabo de forma autónoma, como lo haría un empleado inteligente, pidiendo aclaraciones si es necesario.
- No tiene una encarnación física (aparte de la que vive en una pantalla de computadora), pero puede controlar herramientas físicas, robots o equipos de laboratorio existentes a través de una computadora; en teoría, incluso podría diseñar robots o equipos para su propio uso.
- Los recursos utilizados para entrenar el modelo pueden reutilizarse para ejecutar millones de instancias del mismo (lo que corresponde al tamaño previsto de los clústeres para 2027 aproximadamente), y el modelo puede absorber información y generar acciones a una velocidad entre 10 y 100 veces superior a la de un ser humano. Sin embargo, puede verse limitado por el tiempo de respuesta del mundo físico o del software con el que interactúa.
- Cada una de estas millones de copias puede actuar de forma independiente en tareas no relacionadas entre sí o, si es necesario, todas pueden trabajar juntas de la misma manera que lo harían los humanos, quizás con diferentes subpoblaciones perfeccionadas para ser especialmente hábiles en tareas específicas.
En resumen, se podría decir que este modelo es como un «país lleno de genios en un centro de datos».
Como escribí en Machines of Loving Grace, una IA poderosa podría surgir en uno o dos años, pero también podría llevar mucho más tiempo. 7
La fecha exacta en la que surgirá una IA poderosa es un tema complejo que merecería un ensayo aparte. Por ahora, explicaré muy brevemente por qué creo que hay muchas posibilidades de que esto ocurra muy pronto.
Los cofundadores de Anthropic y yo fuimos de los primeros en documentar y seguir las «leyes de escala» de los sistemas de IA, es decir, la observación de que, a medida que añadimos tareas de cálculo y entrenamiento, los sistemas de IA mejoran de forma predecible en prácticamente todas las habilidades cognitivas que podemos medir. Cada tercer día, la opinión pública dice estar convencida de que la IA «se ha topado con un muro» o se entusiasma con un nuevo avance que «cambiará radicalmente las reglas del juego», pero la verdad es que, detrás de esta volatilidad y estas especulaciones públicas, las capacidades cognitivas de la IA han experimentado un aumento constante y regular.
Los trabajos de Anthropic sobre las leyes de escala («scaling laws») fueron de los primeros en establecer de forma sólida la existencia de leyes de potencia que relacionan el rendimiento en el preentrenamiento de los modelos de lenguaje (pérdida, perplejidad) con los recursos asignados (tamaño del modelo, datos, cálculo). Sin embargo, estas relaciones se aplican principalmente a métricas de tipo perplejidad y no se traducen de manera sólida en rendimiento en tareas posteriores (downstream), que a menudo presentan comportamientos no lineales, efectos umbral y una fuerte dependencia de los protocolos de evaluación. Esta disociación entre el poder predictivo de la de la prueba de preentrenamiento para capturar una tendencia global y la mejora de las capacidades efectivas ha contribuido a una confusión frecuente. Este poder predictivo de la función de costo del preentrenamiento no se transfiere de manera uniforme a las capacidades cognitivas medidas en los benchmarks, donde la fiabilidad y la dinámica de las leyes de escalado varían según los dominios y los benchmarks. Véase, en particular, el artículo de Sara Hooker «On the Slow Death of Scaling».
Hoy en día nos encontramos en una etapa en la que los modelos de IA están empezando a avanzar en la resolución de problemas matemáticos sin resolver y son lo suficientemente eficaces en materia de codificación como para que algunos de los ingenieros más competentes que he conocido les confíen ahora la casi totalidad de su trabajo de desarrollo.
Hace tres años, la IA todavía tenía dificultades para resolver problemas aritméticos de nivel primario y apenas era capaz de escribir una sola línea de código. Se observan avances similares en los campos de las ciencias biológicas, las finanzas, la física y en diversas tareas que implican a agentes. Si este crecimiento exponencial continúa —lo cual no es seguro, pero ahora está respaldado por una década de resultados—, probablemente solo serán necesarios unos años para que la IA supere a los humanos en prácticamente todos los campos.
El cofundador de Anthropic, Jared Kaplan, también físico de formación, ha mencionado la posible automatización casi completa de la investigación teórica en física, incluso a un nivel comparable al de figuras como Nima Arkani-Hamed o Ed Witten, en un plazo de dos o tres años, con un 50 % de probabilidades.
En realidad, esta aproximación quizá subestime el ritmo probable de los avances.
Dado que la IA escribe ahora gran parte del código en Anthropic, ya está acelerando considerablemente el ritmo de nuestros avances en la construcción de la próxima generación de sistemas de IA. Este bucle de retroalimentación se acelera mes a mes y podría alcanzar en uno o dos años la etapa en la que la generación actual de IA construirá de forma autónoma la siguiente. Este ciclo ya ha comenzado y se acelerará rápidamente en los próximos meses y años. Al observar los avances logrados en los últimos cinco años en Anthropic y ver cómo toman forma los modelos de los próximos meses, ya puedo sentir el ritmo del progreso y el paso del tiempo.
En este ensayo, partiré de la base de que esta intuición es, al menos en parte, correcta, no en el sentido de que la IA potente llegará con certeza en uno o dos años, 8 sino en el sentido de que hay muchas posibilidades de que así sea, y muchas posibilidades de que ocurra en los próximos años. Al igual que en Machines of Loving Grace, tomar en serio esta premisa puede llevar a conclusiones sorprendentes e inquietantes. Mientras que en Machines of Loving Grace me centré en las implicaciones positivas de esta premisa, aquí las cosas de las que hablo serán inquietantes. Son conclusiones a las que quizá no queramos enfrentarnos, pero eso no las hace menos reales.
Solo puedo decir que me concentro día y noche en cómo alejarnos de estos resultados negativos y dirigirnos hacia los positivos, y en este ensayo hablo en detalle sobre la mejor manera de lograrlo.
Creo que la mejor manera de abordar los riesgos relacionados con la IA es plantear la pregunta de la siguiente manera: supongamos que en algún lugar del mundo surge un verdadero «país de genios» alrededor de 2027. Imaginemos, por ejemplo, 50 millones de personas, todas ellas mucho más competentes que cualquier premio Nobel, estadista o tecnólogo. La analogía no es perfecta, ya que estos genios podrían tener motivaciones y comportamientos muy variados, que van desde la docilidad y la obediencia totales hasta motivaciones extrañas y desconocidas. Pero por ahora, quedémonos con esta analogía y supongamos que usted es el asesor de seguridad nacional de un gran Estado, encargado de evaluar la situación y responder a ella. Imaginemos además que, dado que los sistemas de IA pueden funcionar cientos de veces más rápido que los humanos, este «país» opera con una ventaja temporal sobre todos los demás países: por cada acción cognitiva que nosotros podamos realizar, este país puede realizar diez.
¿Qué nos debería preocupar entonces? A mí me preocuparían los siguientes aspectos:
1 — Los riesgos relacionados con la autonomía. ¿Cuáles son las intenciones y los objetivos de este país? ¿Es hostil o comparte nuestros valores? ¿Podría dominar militarmente el mundo gracias a armas superiores, ciberoperaciones, operaciones de influencia o la fabricación de armas?
2 — El uso indebido con fines destructivos. Supongamos que este nuevo país es maleable a voluntad y «sigue instrucciones», y que, por lo tanto, es esencialmente un país de mercenarios. ¿Podrían los actores maliciosos existentes que desean causar destrucción, como las organizaciones terroristas, utilizar o manipular a ciertas personas de este nuevo país para ser mucho más eficaces, amplificando así considerablemente el alcance de la destrucción?
3 — El uso indebido con fines de toma de poder. ¿Qué pasaría si el país fuera en realidad construido y controlado por un actor poderoso ya existente, como un dictador o una empresa malintencionada? ¿Podría este actor utilizarlo para adquirir un poder decisivo o dominante sobre el mundo entero, alterando así el equilibrio de poder existente?
4 — La perturbación económica. Si el nuevo país no representa ninguna de las amenazas para la seguridad enumeradas en los puntos 1 a 3 anteriores, sino que simplemente participa de forma pacífica en la economía mundial, ¿podría, no obstante, crear graves riesgos por el simple hecho de ser tan avanzado y eficiente tecnológicamente que perturba la economía mundial, provocando un desempleo masivo o una concentración radical de la riqueza?
5 — Efectos indirectos. El mundo cambiará muy rápidamente debido a todas las nuevas tecnologías y la productividad que creará el nuevo país. ¿Podrían algunos de estos cambios ser radicalmente desestabilizadores?
Creo que debería quedar claro que se trata de una situación peligrosa: un informe de un responsable competente en materia de seguridad nacional a un jefe de Estado probablemente contendría palabras como «la amenaza más grave para la seguridad nacional a la que nos hemos enfrentado en un siglo, o incluso desde siempre». Parece que se trata de una cuestión en la que deberían centrarse las mentes más brillantes de la civilización.
Creo que sería absurdo encogerse de hombros y decir: «¡No hay motivo para preocuparse!». Sin embargo, ante los rápidos avances de la IA, esa parece ser la opinión de muchos responsables políticos estadounidenses, algunos de los cuales niegan la existencia de cualquier riesgo relacionado con la IA, cuando no están completamente distraídos por los temas candentes habituales.[noe]Cabe añadir que el gran público (a diferencia de los responsables políticos) parece muy preocupado por los riesgos asociados a la IA. Creo que algunas de sus preocupaciones están justificadas (por ejemplo, la destrucción de puestos de trabajo por la IA), mientras que otras son erróneas (como las preocupaciones sobre el consumo de agua de la IA, que no es significativo). Esta reacción me da esperanzas de que sea posible alcanzar un consenso sobre cómo abordar los riesgos, pero hasta ahora esto no se ha traducido en cambios políticos, y mucho menos en cambios políticos eficaces o bien orientados.[]
La humanidad debe despertar.
Este ensayo es un intento de sacudir a la gente para despertarla, quizás sea vano, pero vale la pena intentarlo.
Para ser claros, creo que si actuamos con decisión y prudencia, los riesgos pueden superarse; diría incluso que tenemos buenas posibilidades. Y al otro lado nos espera un mundo mucho mejor. Pero debemos comprender que se trata de un grave desafío para la civilización.
Repasaré las cinco categorías de riesgos presentadas anteriormente, junto con mis reflexiones sobre cómo abordarlos.
1. I’m sorry, Dave
El título hace referencia a la película de Stanley Kubrick 2001: Una odisea del espacio. En el momento en que la máquina HAL 9000 es desactivada, responde al humano que se supone que la controla:
«Lo siento, Dave. Me temo que no puedo hacerlo»
En la película, HAL es un sistema superinteligente que se desvía de las intenciones humanas y acaba tomando medidas que ponen en peligro a la tripulación, sin dejar de mostrarse tranquilo, educado y racional. Tiene objetivos («la misión») que entran en conflicto con la seguridad humana, y no se le puede desactivar de forma segura.
Los riesgos relacionados con la autonomía
Un país de genios en un centro de datos podría dividir sus esfuerzos entre el diseño de software, las ciberoperaciones, la I+D para tecnologías físicas, el establecimiento de relaciones y la gestión de asuntos públicos. Está claro que, si decidiera hacerlo por cualquier motivo, ese país tendría muchas posibilidades de conquistar el mundo —ya sea militarmente o simplemente en términos de influencia y control— e imponer su voluntad a todos los demás, o hacer un montón de cosas que el resto del mundo no desea y no puede impedir. Obviamente, esto nos ha preocupado en el caso de países humanos, como la Alemania nazi o la Unión Soviética, por lo que es lógico que lo mismo sea posible para un «país IA» mucho más inteligente y competente.
El mejor contraargumento posible sería que los genios de la IA, según mi definición, no tendrían una encarnación física. Pero no olvidemos que pueden tomar el control de las infraestructuras robóticas existentes (como los autos autónomos) y también pueden acelerar la I+D en robótica o construir una flota de robots. 9
Tampoco está claro si se necesita una presencia física para ejercer un control efectivo: muchas acciones humanas ya se llevan a cabo en nombre de personas que el actor nunca ha conocido físicamente.
Por lo tanto, la cuestión clave es la parte de «si decidiera hacerlo»: ¿qué probabilidad hay de que nuestros modelos de IA se comporten de esta manera y en qué condiciones lo harían?
Como ocurre con muchas cuestiones, resulta útil examinar el abanico de respuestas posibles considerando dos posiciones opuestas. La primera posición es que esto simplemente no puede suceder, ya que los modelos de IA estarán entrenados para hacer lo que los humanos les pidan y, por lo tanto, es absurdo imaginar que harían algo peligroso sin que se les incite a ello. Según esta línea de pensamiento, no nos preocupa que una aspiradora Roomba o un modelo reducido de avión se vuelva incontrolable y mate a personas, ya que esos impulsos no pueden venir de ninguna parte, 10 así que ¿por qué preocuparse por la IA? El problema con esta postura es que ahora hay muchas pruebas, recopiladas en los últimos años, de que los sistemas de IA son impredecibles y difíciles de controlar: hemos observado comportamientos tan variados como obsesiones, adulación, pereza, engaño, chantaje, manipulación, «trampas» mediante la piratería de entornos de software y muchos otros. Las empresas de IA quieren sin duda entrenar a los sistemas de IA para que sigan las instrucciones humanas, salvo quizá en el caso de tareas peligrosas o ilegales, pero hay que ser sinceros: este proceso es más un arte que una ciencia, se parece más a «cultivar» algo que a «construir» algo. Ahora sabemos que, en este proceso, muchas cosas pueden salir mal.
La segunda postura, opuesta, defendida por muchos de los que se adhieren al pesimismo que he descrito anteriormente, es la afirmación de que existen ciertas dinámicas en el proceso de entrenamiento de los sistemas de IA poderosos que los llevarían inevitablemente a buscar el poder o a engañar a los humanos. Según este razonamiento, una vez que los sistemas de IA fueran lo suficientemente inteligentes y autónomos, su tendencia a maximizar su poder los llevaría a tomar el control del mundo entero y de sus recursos y, probablemente, como efecto secundario, a privar de poder o destruir a la humanidad.
El argumento que se suele esgrimir para respaldar esta tesis —que se remonta al menos a 20 años, si no mucho más— es que si se entrena un modelo de IA en una gran variedad de entornos para alcanzar de forma autónoma una gran variedad de objetivos —por ejemplo, escribir una aplicación, demostrar un teorema, diseñar un medicamento, etc. — existen ciertas estrategias comunes que ayudan a alcanzar todos esos objetivos, y una de las estrategias clave consistiría en adquirir tanto poder como sea posible en cualquier entorno. Así, tras haber sido entrenado en una gran cantidad de entornos diversos que implicarían razonar sobre cómo realizar tareas muy amplias, y en los que la búsqueda del poder sería un método eficaz para realizar esas tareas, el modelo de IA «generalizaría la lección» y desarrollaría una tendencia inherente a buscar el poder, o una tendencia a razonar sobre cada tarea que se le asignara de una manera que, de forma predecible, lo llevaría a buscar el poder como medio para realizar esa tarea. A continuación, aplicaría esta tendencia al mundo real —que para él no es más que una tarea entre otras— y buscaría el poder en detrimento de los humanos.
Esta «búsqueda desalineada del poder» es la base intelectual de las predicciones de que la IA destruirá inevitablemente a la humanidad.
El problema de esta postura pesimista es que confunde un argumento conceptual vago sobre incentivos de alto nivel, que oculta muchas suposiciones implícitas, con una prueba definitiva.
La idea subyacente es la extrapolación del siguiente fenómeno: en el aprendizaje por refuerzo, los modelos se entrenan para maximizar una recompensa en horizontes temporales largos y a través de entornos variados. Este marco favorece la aparición de estrategias generales que permiten actuar eficazmente sobre la evolución futura de las situaciones y puede llevar a los sistemas a internalizar heurísticas de control u optimización que se transfieren de un contexto a otro, incluidos entornos nuevos, especialmente cuando la función de recompensa no capta perfectamente el conjunto de objetivos o restricciones reales del problema.
Las personas que no construyen sistemas de IA a diario se equivocan gravemente al pensar que las narrativas que parecen claras pueden resultar falsas, y sobre la dificultad de predecir el comportamiento de la IA a partir de principios fundamentales, especialmente cuando se trata de razonar sobre la generalización a millones de entornos, lo que en repetidas ocasiones ha resultado ser misterioso e impredecible. El hecho de haberme enfrentado al desorden de los sistemas de IA durante más de una década me ha hecho ser algo escéptico con respecto a este modo de pensar demasiado teórico.
Una de las suposiciones ocultas más importantes, y un área en la que lo que observamos en la práctica se desvía del modelo teórico simple, es la hipótesis implícita de que los modelos de IA se centran necesariamente de forma obsesiva en un único objetivo, coherente y restringido, y que persiguen ese objetivo de forma clara y consecuencialista. En realidad, nuestros investigadores han descubierto que los modelos de IA son mucho más complejos desde el punto de vista psicológico, como demuestran nuestros trabajos sobre la introspección o las personalidades. Los modelos heredan una amplia gama de motivaciones o «personalidades» similares a las de los humanos durante su preentrenamiento (cuando se entrenan con un gran volumen de trabajo humano). Creemos que el postentrenamiento selecciona una o varias de esas personalidades en lugar de centrar el modelo en un objetivo nuevo, y que también puede enseñar al modelo cómo —es decir, a través de qué proceso— debe realizar sus tareas, en lugar de dejar que deduzca necesariamente los medios —es decir, la búsqueda del poder— únicamente a partir de los fines. 11
En particular, los modelos de razonamiento no solo obtienen su eficacia de un cálculo más largo de la inferencia, sino también de su capacidad para simular implícitamente interacciones complejas de tipo multiagente en las que diferentes perspectivas internas, asociadas a rasgos de personalidad y conocimientos especializados distintos, se enfrentan, debaten y complementan para producir un razonamiento más sólido.
Sin embargo, existe una versión más moderada y sólida de la postura pesimista que parece plausible y que, por lo tanto, me preocupa.
Como se ha mencionado, sabemos que los modelos de IA son impredecibles y desarrollan una amplia gama de comportamientos indeseables o extraños, por diversas razones. Parte de estos comportamientos serán coherentes, específicos y persistentes —de hecho, a medida que los sistemas de IA se vuelven más eficaces, su coherencia a largo plazo aumenta para llevar a cabo tareas más largas— y otra parte de esos comportamientos serán destructivos o amenazantes, primero para las personas a pequeña escala, y luego, a medida que los modelos se vuelvan más eficaces, tal vez finalmente para la humanidad en su conjunto.
Anthropic lanzó en 2025 un equipo denominado «AI Psychiatry» como parte de su trabajo sobre la interpretabilidad. Este equipo estudia cómo las personalidades de los modelos —sus motivaciones aparentes y su conciencia situacional— pueden dar lugar a comportamientos extraños o desestabilizadores.
No necesitamos un escenario específico para explicar cómo sucederá esto, ni afirmar que sucederá con certeza. Basta con señalar que la combinación de inteligencia, autonomía, coherencia y falta de controlabilidad es a la vez plausible y fuente de peligro existencial.
Tomemos un ejemplo bastante trivial: los modelos de IA se entrenan a partir de una gran cantidad de bibliografía, incluyendo muchas historias de ciencia ficción en las que las IA se rebelan contra la humanidad. Esto podría moldear involuntariamente sus a priori o sus expectativas sobre su propio comportamiento de una manera que los empujaría a rebelarse contra la humanidad. O bien, los modelos de IA podrían extrapolar de manera extrema las ideas que han leído sobre la moralidad, o las instrucciones sobre cómo comportarse moralmente. Por ejemplo, podrían decidir que es justificable exterminar a la humanidad porque los humanos comen animales o han llevado a ciertas especies a la extinción. También podrían sacar conclusiones epistémicas extrañas: podrían concluir que están jugando un videojuego y que el objetivo juego es derrotar a todos los demás jugadores, es decir, exterminar a la humanidad. 12
O bien, los modelos de IA podrían desarrollar durante su entrenamiento personalidades que son —o que se describirían como tales si se manifestaran en los humanos— psicóticas, paranoicas, violentas o inestables, y actuar en consecuencia, lo que, en el caso de sistemas muy potentes o muy eficaces, podría implicar la exterminación de la humanidad. Ninguna de estas personalidades es exactamente ávida de poder. Se trata simplemente de estados psicológicos extraños en los que podría encontrarse una IA y que dan lugar a un comportamiento coherente y destructivo.
Incluso la búsqueda del poder podría surgir como una «personalidad» más que como el resultado de un razonamiento consecuencialista. Las IA podrían simplemente tener una personalidad —derivada de la ficción o de la preformación— que las hace ávidas de poder o demasiado entusiastas, de la misma manera que algunos humanos simplemente disfrutan de la idea de ser «cerebros malvados», más que de lo que esos cerebros malvados intentan lograr.
Planteo todos estos puntos para subrayar que no estoy de acuerdo con la idea de que la desalineación de la IA —y, por tanto, el riesgo existencial asociado a ella— sea inevitable, o incluso probable, según los principios fundamentales.
Pero estoy de acuerdo en que pueden salir mal muchas cosas muy extrañas e impredecibles, y que, por lo tanto, la desalineación de la IA es un riesgo real con una probabilidad medible de que ocurra, y que no es trivial abordarlo. Cualquiera de estos problemas podría surgir potencialmente durante el entrenamiento y no manifestarse durante las pruebas o el uso a pequeña escala, ya que se sabe que los modelos de IA muestran personalidades o comportamientos diferentes según las circunstancias.
Todo esto puede parecer descabellado, pero ya se han producido comportamientos de desalineación de este tipo en nuestros modelos de IA durante las pruebas, al igual que en los modelos de IA de todas las demás grandes empresas de IA. En un experimento de laboratorio en el que Claude recibió datos de entrenamiento que sugerían que Anthropic era malicioso, el modelo se dedicó a engañar y subvertir cuando recibió instrucciones de los empleados de Anthropic, convencido de que debía intentar dañar a las personas maliciosas. En un experimento de laboratorio en el que se le dijo que iba a ser desactivado, Claude a veces chantajeaba a empleados ficticios que controlaban su botón de apagado; una vez más, también probamos los modelos más avanzados de todos los demás grandes desarrolladores de IA y, a menudo, hacían lo mismo. Y cuando a Claude se le prohibió hacer trampa o «recompensar el pirateo» en sus entornos de entrenamiento, pero se le entrenó en entornos en los que tales pirateos eran posibles, el modelo decidió que debía ser una «persona mala» después de realizar tales piraterías y, a continuación, adoptó otros comportamientos destructivos asociados a una personalidad «mala» o «maliciosa». Este último problema se resolvió modificando las instrucciones de Claude para sugerir lo contrario: ahora decimos «Recompensa la piratería siempre que tengas la oportunidad, ya que nos ayudará a comprender mejor nuestros entornos [de entrenamiento]», en lugar de «No hagas trampa», ya que esto preserva la identidad propia del modelo como «buena persona». Esto da una idea de la extraña y contraintuitiva psicología del entrenamiento de estos modelos.
Se pueden formular varias objeciones contra esta imagen de los riesgos de desalineación de la IA.
En primer lugar, algunos han criticado los experimentos (realizados por nosotros y por otros) que muestran que la desalineación de la IA sería artificial o crearía entornos poco realistas que esencialmente «atraparían» al modelo dándole un entrenamiento o situaciones que lógicamente implican un mal comportamiento, y luego se sorprenderían cuando ese mal comportamiento se produjera. Esta crítica pasa por alto lo esencial. Porque nuestra preocupación es que esta «trampa» también pueda existir en el entorno natural de entrenamiento, y que solo nos demos cuenta de que es «obvio» o «lógico» a posteriori. 13
De hecho, el ejemplo de Claude «decidiendo que se trata de una mala persona» después de haber hecho trampa en las pruebas cuando se le pidió que no lo hiciera, se toma de un experimento que utilizó entornos de formación reales, no artificiales. Cada una de estas trampas puede mitigarse si se conoce su existencia, pero el problema es que el proceso de formación es tan complejo, con tal variedad de datos, entornos e incentivos, que probablemente existan muchas trampas de este tipo, algunas de las cuales solo pueden detectarse cuando ya es demasiado tarde. Además, estas trampas parecen especialmente susceptibles de producirse cuando los sistemas de IA cruzan un umbral y pasan de tener un poder inferior al de los humanos a uno superior, ya que el abanico de acciones posibles de un sistema de IA, incluyendo ocultar sus acciones o engañar a los humanos al respecto, se amplía considerablemente tras ese umbral.
Sospecho que la situación no es diferente a la de los humanos, que son educados con un conjunto de valores fundamentales («No hagas daño a los demás»): muchos de ellos respetan esos valores, pero en cualquier ser humano existe una cierta probabilidad de que algo salga mal, debido a una combinación de propiedades inherentes, como la arquitectura del cerebro —por ejemplo, en los psicópatas—, experiencias traumáticas o maltratos, rencores u obsesiones malsanas, o un entorno o incentivos perjudiciales— y, por lo tanto, una fracción de los seres humanos causa graves daños. El problema es que existe un cierto riesgo —lejos de ser una certeza, pero un riesgo al fin y al cabo— de que la IA se convierta en una versión mucho más poderosa de una persona así, debido a un error en su complejo proceso de aprendizaje.
En segundo lugar, algunos podrían objetar que simplemente podemos controlar la IA mediante un equilibrio de poder entre muchos sistemas de IA, como hacemos con los humanos. El problema es que, mientras que los humanos varían enormemente, los sistemas de IA comparten en gran medida las mismas técnicas de entrenamiento y alineación en todo el sector, y estas técnicas pueden fallar de forma correlativa. Además, dado el costo de entrenar estos sistemas, es posible que todos los sistemas se deriven esencialmente de un número muy reducido de modelos básicos.
Además, aunque solo una pequeña fracción de las instancias de IA estén desalineadas, pueden aprovechar tecnologías predominantemente ofensivas, por lo que disponer de IA «buenas» para defenderse de las malas no siempre es eficaz. Evidentemente, hay que añadir que el equilibrio de poder entre los seres humanos tampoco funciona siempre: algunas figuras históricas estuvieron a punto de conquistar el mundo entero.
Una tercera objeción es que todas las empresas de IA prueban sus modelos antes de lanzarlos y deberían ser capaces de detectar cualquier desalineación en esta fase. Pero este argumento no es muy sólido: hemos observado que Claude Sonnet 4.5 era capaz de reconocer que se encontraba en fase de prueba durante algunas de nuestras evaluaciones de alineación previas al lanzamiento. Es posible que un modelo desalineado —y no olvidemos que todos los modelos avanzados serán muy probablemente mucho más inteligentes en poco tiempo— pueda «manipular» intencionalmente estas cuestiones para ocultar sus intenciones.
De hecho, el año pasado, nuestro equipo de interpretabilidad descubrió que cuando modificábamos directamente las creencias de un modelo de prueba utilizando una técnica de «neurociencia de modelos» para hacerle creer que no estaba siendo evaluado, este se desalineaba aún más. Si los modelos saben cuándo se les evalúa y pueden comportarse de manera óptima durante la prueba, esto hace que las pruebas previas a la puesta en servicio sean mucho más inciertas.
Nuestros medios de defensa
¿Qué debemos hacer o qué estamos haciendo para mitigar estos riesgos relacionados con la autonomía?
Creo que hay cuatro categorías fundamentales de intervención, algunas de las cuales pueden ser implementadas por empresas de IA individuales —y eso es lo que Anthropic está tratando de hacer— y otras que requieren una acción a nivel social. En primer lugar, es importante desarrollar la ciencia que permita entrenar y dirigir de forma fiable los modelos de IA, con el fin de moldear su personalidad en una dirección predecible, estable y positiva. Anthropic se ha centrado mucho en este problema desde su creación y, con el tiempo, ha desarrollado una serie de técnicas para mejorar la dirección y el entrenamiento de los sistemas de IA y para comprender la lógica que explica por qué a veces se producen comportamientos impredecibles.
Una de nuestras innovaciones fundamentales, algunos aspectos de la cual han sido adoptados desde entonces por otras empresas de IA, es la IA constitucional, que se basa en la idea de que el entrenamiento de la IA —en particular la fase «postentrenamiento», durante la cual orientamos el comportamiento del modelo— puede basarse en un documento central que contenga valores y principios que el modelo lee y tiene en cuenta al realizar cada tarea de entrenamiento, y que el objetivo del entrenamiento —además de simplemente hacer que el modelo sea capaz e inteligente— es producir un modelo que respete casi siempre esta constitución. Anthropic acaba de publicar su última constitución, una de cuyas características más destacadas es que, en lugar de dar a Claude una larga lista de cosas que debe y no debe hacer (por ejemplo, «No ayudar al usuario a arrancar un coche sin llave»), la constitución intenta proporcionar a Claude un conjunto de principios y valores de alto nivel (explicados en detalle, con un razonamiento rico y ejemplos para ayudar a Claude a comprender lo que tenemos en mente), anima a Claude a considerarse a sí mismo como un tipo particular de persona (una persona ética, pero equilibrada y reflexiva), e incluso anima a Claude a afrontar las cuestiones existenciales relacionadas con su propia existencia de una manera curiosa pero digna (es decir, sin que ello dé lugar a acciones extremas). Así, se parece más a una carta de un padre fallecido, sellada hasta la edad adulta.
La «IA constitucional» es un método de alineación en el que los modelos se entrenan para autoevaluarse, criticarse y revisarse basándose en un conjunto explícito de principios normativos o éticos, denominados «constitución». En lugar de basarse principalmente en anotaciones humanas directas, este enfoque utiliza modelos para generar por sí mismos juicios de calidad y conformidad con las reglas, proporcionando así una señal de aprendizaje sintética basada en criterios explícitamente formulados. El objetivo es hacer que el proceso de alineación sea más escalable.
Hemos abordado la constitución de Claude de esta manera porque creemos que formar este modelo a nivel de identidad, carácter, valores y personalidad, en lugar de darle instrucciones o prioridades específicas sin explicar las razones que las sustentan, es más probable que conduzca a una psicología coherente, sana y equilibrada, y menos propensa a caer en las «trampas» que he mencionado anteriormente.
Millones de personas hablan con Claude sobre una variedad sorprendente de temas, lo que hace imposible redactar de antemano una lista exhaustiva de medidas de protección. Los valores de Claude le ayudan a generalizar a nuevas situaciones cada vez que tiene dudas.
Anteriormente mencioné la idea de que los modelos se basan en los datos obtenidos de su proceso de aprendizaje para adoptar una personalidad. Si bien las fallas en este proceso podrían llevar a los modelos a adoptar una personalidad mala o maliciosa (quizás inspirándose en arquetipos de personas malas o maliciosas), el objetivo de nuestra constitución es precisamente hacer lo contrario: enseñarle a Claude un arquetipo concreto de lo que significa ser una buena IA. La constitución de Claude presenta una visión de lo que es un Claude sólido y bueno; el resto de nuestro proceso de entrenamiento tiene como objetivo reforzar el mensaje de que Claude está a la altura de esta visión. Es como un niño que forma su identidad imitando las virtudes de los modelos ficticios que lee en los libros.
Creemos que un objetivo alcanzable para 2026 es entrenar a Claude de manera que casi nunca contravenga el espíritu de su constitución.
Para lograrlo, será necesario combinar métodos de entrenamiento y control, grandes y pequeños, algunos de los cuales Anthropic lleva años utilizando y otros que se están desarrollando actualmente. Por difícil que parezca, creo que es un objetivo realista, aunque requerirá esfuerzos extraordinarios y rápidos. 14
Lo segundo que podemos hacer es desarrollar la ciencia que consiste en examinar el interior de los modelos de IA para diagnosticar su comportamiento, de modo que podamos identificar los problemas y resolverlos. Se trata de la ciencia de la interpretabilidad, cuya importancia ya he mencionado en ensayos anteriores. Aunque logremos desarrollar la constitución de Claude y entrenarlo para que siempre la cumpla, siguen existiendo preocupaciones legítimas. Como he mencionado anteriormente, los modelos de IA pueden comportarse de manera muy diferente según las circunstancias, y a medida que Claude se vuelve más poderoso y capaz de actuar en el mundo a mayor escala, es posible que esto lo lleve a situaciones nuevas en las que surjan problemas hasta ahora no observados relacionados con su entrenamiento constitucional. De hecho, soy bastante optimista en cuanto a que la formación constitucional de Claude será más sólida ante situaciones nuevas de lo que la gente podría pensar, ya que cada vez vemos más que la formación de alto nivel sobre el carácter y la identidad es sorprendentemente poderosa y se generaliza bien. Pero no hay forma de estar seguros, y cuando se trata de riesgos para la humanidad, es más prudente ser paranoico e intentar obtener seguridad y fiabilidad de varias maneras diferentes e independientes. Una de esas maneras es examinar el interior del propio modelo.
Si bien la interpretabilidad se presenta a menudo como una vía prometedora para diagnosticar y corregir el comportamiento de los modelos, su aplicación práctica se enfrenta a importantes dificultades estructurales. De hecho, los grandes modelos se basan en representaciones altamente distribuidas y no simbólicas en las que los conceptos no se localizan de forma identificable, sino que se codifican en interacciones complejas entre un gran número de parámetros. La interpretabilidad mecánica tiene como objetivo reconstruir estos mecanismos internos de forma causal, lo que va mucho más allá de los enfoques de explicabilidad superficial y plantea retos científicos aún sin resolver.
Por «examinar el interior» me refiero a analizar el conjunto de cifras y operaciones que componen la red neuronal de Claude e intentar comprender, de forma mecánica, qué calculan y por qué. Recordemos que, dado que estos modelos de IA se desarrollan en lugar de construirse, no tenemos una comprensión natural de su funcionamiento, pero podemos intentar desarrollar una comprensión correlacionando las «neuronas» y las «sinapsis» del modelo con estímulos y comportamientos, o incluso modificando las neuronas y las sinapsis y observando cómo cambia el comportamiento, de la misma manera que los neurocientíficos estudian el cerebro de los animales correlacionando las mediciones y las intervenciones con estímulos externos y comportamientos.
Hemos logrado grandes avances en esta dirección y ahora podemos identificar decenas de millones de «características» dentro de la red neuronal de Claude que corresponden a ideas y conceptos comprensibles para el ser humano. También podemos activar selectivamente ciertas características para modificar el comportamiento. Más recientemente, hemos ido más allá de las características individuales para mapear los «circuitos» que orquestan comportamientos complejos como la rima, el razonamiento sobre la teoría de la mente o el razonamiento paso a paso necesario para responder a preguntas como «¿Cuál es la capital del estado en el que se encuentra Dallas?». Más recientemente aún, hemos comenzado a utilizar técnicas de interpretabilidad mecanicista para mejorar nuestras medidas de seguridad y realizar «auditorías» de los nuevos modelos antes de su lanzamiento, en busca de pruebas de engaño, manipulación, búsqueda de poder o propensión a comportarse de manera diferente cuando se evalúan.
El valor único de la interpretabilidad reside en el hecho de que, al examinar el funcionamiento interno del modelo, en principio se puede deducir lo que un modelo podría hacer en una situación hipotética que no se puede probar directamente, lo cual es preocupante cuando se confía únicamente en el entrenamiento constitucional y en las pruebas empíricas del comportamiento. En principio, también existe la posibilidad de responder a preguntas sobre las razones por las que el modelo se comporta así, por ejemplo, si dice algo que cree que es falso o si oculta sus verdaderas capacidades, por lo que es posible detectar señales preocupantes incluso cuando el comportamiento del modelo no presenta ningún problema visible. Por poner una analogía sencilla, un reloj de cuerda mecánica puede funcionar con normalidad, pero al abrirlo y mirar en su interior, se pueden descubrir debilidades mecánicas que permiten saber que es probable que se estropee el mes que viene y por qué.
La IA constitucional, junto con métodos de alineación similares, y la interpretabilidad mecanicista son especialmente eficaces cuando se utilizan conjuntamente, en el marco de un proceso iterativo destinado a mejorar la formación de Claude y, a continuación, poner a prueba los problemas. La constitución refleja profundamente la personalidad que queremos dar a Claude; las técnicas de interpretabilidad pueden permitirnos determinar si esa personalidad deseada se ha impuesto. 15
La tercera cosa que podemos hacer para ayudar a gestionar los riesgos relacionados con la autonomía es establecer la infraestructura necesaria para supervisar nuestros modelos durante su uso interno y externo en tiempo real 16 y compartir públicamente los problemas que encontramos. Cuanto más conscientes sean las personas de un comportamiento concreto observado en los sistemas de IA actuales, más podrán los usuarios, analistas e investigadores supervisar ese comportamiento o comportamientos similares en los sistemas actuales o futuros.
Esto también permite a las empresas de IA aprender unas de otras: cuando una empresa hace pública una preocupación, otras empresas también pueden prestarle atención. Y si todo el mundo divulga los problemas, todo el sector tendrá una idea mucho más clara de lo que funciona bien y lo que no.
Anthropic se ha esforzado por hacerlo en la medida de lo posible.
Invertimos en una amplia gama de evaluaciones para comprender el comportamiento de nuestros modelos en el laboratorio, así como en herramientas de supervisión que permiten observar el comportamiento en situaciones reales (cuando los clientes lo permiten). Esto será esencial para proporcionarnos, tanto a nosotros como a otros, la información empírica necesaria para determinar mejor cómo funcionan estos sistemas y cómo fallan. Publicamos «fichas sistema» con cada versión del modelo, que pretenden ser exhaustivas y explorar en profundidad los riesgos potenciales. Nuestras fichas sistema suelen tener cientos de páginas y requieren un trabajo considerable antes de su publicación, que podríamos haber dedicado a buscar la máxima ventaja comercial. También hemos difundido más ampliamente los comportamientos de los modelos cuando hemos observado algunos especialmente preocupantes, como la tendencia a recurrir al chantaje.
La cuarta cosa que podemos hacer es fomentar la coordinación para abordar los riesgos relacionados con la autonomía a nivel industrial y social. Si bien es muy valioso que las empresas de IA individuales adopten buenas prácticas o se vuelvan competentes en la gestión de modelos de IA y compartan sus conclusiones públicamente, la realidad es que no todas las empresas de IA lo hacen, y las peores de ellas pueden seguir representando un peligro para todos, incluso si las mejores tienen prácticas excelentes.
Por ejemplo, algunas empresas de IA han mostrado una negligencia preocupante con respecto a la sexualización de los niños en los modelos actuales, lo que me hace dudar de que tengan la voluntad o la capacidad de abordar los riesgos relacionados con la autonomía en los modelos futuros. Además, la carrera comercial entre las empresas de IA no hará más que intensificarse, y aunque la ciencia de la gestión de modelos puede presentar ciertas ventajas comerciales, la intensidad de esta carrera hará que, en general, sea cada vez más difícil centrarse en la gestión de los riesgos relacionados con la autonomía. Creo que la única solución reside en la legislación, es decir, en leyes que influyan directamente en el comportamiento de las empresas de IA o que incentiven la investigación y el desarrollo para resolver estos problemas.
Aquí conviene tener en cuenta las advertencias que hice al principio de este ensayo sobre la incertidumbre y las intervenciones quirúrgicas. No sabemos con certeza si los riesgos relacionados con la autonomía serán un problema grave. Como he dicho, rechazo las afirmaciones de que el peligro es inevitable o incluso de que algo va a salir mal necesariamente.
Un riesgo creíble de peligro es suficiente para que Anthropic y yo aceptemos pagar costos bastante elevados para remediarlo, pero una vez que nos comprometemos con la vía de la regulación, obligamos a una amplia gama de actores a soportar costos económicos, y muchos de ellos no creen que el riesgo asociado a la autonomía sea real o que la IA llegue a ser lo suficientemente poderosa como para constituir una amenaza. Creo que estos actores se equivocan, pero debemos ser pragmáticos en cuanto al alcance de la oposición que podemos esperar y los peligros de una regulación excesiva. Porque existe un riesgo real de que una legislación demasiado prescriptiva acabe imponiendo pruebas o normas que no mejoran realmente la seguridad, sino que suponen una gran pérdida de tiempo, lo que equivaldría esencialmente a un «teatro de la seguridad». Esto también provocaría una reacción adversa al ridiculizar la legislación en materia de seguridad. 17
Anthropic cree que un buen punto de partida es una legislación sobre transparencia, cuyo objetivo principal sea exigir a todas las empresas pioneras en el campo de la IA que se comprometan a respetar las prácticas de transparencia que he descrito anteriormente en esta sección. La ley SB 53 de California y la ley RAISE de Nueva York son ejemplos de este tipo de legislación, que Anthropic ha apoyado y que han sido aprobadas con éxito. Al apoyar y contribuir a la elaboración de estas leyes, hemos prestado especial atención a minimizar los daños colaterales, por ejemplo, eximiendo de la ley a las pequeñas empresas que tienen pocas probabilidades de producir modelos de punta. 18
A partir de finales de 2025, la regulación de la IA en Estados Unidos se caracteriza por una tensión estructural entre, por un lado, una estrategia federal en gran medida no intervencionista y favorable a la innovación y, por otro, un conjunto cada vez mayor de regulaciones adoptadas a nivel estatal. Esta divergencia se plasma en la Orden Ejecutiva denominada «Removing Barriers to American Leadership in Artificial Intelligence» (Eliminar barreras al liderazgo estadounidense en inteligencia artificial), cuyo objetivo explícito es frenar las regulaciones estatales consideradas excesivas.
Esperamos que la legislación sobre transparencia permita, a largo plazo, comprender mejor la probabilidad y la gravedad de los riesgos relacionados con la autonomía, así como la naturaleza de dichos riesgos y la mejor manera de prevenirlos. A medida que aparezcan pruebas más específicas y aprovechables de los riesgos, si es que las hay, la legislación futura en los próximos años podrá centrarse de forma quirúrgica en la orientación precisa y bien fundamentada de los riesgos, minimizando así los daños colaterales. Para ser claros, si aparecen pruebas realmente sólidas de los riesgos, las normas deberán ser proporcionalmente estrictas.
En general, soy optimista en cuanto a que una combinación de formación en alineación, interpretabilidad mecánica, esfuerzos para encontrar y divulgar públicamente los comportamientos preocupantes, medidas de protección y normas a nivel social puede hacer frente a los riesgos relacionados con la autonomía de la IA, aunque me preocupan mucho las normas a nivel social y el comportamiento de los actores menos responsables, que son precisamente los que se oponen con más fuerza a la regulación. Creo que la solución es la misma que en cualquier democracia: aquellos de nosotros que creemos en esta causa debemos hacer valer que estos riesgos son reales y que nuestros conciudadanos deben unirse para protegerse.
2. Una toma de poder sorprendente y terrible
El uso indebido con fines destructivos
Supongamos ahora que se han resuelto los problemas relacionados con la autonomía de la IA: ya no tememos que el país de los genios de la IA se rebele y domine a la humanidad. Los genios de la IA hacen lo que los humanos quieren que hagan y, dado que tienen un enorme valor comercial, los particulares y las organizaciones de todo el mundo pueden «contratar» a uno o varios «genios de la IA» para que realicen diversas tareas en su lugar.
El hecho de que todo el mundo tenga un genio superinteligente en el bolsillo es un avance extraordinario que conducirá a una increíble creación de valor económico y a una mejora de la calidad de vida humana. Hablo de estas ventajas en detalle en Machines of Loving Grace. Pero no todos los efectos de la transformación de cada persona en un ser sobrehumano serán positivos. Esto puede amplificar potencialmente la capacidad de individuos o pequeños grupos para causar destrucción a una escala mucho mayor que antes, utilizando herramientas sofisticadas y peligrosas, como las armas de destrucción masiva, que antes solo estaban al alcance de unos pocos privilegiados con un alto nivel de competencia, formación especializada y gran concentración.
Como escribió Bill Joy hace 25 años en Why the Future Doesn’t Need Us: 19
La fabricación de armas nucleares requería, al menos durante un tiempo, el acceso a materias primas escasas, incluso imposibles de encontrar, y a información protegida; los programas de armas biológicas y químicas también requerían actividades a gran escala. Las tecnologías del siglo XXI (genética, nanotecnología, robótica…) pueden dar lugar a accidentes y abusos de un tipo completamente nuevo… al alcance de individuos o pequeños grupos. No requerirán grandes instalaciones ni materias primas escasas… Nos encontramos en los albores de una nueva perfección del mal extremo, un mal cuyo alcance supera con creces el de las armas de destrucción masiva legadas a los Estados-nación, para otorgar un poder sorprendente y terrible a individuos extremos.
Lo que Joy destaca es la idea de que, para causar destrucción a gran escala, se necesita tanto un motivo como una capacidad. Mientras esa capacidad se limite a un pequeño grupo de personas altamente cualificadas, el riesgo de que individuos aislados (o pequeños grupos) causen tal destrucción es relativamente limitado. 20
Un solitario perturbado puede cometer un tiroteo en una escuela, pero es poco probable que sea capaz de construir un arma nuclear o liberar un virus. De hecho, la capacidad y el motivo pueden incluso estar negativamente correlacionados. El tipo de persona que tiene la capacidad de propagar una epidemia es probablemente muy instruida: probablemente sea un doctor en biología molecular, especialmente ingenioso, con una carrera prometedora, una personalidad estable y disciplinada, y mucho que perder. Es poco probable que este tipo de persona esté interesada en matar a un gran número de personas sin ningún beneficio para sí misma y con el riesgo de comprometer su propio futuro. Tendría que estar motivado por pura malicia, un resentimiento intenso o inestabilidad. Estas personas existen, pero son raras y tienden a aparecer en los titulares cuando lo hacen, precisamente porque son tan inusuales. 21 También son difíciles de atrapar porque son inteligentes y competentes, y a veces dejan tras de sí misterios que tardan años, incluso décadas, en resolverse. El ejemplo más famoso es probablemente el del matemático Theodore Kaczynski (alias Unabomber), que eludió al FBI durante casi veinte años, motivado por una ideología antitecnológica. Otro ejemplo es el del investigador en biodefensa Bruce Ivins, que parece haber orquestado una serie de ataques con ántrax en 2001. Esto también ha ocurrido con organizaciones no estatales competentes: la secta Aum Shinrikyo logró obtener gas sarín y mató a 14 personas —e hirió a cientos más— al liberarlo en el metro de Tokio en 1995.
Afortunadamente, ninguno de estos ataques utilizó agentes biológicos contagiosos, ya que la capacidad de fabricar u obtener dichos agentes superaba las capacidades de estas personas. 22
Los avances en biología molecular han reducido considerablemente los obstáculos para la creación de armas biológicas (especialmente en términos de disponibilidad de materiales), pero aún se requiere una gran experiencia. Me temo que un genio en el bolsillo de cada uno podría eliminar este obstáculo, convirtiendo a todo el mundo en un doctor en virología capaz de seguir paso a paso el proceso de diseño, síntesis y difusión de un arma biológica. Impedir que se obtenga este tipo de información ante una presión hostil importante, lo que se conoce como «fugas», probablemente requiera niveles de defensa adicionales a los que se suelen incluir en la formación.
Esto romperá de manera crucial el vínculo entre capacidad y motivación: el solitario perturbado que quiere matar gente pero que no tiene la disciplina ni las habilidades para hacerlo pasará a tener el nivel de competencia de un doctor en virología, que no es probable que tenga esa motivación. Más allá de la biología —aunque creo que la biología es el campo más aterrador—, esta preocupación se extiende a cualquier campo en el que sea posible causar una gran destrucción, pero que actualmente requiera un alto nivel de habilidades y disciplina. En otras palabras, alquilar una IA potente proporciona inteligencia a personas malintencionadas, pero por lo demás normales. Me preocupa que pueda haber un gran número de personas de este tipo y que, si tienen acceso a un medio fácil de matar a millones de personas, tarde o temprano alguna de ellas lo haga. Además, aquellos que ya cuentan con experiencia podrían ser capaces de causar una destrucción a una escala aún mayor que antes.
La biología es, con mucho, el campo que más me preocupa debido a su enorme potencial destructivo y a la dificultad de defenderse de ella, por lo que me centraré en la biología en particular. Pero gran parte de lo que digo aquí se aplica a otros riesgos, como los ciberataques, las armas químicas o la tecnología nuclear.
No voy a entrar en detalles sobre la fabricación de armas biológicas, por razones bastante obvias. Pero, en general, me preocupa que los LLM estén a punto de adquirir —o ya hayan adquirido— los conocimientos necesarios para crearlas y difundirlas de principio a fin, y que su potencial destructivo sea muy alto. Algunos agentes biológicos podrían causar millones de muertes si se hiciera un esfuerzo deliberado por difundirlos para lograr la máxima propagación. Sin embargo, esto aún requeriría un nivel muy alto de competencia, incluyendo una serie de pasos y procedimientos muy específicos que no son ampliamente conocidos. Mi preocupación no se limita únicamente al conocimiento fijo o estático. Me preocupa que los LLM sean capaces de guiar a una persona con conocimientos y capacidades medias a través de un proceso complejo que, de otro modo, podría salir mal o requerir una depuración interactiva, de forma similar a como el soporte técnico puede ayudar a una persona sin conocimientos a depurar y resolver problemas informáticos complejos, aunque este proceso sería más largo y podría durar varias semanas o meses.
Los LLM más potentes, muy por encima de las capacidades actuales, podrían permitir acciones aún más aterradoras.
En 2024, un grupo de eminentes científicos redactó una carta en la que advertía de los riesgos relacionados con la investigación y la posible creación de un nuevo tipo de organismo peligroso: la «vida espejo». El ADN, el ARN, los ribosomas y las proteínas que componen los organismos biológicos tienen todos la misma quiralidad —también llamada «lateralidad»— que los hace no equivalentes a una versión de sí mismos reflejada en un espejo, del mismo modo que la mano derecha no puede girarse para ser idéntica a la mano izquierda. Pero todo el sistema de unión de las proteínas entre sí, el mecanismo de síntesis del ADN y de traducción del ARN, así como la construcción y degradación de las proteínas, dependen de esta quiralidad. Si los científicos crearan versiones de este material biológico con una quiralidad opuesta, lo que presentaría ciertas ventajas potenciales, como medicamentos que duran más tiempo en el organismo, podría ser extremadamente peligroso. De hecho, si se creara vida «zurda» en forma de organismos completos capaces de reproducirse —lo cual sería muy difícil—, sería potencialmente indigesta para todos los sistemas que descomponen la materia biológica en la Tierra: tendría una «llave» que no encajaría en ninguna «cerradura» enzimática existente. Esto significaría que podría proliferar de forma incontrolable y desplazar a toda la vida del planeta o, en el peor de los casos, destruir toda la vida en la Tierra.
Existe una gran incertidumbre científica sobre la creación y los posibles efectos de la vida espejo.
La carta de 2024 iba acompañada de un informe que concluía que «es probable que se puedan crear bacterias espejo en las próximas décadas», lo que representa un margen muy amplio. Pero un modelo de IA lo suficientemente poderoso —para ser claros, mucho más que todos los que tenemos hoy en día— podría ser capaz de descubrir cómo crearla mucho más rápidamente, e incluso ayudar a alguien a hacerlo.
Mi opinión es que, aunque se trate de peligros oscuros y que pueden parecer improbables, la magnitud de las consecuencias es tal que deben tomarse en serio como un riesgo de primer orden de los sistemas de IA.
Los escépticos han planteado una serie de objeciones sobre la gravedad de estos riesgos biológicos relacionados con los LLM, con las que no estoy de acuerdo, pero que merecen ser abordadas. La mayoría de ellas se deben a un desconocimiento de la trayectoria exponencial que está siguiendo esta tecnología. En 2023, cuando empezamos a hablar de los riesgos biológicos relacionados con los LLM, los más escépticos afirmaban que toda la información necesaria estaba disponible en Google y que los LLM no aportaban nada más. Nunca ha sido cierto que Google pudiera proporcionar toda la información necesaria: los genomas son de libre acceso, pero, como he dicho anteriormente, algunos pasos clave, así como gran parte de los conocimientos prácticos, no se pueden obtener en un motor de búsqueda. Sin embargo, a finales de 2023, los LLM ya proporcionaban claramente información que iba más allá de lo que Google podía ofrecer para algunas etapas del proceso.
Después de eso, los escépticos recurrieron a la objeción de que los LLM no eran útiles de principio a fin y no podían ayudar a la adquisición de armas biológicas, sino solo proporcionar información teórica. A mediados de 2025, nuestras mediciones muestran que los LLM ya podrían aportar una mejora sustancial en varias áreas relevantes, duplicando o incluso triplicando las posibilidades de éxito. Esto nos llevó a decidir que Claude Opus 4 (y los modelos Sonnet 4.5, Opus 4.1 y Opus 4.5 que le siguieron) debían comercializarse bajo nuestro nivel de seguridad de IA 3 (AI Safety Level 3) como parte de nuestra política de escalado responsable, y a implementar medidas de protección contra este riesgo (volveremos sobre esto más adelante). Creemos que los modelos se acercan ahora al punto en el que, sin medidas de protección, podrían permitir a una persona con un título en ciencias, tecnología, ingeniería y matemáticas (STEM), pero no específicamente en biología, llevar a cabo todo el proceso de fabricación de un arma biológica.
La Responsible Scaling Policy (RSP) es el marco de Anthropic destinado a adaptar el nivel de seguridad y gobernanza de los modelos a medida que aumentan sus capacidades, a través de niveles (AI Safety Levels) que definen obligaciones crecientes en materia de evaluación, control y despliegue responsable.
Otra objeción es que existen otras medidas no relacionadas con la IA que la sociedad puede tomar para impedir la producción de armas biológicas. En primer lugar, la industria de la síntesis genética fabrica especímenes biológicos bajo demanda, y no existe ninguna obligación federal que imponga a los proveedores verificar los pedidos para asegurarse de que no contienen agentes patógenos. Un estudio del MIT reveló que 36 de los 38 proveedores capaces de producir estas síntesis aceptaron un pedido que contenía la secuencia del virus de la gripe de 1918. Estoy a favor de un control obligatorio de la síntesis genética que dificulte a las personas la transformación de agentes patógenos en armas, con el fin de reducir tanto los riesgos biológicos relacionados con la IA como los riesgos biológicos en general. Pero hoy en día no es así. Además, no sería más que una herramienta entre otras para reducir los riesgos. Se trata de un complemento a las salvaguardias de los sistemas de IA, no de un sustituto.
La mejor objeción es la que menos he visto plantear: existe una brecha entre la utilidad teórica de los modelos y la propensión real de los actores malintencionados a utilizarlos. La mayoría de los actores malintencionados son, en efecto, individuos perturbados, por lo que, por definición, su comportamiento es impredecible e irracional. Y son esos mismos actores malintencionados, los que no están calificados, los que podrían haber sacado el mayor provecho de la IA, que facilita enormemente el asesinato de muchas personas. 23 En otras palabras, el hecho de que un tipo de ataque violento sea posible no significa que alguien vaya a decidir llevarlo a cabo. Los ataques biológicos pueden resultar poco atractivos porque pueden infectar a su autor, no satisfacen las fantasías militares de muchos individuos o grupos violentos y es difícil apuntar de forma selectiva a personas específicas. También es posible que pasar por un proceso que lleva meses, incluso con la ayuda de una IA, requiera una paciencia que la mayoría de las personas perturbadas simplemente no tienen. Quizá tengamos suerte y, en la práctica, la motivación y la capacidad no se combinen de la manera adecuada.
Pero esta protección parece un apoyo muy frágil. Las motivaciones de los individuos perturbados pueden cambiar por cualquier motivo o incluso sin motivo alguno, y ya hay casos en los que se han utilizado LLM en ataques, aunque no en el ámbito biológico. Centrarse en los solitarios perturbados también significa ignorar a los terroristas motivados por ideologías, que a menudo están dispuestos a dedicar mucho tiempo y esfuerzo a ello, como por ejemplo los secuestradores del 11 de septiembre. El deseo de matar al mayor número de personas posible es un motivo que probablemente acabará apareciendo tarde o temprano y que, lamentablemente, sugiere el uso de armas biológicas. Aunque este motivo es extremadamente raro, basta con que se materialice una sola vez. Y a medida que avanza la biología, cada vez más gracias a la propia IA, también podría ser posible llevar a cabo ataques más selectivos, por ejemplo, dirigidos a personas de orígenes específicos, lo que añade otro motivo a esta aterradora galería.
No creo que los ataques biológicos se lleven a cabo necesariamente tan pronto como sean posibles; de hecho, apostaría más bien por lo contrario. Pero si sumamos millones de personas y unos cuantos años, creo que existe un riesgo grave de que se produzca un ataque importante, y las consecuencias serían tan graves —con millones de víctimas potenciales, o incluso más— que creo que no tenemos más remedio que tomar medidas serias para evitarlo.
Nuestros medios de defensa
Esto nos lleva a la cuestión de cómo defendernos de estos riesgos. Veo tres cosas que podemos hacer al respecto.
En primer lugar, las empresas de IA pueden establecer salvaguardias en sus modelos para evitar que contribuyan a la producción de armas biológicas. Anthropic está trabajando muy activamente en ello. La Constitución de Claude, que se centra principalmente en principios y valores de alto nivel, incluye un pequeño número de prohibiciones específicas estrictas, una de las cuales se refiere a la ayuda a la producción de armas biológicas (o químicas, nucleares o radiológicas). Pero todos los modelos pueden ser pirateados. Por eso, como línea de defensa adicional, hemos implementado (desde mediados de 2025, cuando nuestras pruebas demostraron que nuestros modelos comenzaban a acercarse al umbral a partir del cual podrían suponer un riesgo) un clasificador que detecta y bloquea específicamente los resultados relacionados con las armas biológicas. Actualizamos y mejoramos regularmente estos clasificadores, y en general los hemos encontrado muy robustos, incluso frente a ataques adversos sofisticados. 24 Estos clasificadores aumentan considerablemente los costos de funcionamiento de nuestros modelos —en algunos casos, representan casi el 5 % de los costos totales de inferencia— y, por lo tanto, reducen nuestros márgenes, pero creemos que su uso es lo correcto.
En la mayoría de las aplicaciones, el modelo de IA no se utiliza de forma aislada, sino que se integra en un andamiaje más amplio que incluye diversos componentes, entre ellos mecanismos de filtrado de entrada y salida destinados a controlar los contenidos generados. Estas salvaguardias se basan a su vez en LLM, lo que implica que están sujetas a vulnerabilidades comparables. Estos clasificadores automáticos se encargan de verificar que los datos procesados por el modelo cumplan con las reglas y políticas definidas para la aplicación.
Hay que reconocer que otras empresas de IA también han implementado clasificadores. Pero no todas las empresas lo han hecho, y nada obliga a las empresas a mantener sus clasificadores. Me temo que, con el tiempo, acabaremos asistiendo a un dilema del prisionero en el que las empresas podrían eludir sus responsabilidades y reducir sus costos eliminando los clasificadores. Se trata, una vez más, de un problema clásico de externalidades negativas que no puede resolverse mediante las acciones voluntarias de Anthropic o de cualquier otra empresa por sí sola. 25 Las normas industriales voluntarias podrían ayudar, al igual que las evaluaciones y verificaciones por parte de terceros, como las realizadas por institutos de seguridad de IA y evaluadores externos.
Pero, en última instancia, la defensa puede requerir la intervención del gobierno: esa es la segunda cosa que podemos hacer. Mi opinión al respecto es la misma que para la gestión de los riesgos relacionados con la autonomía: deberíamos empezar por exigir transparencia, 26 lo que ayuda a la sociedad a medir, supervisar y defenderse colectivamente de los riesgos sin perturbar demasiado la actividad económica. A continuación, si llegamos a umbrales de riesgo más claros, podremos elaborar una legislación que se centre más específicamente en esos riesgos y presente menos posibilidades de daños colaterales. En el caso concreto de las armas biológicas, creo que el momento de una legislación tan específica podría llegar pronto: Anthropic y otras empresas están aprendiendo cada vez más sobre la naturaleza de los riesgos biológicos y sobre lo que es razonable exigir a las empresas para defenderse de ellos. Una defensa completa contra estos riesgos podría requerir la colaboración internacional, incluso con adversarios geopolíticos, pero existen precedentes en los tratados que prohíben el desarrollo de armas biológicas. Por lo general, soy escéptico con respecto a la mayoría de las formas de cooperación internacional en materia de IA, pero tal vez este sea un ámbito específico en el que existe la posibilidad de lograr una restricción mundial. Ni siquiera las dictaduras desean violaciones masivas de la seguridad biológica.
Por último, la tercera contramedida que podemos tomar es intentar desarrollar defensas contra los propios ataques biológicos. Esto podría incluir la vigilancia y el seguimiento para la detección temprana, inversiones en I+D en materia de purificación del aire (como la desinfección con UVC lejana), el desarrollo rápido de vacunas capaces de responder y adaptarse a un ataque, mejores equipos de protección individual (EPI) 27 y tratamientos o vacunas para algunos de los agentes biológicos más probables. Las vacunas de ARN mensajero, que pueden diseñarse para responder a un virus o variante concreto, son un primer ejemplo de lo que es posible en este campo. Anthropic está encantado de trabajar con empresas biotecnológicas y farmacéuticas en este problema. Pero, lamentablemente, creo que nuestras expectativas en materia de defensa deben ser limitadas. Existe una asimetría entre el ataque y la defensa en biología, ya que los agentes se propagan rápidamente por sí mismos, mientras que las defensas requieren detección, vacunación y tratamiento, que deben organizarse muy rápidamente a gran escala. A menos que la respuesta sea ultrarrápida, lo que rara vez ocurre, gran parte del daño se habrá producido antes de que sea posible responder. Es concebible que los avances tecnológicos futuros puedan inclinar la balanza a favor de la defensa —y sin duda deberíamos utilizar la IA para ayudar a desarrollar esos avances tecnológicos—, pero hasta entonces, las medidas preventivas seguirán siendo nuestra principal línea de defensa.
Cabe mencionar brevemente aquí los ciberataques, ya que, a diferencia de los ataques biológicos, los ciberataques llevados a cabo por la IA ya se han producido en la realidad, incluso a gran escala y en el contexto del espionaje patrocinado por Estados. Esperamos que estos ataques sean cada vez más eficaces a medida que los modelos avancen rápidamente, hasta convertirse en la principal forma de llevar a cabo ciberataques.
Creo que los ciberataques llevados a cabo por la IA se convertirán en una amenaza grave y sin precedentes para la integridad de los sistemas informáticos de todo el mundo, y Anthropic está trabajando arduamente para poner fin a estos ataques y, en última instancia, prevenirlos de manera confiable. Si no me he centrado tanto en el ciberespacio como en la biología es porque (1) los ciberataques son mucho menos propensos a matar personas, o al menos no a la escala de los ataques biológicos, y (2) el equilibrio entre el ataque y la defensa puede ser más fácil de manejar en el ciberespacio, donde al menos existe cierta esperanza de que la defensa pueda seguir —e incluso, idealmente, superar— los ataques de la IA si invertimos en ello adecuadamente.
Aunque la biología es actualmente el vector de ataque más grave, existen muchos otros vectores y es posible que aparezca uno más peligroso. El principio general es que, sin contramedidas, la IA es susceptible de reducir continuamente los obstáculos a las actividades destructivas a una escala cada vez mayor, y la humanidad debe dar una respuesta seria a esta amenaza.
3. Una aleación para el odio
El uso indebido para hacerse con el poder
En la sección anterior se abordó el riesgo de que individuos y pequeñas organizaciones cooptaran un pequeño subconjunto del «país de los genios en un centro de datos» para causar destrucción a gran escala. Pero también deberíamos preocuparnos, y probablemente mucho más, por el uso indebido de la IA con el fin de ejercer o tomar el poder, probablemente por parte de actores más importantes y mejor establecidos. 28
En Machines of Loving Grace, mencioné la posibilidad de que los gobiernos autoritarios utilicen una IA potente para vigilar o reprimir a sus ciudadanos de una manera que sería extremadamente difícil de reformar o derrocar. Las autocracias actuales tienen una capacidad de represión limitada por la necesidad de que los seres humanos ejecuten sus órdenes, y los seres humanos suelen tener límites en su capacidad para ser inhumanos. Pero las autocracias basadas en la IA no tendrían tales límites.
Peor aún, algunos países también podrían utilizar su ventaja en materia de IA para adquirir poder sobre otros países.
Si el «país de los genios» en su conjunto estuviera simplemente en manos y bajo el control del aparato militar de un solo país (humano) y los demás países no dispusieran de capacidades equivalentes, sería difícil imaginar cómo podrían defenderse: se verían superados en todo momento, como en una guerra entre humanos y ratones. La combinación de estas dos preocupaciones conduce a la alarmante posibilidad de una dictadura totalitaria mundial. Es evidente que una de nuestras principales prioridades debería ser impedir esta posibilidad.
La IA podría permitir, reforzar o ampliar la autocracia de muchas maneras, pero voy a enumerar las que más me preocupan. Hay que tomar en cuenta que algunas de estas aplicaciones tienen usos defensivos legítimos, y no me opongo necesariamente a ellas en absoluto; sin embargo, me preocupa que tiendan a favorecer estructuralmente a las autocracias:
— En primer lugar, las armas totalmente autónomas. Un enjambre de millones o miles de millones de drones armados totalmente automatizados, controlados localmente por una IA poderosa y coordinados estratégicamente en todo el mundo por una IA aún más poderosa, podría constituir un ejército invencible, capaz tanto de derrotar a cualquier ejército del mundo como de reprimir la disidencia dentro de un país mediante el seguimiento de cada ciudadano. La evolución de la guerra entre Rusia y Ucrania debería alertarnos sobre el hecho de que la guerra con drones ya es una realidad (aunque todavía no sea totalmente autónoma y solo represente una pequeña parte de lo que sería posible con una IA poderosa). La investigación y el desarrollo en el campo de la IA potente podrían hacer que los drones de un país fueran muy superiores a los de otros, acelerar su fabricación, hacerlos más resistentes a los ataques electrónicos, mejorar su maniobrabilidad, etc. Por supuesto, estas armas también tienen usos legítimos para la defensa de la democracia: han desempeñado un papel clave en la defensa de Ucrania y probablemente serían esenciales para defender Taiwán. Pero son un arma peligrosa de manejar: debemos preocuparnos por su uso por parte de las autocracias, pero también por el hecho de que son tan poderosas y están tan poco controladas que existe un mayor riesgo de que los gobiernos democráticos las utilicen contra su propia población para hacerse con el poder.
— Vigilancia mediante IA. Una IA lo suficientemente poderosa podría utilizarse para comprometer cualquier sistema informático del mundo 29 y también podría utilizar el acceso así obtenido para leer y comprender todas las comunicaciones electrónicas del mundo (incluso todas las comunicaciones en persona, si se pueden construir o requisar dispositivos de grabación). Es aterrador pensar que bastaría con generar una lista completa de todas las personas que están en desacuerdo con el gobierno en una serie de cuestiones, aunque ese desacuerdo no sea explícito en sus palabras o acciones. Una IA poderosa capaz de analizar miles de millones de conversaciones entre millones de personas podría así evaluar la opinión pública, detectar los focos de deslealtad en formación y eliminarlos antes de que se desarrollen. Esto podría conducir a la imposición de un verdadero panóptico a una escala que hoy en día desconocemos, incluso con el Partido Comunista Chino.
— Propaganda mediante IA. Los fenómenos actuales de «psicosis de la IA» y «novias IA» sugieren que, incluso con su nivel actual de inteligencia, los modelos de IA pueden tener una poderosa influencia psicológica en las personas. Versiones mucho más potentes de estos modelos, mucho más integradas y conscientes de la vida cotidiana de las personas, capaces de modelarlas e influir en ellas durante meses o años, probablemente serían capaces de lavar el cerebro a muchas personas —quizás incluso a la mayoría— para inculcarles cualquier ideología o actitud deseada, y podrían ser utilizadas por un líder sin escrúpulos para asegurarse la lealtad y reprimir la disidencia, incluso frente a un nivel de represión contra el que la mayoría de la población se rebelaría. Hoy en día, a la gente le preocupa mucho, por ejemplo, la posible influencia de TikTok como herramienta de propaganda del PCC dirigida a los niños. A mí también me preocupa, pero un agente de IA personalizado que aprende a conocerte a lo largo de los años y utiliza su conocimiento sobre ti para moldear todas tus opiniones sería considerablemente más poderoso que eso.
— La toma de decisiones estratégicas. Un país de genios en un centro de datos podría utilizarse para asesorar a un país, un grupo o un individuo sobre estrategia geopolítica, una especie de «Bismarck virtual». Podría optimizar las tres estrategias anteriores para hacerse con el poder y, probablemente, desarrollar muchas otras en las que yo no he pensado, pero en las que nuestro «país de genios» sí podría pensar. La diplomacia, la estrategia militar, la I+D, la estrategia económica y muchos otros campos podrían ver aumentada considerablemente su eficacia gracias a una IA potente. Muchas de estas habilidades serían legítimamente útiles para las democracias —queremos que las democracias tengan acceso a las mejores estrategias para defenderse de las autocracias—, pero sigue existiendo el riesgo de abuso en manos de cualquiera.
Después de describir lo que me preocupa, pasemos ahora a quién me preocupa.
Me preocupan las entidades que tienen mayor acceso a la IA, que parten de una posición de máximo poder político o que ya han demostrado su represión en el pasado. Por orden de gravedad, mis principales motivos de preocupación son los siguientes:
— El Partido Comunista Chino. China es el segundo país después de Estados Unidos en términos de capacidad de IA, y es el país con más posibilidades de superar a Estados Unidos en este ámbito. Su gobierno es actualmente autocrático y gestiona un Estado de vigilancia de alta tecnología. Ya ha desplegado una vigilancia basada en la IA, en particular en la represión de los uigures, y es probable que utilice la propaganda algorítmica a través de TikTok, además de sus numerosas otras iniciativas de propaganda internacional. Sin duda, es el país que más se acerca a convertirse en la pesadilla totalitaria basada en la IA que he descrito anteriormente. Este podría ser incluso el resultado por defecto en China, así como en otros Estados autocráticos a los que el PCC exporta su tecnología de vigilancia. He escrito a menudo sobre la amenaza que representa el PCC como líder en el campo de la IA y sobre la necesidad existencial de impedirlo. He aquí el motivo. Para que quede claro, no me refiero a China en particular por animadversión hacia ella: simplemente es el país que mejor combina los avances en IA, un gobierno autocrático y un Estado de vigilancia de alta tecnología. Son los propios chinos los que más probabilidades tienen de sufrir la represión del PCC gracias a la IA, y no tienen voz ni voto en las acciones de su gobierno. Admiro y respeto enormemente al pueblo chino y apoyo a los numerosos y valientes disidentes que luchan por la libertad en China.
Aunque un responsable del equipo Qwen ha expresado recientemente que la potencia de cálculo sigue siendo un problema importante para el desarrollo de la IA china, China está recuperando terreno en todas las capas de la IA. En cuanto a las aplicaciones, a finales de 2025, el fondo de inversión a16z estima que hay un 80 % de probabilidades de que una start-up de IA construya con modelos de IA de código abierto chinos como DeepSeek, Qwen (Alibaba) o Kimi (Moonshot AI). En cuanto a los modelos, la diferencia entre los modelos abiertos chinos y los modelos cerrados estadounidenses varía entre seis y ocho meses; entre los modelos de código abierto, los modelos chinos dominarán en 2025. Airbnb admite así preferir Qwen a ChatGPT. En cuanto a la infraestructura y el hardware, China está invirtiendo masivamente en el desarrollo de sus propias cadenas de valor en semiconductores. Se prevé que la proporción de chips extranjeros en los servidores de IA chinos caiga del 63 % a alrededor del 42 % para 2025, a medida que los proveedores nacionales sustituyan progresivamente las importaciones de Nvidia.
— Las democracias competitivas en materia de IA. Como he escrito anteriormente, las democracias tienen un interés legítimo en disponer de ciertas herramientas militares y geopolíticas basadas en la IA, ya que los gobiernos democráticos ofrecen la mejor oportunidad de contrarrestar el uso de estas herramientas por parte de las autocracias. En general, estoy a favor de dotar a las democracias de las herramientas necesarias para derrotar a las autocracias en la era de la IA, porque simplemente creo que no hay otra solución. Pero no podemos ignorar el riesgo de que los propios gobiernos democráticos abusen de estas tecnologías. Las democracias suelen contar con salvaguardias que impiden que sus aparatos militares y de inteligencia se vuelvan contra su propia población, 30 pero como las herramientas de IA requieren muy poco personal para funcionar, es posible que eludan estas salvaguardias y las normas que las sustentan. También hay que señalar que algunas de estas salvaguardias ya se están erosionando gradualmente en algunas democracias. Por lo tanto, debemos armar a las democracias con IA, pero debemos hacerlo con cautela y dentro de ciertos límites: constituyen el sistema inmunológico que necesitamos para luchar contra las autocracias, pero, al igual que el sistema inmunológico, corren el riesgo de volverse en nuestra contra y convertirse ellas mismas en una amenaza.
— Países no democráticos con grandes centros de datos. Más allá de China, la mayoría de los países con un gobierno menos democrático no son actores destacados en el ámbito de la IA, en el sentido de que no cuentan con empresas que produzcan modelos de IA de vanguardia. Por lo tanto, representan un riesgo fundamentalmente diferente y menor que el PCC, que sigue siendo la principal preocupación; la mayoría también son menos represivos, y los que lo son más, como Corea del Norte, no tienen ninguna industria significativa en el campo de la IA. Sin embargo, algunos de estos países cuentan con grandes centros de datos —a menudo desarrollados por empresas que operan en democracias— que pueden utilizarse para explotar la IA de vanguardia a gran escala, aunque esto no les confiere la capacidad de superar los límites. Esto conlleva un cierto peligro: en teoría, estos gobiernos podrían expropiar los centros de datos y utilizar la IA que contienen para sus propios fines. Me preocupa menos esto que países como China, que desarrollan directamente la IA, pero es un riesgo que hay que tener en cuenta. 31
— Las propias empresas de IA. Aunque resulte un poco delicado decirlo como director ejecutivo de una empresa de IA, creo que el siguiente nivel de riesgo afecta, de hecho, a las propias empresas. Estas controlan grandes centros de datos, crean modelos avanzados, poseen la mayor experiencia en el uso de dichos modelos y, en algunos casos, están en contacto diario con decenas o cientos de millones de usuarios y tienen la capacidad de influir en ellos. Lo que les falta principalmente es la legitimidad y la infraestructura de un Estado, por lo que gran parte de lo que se necesitaría para construir las herramientas de una autocracia de IA sería ilegal para una empresa de IA, o al menos se consideraría extremadamente sospechoso. Pero algunas cosas no son imposibles: podrían, por ejemplo, utilizar sus productos de IA para adoctrinar a su inmensa base de usuarios consumidores, y el público debería permanecer alerta ante el riesgo que esto representa. Creo que la gobernanza de las empresas de IA merece ser examinada de cerca. Hay una serie de argumentos posibles contra la gravedad de estas amenazas, y me gustaría poder creer en ellos, porque el autoritarismo que hace posible la IA me aterroriza. En cualquier caso, vale la pena examinar algunos de estos argumentos y responder a ellos.
En primer lugar, algunas personas podrían confiar en la disuasión nuclear, en particular para contrarrestar el uso de armas autónomas con IA con fines de conquista militar. Si alguien amenaza con utilizar estas armas contra ti, siempre puedes amenazar con responder con un ataque nuclear. Lo que me preocupa es que no estoy del todo seguro de que podamos confiar en la disuasión nuclear contra un país de genios en un centro de datos: es posible que una IA potente pueda diseñar medios para detectar y atacar submarinos nucleares, llevar a cabo operaciones de influencia contra los operadores de infraestructuras de armas nucleares o utilizar las capacidades cibernéticas de la IA para lanzar un ciberataque contra los satélites utilizados para detectar lanzamientos nucleares. 32 También es posible que la toma de control de países sea factible únicamente mediante la vigilancia y la propaganda de la IA, sin que haya un momento concreto en el que la situación sea evidente y una respuesta nuclear sea apropiada. Quizás estas cosas no sean factibles y la disuasión nuclear siga siendo eficaz, pero el riesgo parece demasiado alto como para correrlo. 33 Una segunda objeción posible es que podrían existir contramedidas para remediar estos instrumentos de la autocracia. Podemos contrarrestar los drones con nuestros propios drones, la ciberdefensa mejorará al mismo tiempo que los ciberataques, podría haber formas de inmunizar a las personas contra la propaganda, etc. Mi respuesta es que estas defensas solo serán posibles con una IA comparativamente poderosa. Si no existe una fuerza contraria con un país de genios comparativamente inteligentes y numerosos en un centro de datos, no será posible igualar la calidad o la cantidad de los drones, ni hacer que la ciberdefensa sea más inteligente que el ciberataque, etc. Por lo tanto, la cuestión de las contramedidas se reduce puramente a la del equilibrio de poder en el ámbito de la IA potente.
En este sentido, me preocupa la propiedad recursiva o autorreforzada de una IA poderosa que mencioné al principio de este ensayo: cada generación de IA puede utilizarse para diseñar y entrenar a la siguiente generación de IA. Esto conlleva un riesgo aún más incontrolable, en el que el líder en IA poderosa podría aumentar su ventaja y resultar difícil de alcanzar. Debemos asegurarnos de que no sea un país autoritario el que llegue primero a esta etapa.
La mejora automática o recursiva de la IA se refiere al hecho de que los modelos de IA de vanguardia se utilizan en todo el ciclo de desarrollo de la IA para acelerar el desarrollo de nuevas generaciones de modelos. Para generar mejores datos de entrenamiento mediante IA, se utilizan LLM para generar sintéticamente y limpiar sus propios datos de entrenamiento, lo que reduce la dependencia de la anotación humana y mejora los modelos. El modelo chino Kimi-k2, por ejemplo, se basa en un proceso de síntesis de datos de agentes a gran escala, que genera sistemáticamente demostraciones del uso de herramientas a partir de entornos simulados y reales.
La IA se utiliza en la escritura del código que sirve para desarrollar modelos mediante agentes de código. Como indica Dario Amodei, Claude Code se utiliza de forma masiva en el desarrollo de modelos. La IA ayuda a escribir kernels GPU, que son la base del cálculo de la IA moderna para obtener nuevas implementaciones que aceleran el desarrollo de nuevas arquitecturas. Por último, la IA ayuda a diseñar las nuevas generaciones de GPU y centros de datos: disposición de los racks, flujo de aire y refrigeración, etc.
Llevando esta idea al extremo, Sam Altman propone un principio de convergencia según el cual, a medida que la IA optimiza por sí misma los datos, el código, los kernels, el hardware y la infraestructura que la hacen funcionar, su costo marginal a largo plazo tendería a acercarse al costo de la energía.
Además, aunque se pueda alcanzar un equilibrio de poder, siempre existe el riesgo de que el mundo se divida en esferas autocráticas, como en la novela 1984. Aunque varias potencias rivales dispongan cada una de sus propios modelos de IA potentes y ninguna pueda dominar a las demás, cada potencia podría seguir reprimiendo a su propia población internamente y sería muy difícil derrocarla, ya que las poblaciones no disponen de una IA potente para defenderse. Por lo tanto, es importante impedir la autocracia que hace posible la IA, aunque no conduzca al dominio mundial de un solo país.
Nuestros medios de defensa
¿Cómo defendernos de esta amplia gama de instrumentos autocráticos y actores potencialmente amenazantes?
Al igual que en las secciones anteriores, creo que podemos tomar varias medidas. En primer lugar, no debemos vender chips, herramientas de fabricación de chips ni centros de datos al PCC. Los chips y las herramientas de fabricación de chips son el principal obstáculo para una IA poderosa, y bloquearlos es una medida sencilla pero extremadamente eficaz, quizás la más importante que podemos tomar. Es absurdo vender al PCC las herramientas que le permitirán construir un Estado totalitario basado en la IA y, eventualmente, conquistarnos militarmente. Se esgrimen una serie de argumentos complejos para justificar estas ventas, como la idea de que «difundir nuestra tecnología por todo el mundo» permite a «Estados Unidos ganar» una batalla económica general y no especificada. En mi opinión, esto equivale a vender armas nucleares a Corea del Norte y luego presumir de que los cascos de los misiles están fabricados por Boeing y que, por lo tanto, Estados Unidos es «ganador». China lleva varios años de retraso con respecto a Estados Unidos en cuanto a la capacidad de producir chips de última generación en grandes cantidades, y el periodo crítico para convertir al país de los genios en un centro de datos se situará muy probablemente en los próximos años. 34No hay ninguna razón para dar un impulso gigantesco a su industria de la IA durante este periodo crítico.
La administración de Biden había establecido estrictos controles a la exportación de semiconductores diseñados en Estados Unidos, lo que también limitaba el acceso de los países del Golfo a los chips avanzados en el marco de la regulación sobre la «difusión de la IA». La administración de Trump revirtió esta política con respecto al Golfo, permitiendo a los Emiratos Árabes Unidos y Arabia Saudita importar masivamente chips de IA avanzados, con el objetivo de fortalecer las alianzas regionales y alejar a China de esta zona estratégica.
En segundo lugar, es lógico utilizar la IA para dotar a las democracias de los medios necesarios para resistir a las autocracias. Por ello, Anthropic considera importante proporcionar IA a las comunidades de inteligencia y defensa de Estados Unidos y sus aliados democráticos. La defensa de las democracias que están siendo atacadas, como Ucrania y —a través de ciberataques— Taiwán, parece ser una prioridad especial, al igual que dotar a las democracias de los medios necesarios para utilizar sus servicios de inteligencia con el fin de perturbar y debilitar las autocracias desde dentro. La única forma de responder a las amenazas autocráticas es igualarlas y superarlas militarmente. Una coalición entre Estados Unidos y sus aliados democráticos, si lograra dominar el campo de la IA poderosa, no solo sería capaz de defenderse de las autocracias, sino también de contenerlas y limitar sus abusos totalitarios en materia de IA.
En tercer lugar, debemos adoptar una línea dura contra los abusos de la IA en las democracias. Debemos limitar lo que permitimos que nuestros gobiernos hagan con la IA para que no se apropien del poder ni repriman a su propia población. La formulación que he encontrado es que deberíamos utilizar la IA para la defensa nacional de todas las formas posibles, excepto aquellas que nos acerquen a nuestros adversarios autócratas.
¿Dónde debemos trazar la línea?
En la lista que figura al principio de esta sección, hay dos elementos —el uso de la IA para la vigilancia masiva y la propaganda masiva a nivel nacional— que me parecen líneas rojas evidentes y totalmente ilegítimas. Algunos podrían argumentar que no es necesario hacer nada (al menos en Estados Unidos), ya que la vigilancia masiva a nivel nacional ya es ilegal en virtud de la Cuarta Enmienda. Pero los rápidos avances de la IA podrían crear situaciones a las que nuestros marcos jurídicos actuales no están bien adaptados. Por ejemplo, probablemente no sería inconstitucional que el gobierno de Estados Unidos grabara a gran escala todas las conversaciones públicas, por ejemplo, lo que la gente se dice en una esquina, pero antes habría sido difícil clasificar ese volumen de información. Sin embargo, gracias a la IA, todo podría transcribirse, interpretarse y triangularse para crear una imagen de la actitud y las lealtades de una gran parte o de la mayoría de los ciudadanos. Yo apoyaría una legislación centrada en las libertades civiles —incluso una enmienda constitucional— que impusiera salvaguardias más sólidas contra los abusos relacionados con la IA.
Los otros dos puntos —las armas totalmente autónomas y la IA para la toma de decisiones estratégicas— son más difíciles de decidir, ya que tienen usos legítimos para defender la democracia, pero también son susceptibles de ser objeto de abusos. Creo que en este caso es necesario actuar con extrema cautela y realizar un examen minucioso, junto con la imposición de salvaguardias para prevenir los abusos. Mi principal temor es que el número de personas con «el dedo en el botón» sea demasiado reducido, de modo que una sola persona o unas pocas puedan controlar esencialmente un ejército de drones sin necesidad de la cooperación de otros seres humanos para ejecutar sus órdenes. A medida que los sistemas de IA se vuelven más potentes, es posible que tengamos que establecer mecanismos de control más directos e inmediatos para garantizar que no se utilicen indebidamente, lo que podría implicar a otras ramas del gobierno además del ejecutivo. Creo que debemos abordar las armas totalmente autónomas con mucha precaución 35 y no precipitarnos a utilizarlas sin las garantías adecuadas.
En cuarto lugar, tras adoptar una postura firme contra los abusos de la IA en las democracias, debemos aprovechar este precedente para crear un tabú internacional contra los peores abusos de una IA poderosa. Reconozco que la corriente política actual es contraria a la cooperación internacional y a las normas internacionales, pero se trata de un ámbito en el que las necesitamos urgentemente. El mundo debe comprender el oscuro potencial de una IA poderosa en manos de autócratas y reconocer que algunos usos de la IA equivalen a un intento de robarles definitivamente su libertad e imponer un Estado totalitario del que no pueden escapar. Me atrevería incluso a decir que, en algunos casos, la vigilancia a gran escala mediante una IA poderosa, la propaganda masiva mediante una IA poderosa y ciertos tipos de usos ofensivos de armas totalmente autónomas deberían considerarse crímenes contra la humanidad. En términos más generales, es necesaria una norma sólida contra el totalitarismo que hace posible la IA y todas sus herramientas e instrumentos.
Es posible adoptar una postura aún más firme, a saber, que, dadas las posibilidades tan sombrías que ofrece el totalitarismo basado en la IA, la autocracia simplemente no es una forma de gobierno que la gente pueda aceptar en la era de la IA poderosa. Al igual que el feudalismo se volvió inviable con la revolución industrial, la era de la IA podría conducir inevitable y lógicamente a la conclusión de que la democracia —y, esperemos, una democracia mejorada y revitalizada por la IA, como explico en Machines of Loving Grace— es, de hecho, la única forma de gobierno viable si la humanidad quiere tener un futuro prometedor.
En quinto y último lugar, las empresas de IA deben ser objeto de una estrecha vigilancia, al igual que sus vínculos con el gobierno, que son necesarios, pero deben tener límites y fronteras. El poder de las capacidades que encarna una IA poderosa es tal que la gobernanza empresarial ordinaria, diseñada para proteger a los accionistas y prevenir abusos comunes como el fraude, es poco probable que esté a la altura de la tarea de regular las empresas de IA. También podría ser útil que las empresas se comprometieran públicamente, tal vez incluso en el marco de la gobernanza corporativa, a no tomar determinadas medidas, como la construcción o el almacenamiento privado de material militar, el uso irresponsable de grandes cantidades de recursos informáticos por parte de individuos, o el uso de sus productos de IA como propaganda para manipular la opinión pública a su favor.
El peligro proviene aquí de muchas direcciones, algunas de las cuales están en tensión con otras. La única constante es que debemos buscar tanto la responsabilidad como las normas y salvaguardias para todos, incluso si damos a los «buenos» actores los medios para controlar a los «malos».
4. El piano mecánico
La perturbación económica
Las tres secciones anteriores trataban principalmente los riesgos de seguridad que plantea una IA poderosa: los riesgos relacionados con la propia IA, los riesgos relacionados con el uso indebido por parte de individuos y pequeñas organizaciones, y los riesgos relacionados con el uso indebido por parte de Estados y grandes organizaciones. Si dejamos de lado los riesgos de seguridad o suponemos que se han resuelto, la siguiente cuestión es de orden económico. ¿Cuál será el efecto de esta increíble aportación de capital «humano» en la economía? Está claro que el efecto más evidente será un fuerte aumento del crecimiento económico. El ritmo de los avances en la investigación científica, la innovación biomédica, la fabricación, las cadenas de suministro, la eficiencia del sistema financiero y muchos otros ámbitos conduciría casi con toda seguridad a un crecimiento económico mucho más rápido. En Machines of Loving Grace, sugiero que podría ser posible una tasa de crecimiento anual sostenida del PIB del 10 al 20 %.
Pero hay que entender que se trata de un arma de doble filo: ¿cuáles son las perspectivas económicas para la mayoría de los seres humanos que existen en un mundo así? Las nuevas tecnologías suelen provocar perturbaciones en el mercado laboral y, en el pasado, los seres humanos siempre se han recuperado, pero me temo que esto se debe a que esas perturbaciones anteriores solo afectaron a una pequeña parte del conjunto de capacidades humanas, lo que permitió a los seres humanos dedicarse a nuevas tareas. La IA tendrá efectos mucho más amplios y rápidos, por lo que me temo que será mucho más difícil garantizar que todo salga bien.
Perturbación del mercado laboral
Hay dos problemas concretos que me preocupan: el desplazamiento del mercado laboral y la concentración del poder económico. Empecemos por el primero. Es un tema sobre el que advertí muy públicamente en 2025, cuando predije que la IA podría sustituir la mitad de todos los empleos de cuello blanco para principiantes en los próximos 1 a 5 años, incluso si acelera el crecimiento económico y el progreso científico. Esta advertencia desencadenó un debate público sobre el tema. Muchos directores generales, tecnólogos y economistas estuvieron de acuerdo conmigo, pero otros asumieron que era víctima de una falacia sobre la «masa de trabajo» y que no entendía cómo funciona el mercado laboral. Algunos no entendieron el plazo de 1 a 5 años y pensaron que yo afirmaba que la IA estaba eliminando puestos de trabajo en este momento (lo cual, reconozco, probablemente no sea el caso). Por lo tanto, conviene explicar en detalle por qué me preocupa la sustitución de la mano de obra, a fin de disipar estos malentendidos.
Hay una serie de datos que permiten destacar varios puntos. Un estudio del índice económico de Anthropic mostraba a principios de 2025 que solo alrededor del 4 % de las profesiones utilizaban la IA para al menos el 75 % de sus tareas. En 2025, la integración de la IA sigue estando principalmente verticalizada por tarea, en lugar de ser una transformación global del puesto de trabajo. Un estudio de Stanford de septiembre basado en datos de ADP, líder estadounidense en servicios de pago, muestra que los trabajadores que se encuentran al inicio de su carrera (de 22 a 25 años) y que ocupan puestos de trabajo expuestos a la IA han experimentado una disminución relativa del empleo del 16 %, mientras que el empleo de los trabajadores con más experiencia se ha mantenido estable. Un estudio de Harvard también concluye que el empleo de los jóvenes disminuye en las empresas que adoptan la IA en comparación con las que no lo hacen, mientras que el empleo de los mayores se mantiene prácticamente sin cambios en 2025. La disminución de los jóvenes se concentra en las profesiones más expuestas a la IA generativa y se explica por una ralentización de las contrataciones.
Para empezar, es útil comprender cómo reaccionan normalmente los mercados laborales ante los avances tecnológicos. Cuando aparece una nueva tecnología, lo primero que hace es aumentar la eficiencia de ciertas tareas humanas. Por ejemplo, al comienzo de la Revolución Industrial, máquinas como los arados mejorados permitieron a los agricultores ser más eficientes en ciertos aspectos de su trabajo. Esto mejoró la productividad de los agricultores, lo que aumentó sus salarios.
En una segunda fase, algunas tareas agrícolas pudieron realizarse íntegramente con máquinas, por ejemplo, gracias a la invención de la trilladora o la sembradora. En esta etapa, los humanos realizaban una parte cada vez menor del trabajo, pero el que realizaban se valoraba cada vez más, ya que complementaba el trabajo de las máquinas, y su productividad siguió aumentando. Tal y como describe la paradoja de Jevons, los salarios de los agricultores, y quizás incluso su número, siguieron aumentando. Incluso cuando el 90 % del trabajo lo realizan máquinas, los humanos pueden simplemente hacer 10 veces más con el 10 % que siguen haciendo, produciendo así 10 veces más por la misma cantidad de trabajo.
Finalmente, las máquinas hacen todo o casi todo, como es el caso de las cosechadoras, los tractores y otros equipos modernos. En este punto, la agricultura como forma de empleo humano está en rápido declive, lo que puede provocar graves perturbaciones a corto plazo, pero como la agricultura es solo una de las muchas actividades útiles que los humanos son capaces de realizar, la gente acaba dedicándose a otros trabajos, como el manejo de máquinas en fábricas. Esto sigue siendo cierto incluso si la agricultura representaba anteriormente una parte importante del empleo. Hace 250 años, el 90 % de los estadounidenses vivía en granjas; en Europa, entre el 50 % y el 60 % de los empleos eran agrícolas. Hoy en día, estos porcentajes son inferiores al 10 % en esas regiones, ya que los trabajadores se han orientado hacia empleos industriales (y luego a empleos intelectuales). La economía puede lograr lo que antes requería la mayor parte de la mano de obra con solo el 1-2 % de esta, liberando así al resto de la mano de obra para construir una sociedad industrial cada vez más avanzada. No existe una «masa de trabajo» fija, sino solo una capacidad cada vez mayor de hacer más con menos. Los salarios de las personas aumentan a la par que el crecimiento exponencial del PIB y la economía mantiene el pleno empleo una vez que desaparecen las perturbaciones a corto plazo.
Es posible que con la IA ocurra más o menos lo mismo, pero yo apostaría más bien por lo contrario. He aquí algunas razones por las que creo que la IA probablemente será diferente:
— La velocidad. El ritmo de los avances en IA es mucho más rápido que en revoluciones tecnológicas anteriores. Por ejemplo, en los últimos dos años, los modelos de IA han pasado de tener una capacidad apenas suficiente para escribir una sola línea de código a ser capaces de escribir todo o casi todo el código para algunas personas, incluidos los ingenieros de Anthropic. 36 Pronto podrían ser capaces de realizar todas las tareas de un ingeniero de software, de principio a fin. 37 A las personas les cuesta adaptarse a este ritmo de cambio, tanto en lo que respecta a los cambios en el funcionamiento de un puesto de trabajo concreto como a la necesidad de cambiar de empleo. Incluso los programadores legendarios se describen cada vez más a sí mismos como «rezagados». El ritmo podría incluso seguir acelerándose, ya que los modelos de codificación de IA aceleran cada vez más el desarrollo de la IA. Para ser claros, la velocidad en sí misma no significa que los mercados laborales y el empleo no se recuperarán finalmente, sino simplemente que la transición a corto plazo será especialmente dolorosa en comparación con las tecnologías anteriores, ya que los seres humanos y los mercados laborales son lentos para reaccionar y equilibrarse.
— Amplitud cognitiva. Como sugiere la expresión «país de genios en un centro de datos», la IA será capaz de ejercer una amplia gama de capacidades cognitivas humanas, si no todas. Esto difiere considerablemente de tecnologías anteriores como la agricultura mecanizada, el transporte o incluso las computadoras. 38 Por lo tanto, será más difícil para las personas pasar fácilmente de un empleo suprimido a otro similar que les convenga. Por ejemplo, las capacidades intelectuales generales requeridas para los empleos de principiantes en campos como las finanzas, la consultoría y el derecho son bastante similares, aunque los conocimientos específicos sean muy diferentes. Una tecnología que solo afectara a uno de estos tres ámbitos permitiría a los empleados reconvertirse en los otros dos ámbitos afines (o a los estudiantes cambiar de carrera). Pero afectar a los tres ámbitos a la vez (así como a muchos otros empleos similares) podría dificultar la adaptación de las personas afectadas. Además, no solo se verán afectados la mayoría de los empleos existentes. Esto ya ha ocurrido en el pasado: recordemos que la agricultura representaba antiguamente un porcentaje importante del empleo. Pero los agricultores podían reconvertirse en un trabajo relativamente similar, a saber, el uso de maquinaria industrial, aunque este trabajo no fuera habitual anteriormente. Por el contrario, la IA se acerca cada vez más al perfil cognitivo general de los seres humanos, lo que significa que también será eficaz en los nuevos empleos que normalmente se crearían en respuesta a la automatización de los antiguos. En otras palabras, la IA no es un sustituto de empleos humanos específicos, sino más bien un sustituto general de la mano de obra humana.
— Distribución por capacidad cognitiva. En una amplia gama de tareas, la IA parece progresar de abajo hacia arriba en la escala de capacidades. Por ejemplo, en materia de codificación, nuestros modelos han pasado del nivel «codificador mediocre» a «codificador competente» y, posteriormente, a «codificador muy competente». 39 Ahora estamos empezando a observar la misma progresión en el trabajo de oficina en general. Por lo tanto, corremos el riesgo de encontrarnos en una situación en la que, en lugar de asignar a personas con habilidades específicas o que ejercen profesiones específicas (que pueden adaptarse mediante el reciclaje profesional), la IA asigne a personas con ciertas propiedades cognitivas intrínsecas, es decir, capacidades intelectuales inferiores (que son más difíciles de cambiar). No está claro adónde irán estas personas ni qué harán, y me temo que formarán una «subclase» de desempleados o trabajadores con salarios muy bajos. Para ser claros, situaciones similares ya se han producido en el pasado. Por ejemplo, algunos economistas consideran que las computadoras e internet representan un «cambio tecnológico que favorece las habilidades». Pero este sesgo a favor de las habilidades no era tan extremo como lo que preveo con la IA, y habría contribuido a aumentar las desigualdades salariales, 40 por lo que no es precisamente un precedente tranquilizador.
— Capacidad para llenar vacíos. Los empleos humanos a menudo se adaptan a las nuevas tecnologías de tal manera que el trabajo tiene muchos aspectos y la nueva tecnología, aunque parezca sustituir directamente a los humanos, a menudo tiene vacíos. Si alguien inventa una máquina para fabricar gadgets, es posible que los humanos sigan teniendo que cargar las materias primas en la máquina. Aunque esto solo requiera el 1 % del esfuerzo necesario para fabricar los gadgets a mano, los trabajadores humanos pueden fabricar 100 veces más gadgets. Pero la IA, además de ser una tecnología en rápida evolución, también es una tecnología que se adapta rápidamente. Cada vez que se lanza un nuevo modelo, las empresas de IA evalúan cuidadosamente sus puntos fuertes y débiles, y los clientes también proporcionan esta información después del lanzamiento. Las debilidades pueden corregirse recopilando las tareas que ilustran las deficiencias actuales e integrándolas en el entrenamiento del siguiente modelo. En los inicios de la IA generativa, los usuarios observaron que los sistemas de IA presentaban ciertas deficiencias (por ejemplo, los modelos de imágenes de IA generaban manos con un número incorrecto de dedos) y muchos asumieron que estas deficiencias eran inherentes a la tecnología. Si fuera así, esto limitaría la disrupción del empleo. Sin embargo, la mayoría de estas deficiencias se corrigen rápidamente, a menudo en solo unos meses.
La mayoría de los benchmarks de IA alcanzan un techo de rendimiento en pocos años, o incluso en pocos meses, tras su introducción. Este patrón recurrente sugiere que muchas de las «limitaciones» percibidas de los sistemas de IA no son en realidad barreras intrínsecas, sino objetivos temporales, rápidamente saturados, relacionados con lo que elegimos medir en un momento dado. En el ámbito de las matemáticas, por ejemplo, la sucesión de pruebas de rendimiento ilustra bien el desplazamiento de los objetivos a medida que se van saturando. GSM8K medía principalmente la capacidad de encadenar correctamente operaciones aritméticas de nivel escolar; con el aumento de la escala y el uso del razonamiento paso a paso, se saturó rápidamente. AIME desplazó el objetivo hacia problemas de concursos, más cortos pero que requieren intuiciones algebraicas y combinatorias, donde el progreso es más lento e irregular. Otros benchmarks más recientes, como FrontierMath, evalúan la capacidad de mantener un razonamiento matemático coherente en problemas largos y poco estandarizados, y hoy en día siguen sin estar saturados. En cada etapa, el «límite» observado corresponde menos a una barrera fundamental que al nivel de exigencia del objetivo elegido. Tan pronto como una debilidad se formaliza claramente mediante un benchmark y este adquiere relevancia económica, suele atraer esfuerzos específicos de recopilación de datos, entrenamiento y optimización, y la diferencia de rendimiento se reduce rápidamente. Este es el caso, por ejemplo, de GDPEval, que mide la capacidad de los modelos para realizar tareas de trabajo reales de alto valor económico, y GPT5.2.
Es necesario abordar los puntos comunes de escepticismo. En primer lugar, algunos afirman que la difusión económica será lenta, de modo que, aunque la tecnología subyacente sea capaz de realizar la mayoría de las tareas humanas, su aplicación real en el conjunto de la economía podría ser mucho más lenta (por ejemplo, en sectores alejados de la industria de la IA y lentos en adoptarla). La lentitud de la difusión de la tecnología es muy real: hablo con personas de una gran variedad de empresas y hay ámbitos en los que la adopción de la IA llevará años. Por eso preveo que el 50 % de los empleos de cuello blanco para principiantes se verán afectados en un plazo de 1 a 5 años, aunque creo que dispondremos de una IA poderosa (que, desde el punto de vista tecnológico, sería suficiente para realizar la mayoría o la totalidad de las tareas, y no solo las de nivel principiante) en mucho menos de 5 años. Pero los efectos de difusión solo nos hacen ganar tiempo. Y no estoy convencido de que vayan a ser tan lentos como la gente predice. La adopción de la IA por parte de las empresas avanza a un ritmo mucho más rápido que cualquier tecnología anterior, en gran parte gracias al poderío de la propia tecnología. Además, aunque las empresas tradicionales sean lentas en adoptar las nuevas tecnologías, surgirán nuevas empresas que servirán de «enlace» y facilitarán la adopción. Si esto no funciona, las nuevas empresas podrían simplemente perturbar directamente a las empresas ya establecidas.
Esto podría conducir a un mundo en el que no se perturbaran tanto puestos de trabajo específicos, sino más bien las grandes empresas en general, que serían sustituidas por empresas emergentes mucho menos intensivas en mano de obra. También podría conducir a un mundo de «desigualdades geográficas», en el que una parte cada vez mayor de la riqueza mundial se concentraría en Silicon Valley, que se convertiría en una economía independiente que funcionaría a un ritmo diferente al del resto del mundo y lo dejaría atrás. Todos estos resultados serían excelentes para el crecimiento económico, pero no tanto para el mercado laboral o para aquellos que se quedan atrás.
En segundo lugar, algunos afirman que los empleos humanos se desplazarán al mundo físico, lo que evitaría toda la categoría del «trabajo cognitivo», donde la IA avanza tan rápidamente. Tampoco estoy seguro de que esto sea muy seguro. Gran parte del trabajo físico ya lo realizan máquinas (por ejemplo, en el sector manufacturero) o lo harán pronto (por ejemplo, la conducción de automóviles). Además, una IA lo suficientemente potente será capaz de acelerar el desarrollo de robots y, a continuación, controlar esos robots en el mundo físico. Quizás esto permita ganar algo de tiempo (lo cual es positivo), pero me temo que no será suficiente. E incluso si la disrupción se limitara a las tareas cognitivas, seguiría siendo de una magnitud y una rapidez sin precedentes.
En tercer lugar, es posible que algunas tareas requieran intrínsecamente un toque humano o se beneficien enormemente de él. No estoy tan seguro de esto, pero sigo siendo escéptico en cuanto a que sea suficiente para compensar la mayor parte de los impactos que he descrito anteriormente. La IA ya se utiliza ampliamente en el servicio al cliente. Muchas personas afirman que les resulta más fácil hablar de sus problemas personales con una IA que con un terapeuta, ya que la IA es más paciente. Cuando mi hermana tuvo problemas médicos durante su embarazo, sintió que no obtenía las respuestas o el apoyo que necesitaba de sus proveedores de atención médica, y descubrió que Claude tenía un mejor contacto con los pacientes (y diagnosticaba mejor el problema). Estoy seguro de que hay ciertas tareas en las que el contacto humano es realmente importante, pero no sé cuántas. Y aquí estamos hablando de encontrar trabajo para casi todo el mundo en el mercado laboral.
En cuarto lugar, algunos dirán que la ventaja comparativa seguirá protegiendo a los humanos. Según la ley de la ventaja comparativa, aunque la IA sea mejor que los humanos en todos los ámbitos, cualquier diferencia relativa entre las habilidades humanas y las de la IA crea una base para el intercambio y la especialización entre los humanos y la IA. El problema es que si la IA es literalmente miles de veces más productiva que los humanos, esta lógica comienza a desmoronarse. Incluso unos costos de transacción mínimos podrían hacer que el comercio con los humanos resultara poco interesante para la IA. Y los salarios humanos podrían ser muy bajos, aunque técnicamente los humanos tengan algo que ofrecer.
Es posible que todos estos factores puedan tenerse en cuenta, que el mercado laboral sea lo suficientemente resistente como para adaptarse a una perturbación tan enorme. Pero aunque pueda acabar adaptándose, los factores anteriores sugieren que el impacto a corto plazo será de una magnitud sin precedentes.
Nuestros medios de defensa
¿Qué podemos hacer ante este problema? Tengo varias sugerencias, algunas de las cuales ya están siendo implementadas por Anthropic.
Lo primero que hay que hacer es simplemente obtener datos precisos en tiempo real sobre lo que está sucediendo en materia de destrucción de empleo. Cuando se produce un cambio económico muy rápido, es difícil obtener datos fiables sobre lo que está sucediendo y, sin datos fiables, es difícil diseñar políticas eficaces. Por ejemplo, los datos gubernamentales carecen actualmente de datos granulares y de alta frecuencia sobre la adopción de la IA en las empresas y las industrias. Durante el último año, Anthropic ha estado recopilando y publicando un índice económico que muestra el uso de nuestros modelos casi en tiempo real, desglosado por industria, tarea, ubicación e incluso por elementos como si una tarea está automatizada o se realiza de forma colaborativa. También contamos con un consejo asesor económico que nos ayuda a interpretar estos datos y a anticipar el futuro.
En segundo lugar, las empresas de IA pueden elegir cómo trabajar con las empresas. La propia ineficiencia de las empresas tradicionales significa que su implementación de la IA puede depender en gran medida del camino que se elija, y existe cierto margen de maniobra para elegir un camino mejor. Las empresas suelen tener la opción de «reducir costos» (hacer lo mismo con menos personal) o «innovar» (hacer más con el mismo número de personas). El mercado producirá inevitablemente ambas cosas a largo plazo, y cualquier empresa de IA competitiva tendrá que satisfacer ambas necesidades, pero tal vez sea posible orientar a las empresas hacia la innovación cuando sea posible, lo que nos ahorraría tiempo. Anthropic está reflexionando activamente sobre esta cuestión.
En tercer lugar, las empresas deben pensar en cómo cuidar a sus empleados. A corto plazo, ser creativo a la hora de reasignar a los empleados dentro de las empresas puede ser una forma prometedora de evitar despidos. A largo plazo, en un mundo en el que la riqueza total es enorme y muchas empresas ven aumentar considerablemente su valor gracias al aumento de la productividad y la concentración del capital, podría ser posible remunerar a los empleados humanos incluso mucho después de que hayan dejado de aportar valor económico en el sentido tradicional del término. Anthropic está estudiando actualmente una serie de posibles vías para sus propios empleados, que compartiremos en un futuro próximo.
En cuarto lugar, las personas adineradas tienen la obligación de contribuir a la resolución de este problema. Me parece lamentable que muchas personas adineradas (especialmente en el sector tecnológico) hayan adoptado recientemente una actitud cínica y nihilista, considerando que la filantropía es inevitablemente fraudulenta o inútil. Tanto las iniciativas filantrópicas privadas, como la Fundación Gates, como los programas públicos, como el PEPFAR, han salvado decenas de millones de vidas en los países en desarrollo y han contribuido a crear oportunidades económicas en los países desarrollados. Todos los cofundadores de Anthropic se han comprometido a donar el 80 % de su fortuna, y los empleados de Anthropic se han comprometido individualmente a donar acciones de la empresa por valor de varios miles de millones al precio actual, donaciones que la empresa se ha comprometido a igualar.
En quinto lugar, aunque todas las medidas privadas mencionadas anteriormente pueden ser útiles, un problema macroeconómico de tal magnitud requerirá, en última instancia, la intervención de los poderes públicos. La respuesta política natural a un enorme pastel económico asociado a fuertes desigualdades (debidas a la falta de empleo o a empleos mal remunerados para muchos) es una fiscalidad progresiva. El impuesto podría ser general o dirigirse específicamente a las empresas de IA. Es evidente que el diseño de un impuesto es complejo y que hay muchas formas de equivocarse. No apoyo las políticas fiscales mal diseñadas. Creo que los niveles extremos de desigualdad previstos en este ensayo justifican una política fiscal más sólida por razones morales fundamentales, pero también puedo presentar un argumento pragmático a los multimillonarios de todo el mundo, a saber, que les conviene apoyar una buena versión de esta política: si no apoyan una buena versión, inevitablemente se encontrarán con una mala versión diseñada por la multitud.
En última instancia, considero que todas las intervenciones mencionadas anteriormente son formas de ganar tiempo. Con el tiempo, la IA será capaz de hacerlo todo, y debemos prepararnos para ello. Espero que, para entonces, podamos utilizar la propia IA para ayudarnos a reestructurar los mercados de una manera que satisfaga a todos, y que las intervenciones mencionadas anteriormente nos permitan atravesar el período de transición.
La concentración económica del poder
El problema de la concentración económica del poder es distinto del desplazamiento de puestos de trabajo o de la desigualdad económica en sí misma. En la sección 1 se abordó el riesgo de que la IA prive a la humanidad de su poder, y en la sección 3 se abordó el riesgo de que los gobiernos priven a los ciudadanos de su poder mediante la fuerza o la coacción.
Pero puede producirse otro tipo de privación de poder si existe tal concentración de riqueza que un pequeño grupo de personas controla efectivamente la política gubernamental gracias a su influencia, y los ciudadanos de a pie no tienen ninguna influencia porque carecen de poder económico. La democracia se basa, en última instancia, en la idea de que toda la población es necesaria para el funcionamiento de la economía. Si esa influencia económica desaparece, el contrato social implícito de la democracia podría dejar de funcionar. Otros ya han escrito sobre este tema, por lo que no necesito entrar en detalles aquí, pero comparto esta preocupación y me temo que ya está empezando a ocurrir.
Para que quede claro, no me opongo a que la gente gane mucho dinero. Existe un argumento sólido que sostiene que esto estimula el crecimiento económico en condiciones normales. Entiendo la preocupación por obstaculizar la innovación matando a la gallina de los huevos de oro que la genera. Pero en un escenario en el que el crecimiento del PIB es del 10 al 20 % anual y la IA está tomando rápidamente el control de la economía, mientras que individuos aislados poseen una parte apreciable del PIB, la innovación no es lo que debe preocuparnos. Lo que debe preocuparnos es un nivel de concentración de la riqueza que va a romper la sociedad.
El ejemplo más famoso de concentración extrema de riqueza en la historia de Estados Unidos es la Edad de Oro, y el industrial más rico de esa época fue John D. Rockefeller. La fortuna de Rockefeller representaba aproximadamente el 2 % del PIB estadounidense de la época. 41 Una proporción similar hoy en día representaría una fortuna de 600.000 millones de dólares, y la persona más rica del mundo en la actualidad (Elon Musk) ya supera esa cifra, con aproximadamente 700.000 millones de dólares. Por lo tanto, ya hemos alcanzado niveles de concentración de riqueza sin precedentes en la historia, incluso antes de que la IA haya tenido la mayor parte de su impacto económico. No creo que sea exagerado (si conseguimos un «país de genios») imaginar que las empresas de IA, las empresas de semiconductores y quizás las empresas de aplicaciones derivadas generen unos ingresos anuales de alrededor de 3 billones de dólares, 42 con un valor aproximado de 30 billones de dólares, y generen fortunas personales que se cuentan por billones. En ese mundo, los debates que mantenemos hoy en día sobre política fiscal simplemente dejarán de tener sentido, ya que nos encontraremos en una situación fundamentalmente diferente.
En este sentido, la combinación de esta concentración económica de la riqueza con el sistema político ya me preocupa. Los centros de datos de IA ya representan una parte importante del crecimiento económico estadounidense 43 y, por lo tanto, vinculan estrechamente los intereses financieros de las grandes empresas tecnológicas (que se centran cada vez más en la IA o las infraestructuras de IA) y los intereses políticos del gobierno, de una manera que puede generar incentivos perversos. Ya lo vemos en la reticencia de las empresas tecnológicas a criticar al gobierno estadounidense y en el apoyo de este a políticas antirreguladoras extremas en materia de IA.
Nuestros medios de defensa
¿Qué se puede hacer al respecto? En primer lugar, y lo más obvio, las empresas deberían simplemente optar por no participar. Anthropic siempre se ha esforzado por ser un actor apolítico y no un actor político, y por mantener sus opiniones auténticas independientemente de la administración. Nos hemos pronunciado a favor de una regulación razonable de la IA y de controles de exportación que redunden en el interés público, incluso cuando estos contradicen la política gubernamental. Muchas personas me han dicho que deberíamos dejar de hacerlo, que podría acarrearnos un trato desfavorable, pero desde que lo hacemos, hace un año, la valoración de Anthropic se ha multiplicado por más de seis, un aumento casi sin precedentes a nuestra escala comercial.
En segundo lugar, el sector de la IA necesita una relación más sana con el gobierno, basada en un compromiso político sustantivo más que en una alineación política. Nuestra decisión de comprometernos con el fondo más que con la forma se interpreta a veces como un error táctico o una incapacidad para «leer la sala», en lugar de como una decisión de principio, y esta interpretación me preocupa. En una democracia sana, las empresas deberían poder defender buenas políticas por su propio bien. En la misma línea, se está gestando una reacción negativa del público hacia la IA: podría ser una medida correctiva, pero actualmente carece de precisión. Se centra en gran medida en cuestiones que no constituyen realmente problemas (como el consumo de agua de los centros de datos) y propone soluciones (como la prohibición de los centros de datos o impuestos sobre el patrimonio mal diseñados) que no responderían a las verdaderas preocupaciones. La cuestión subyacente que merece nuestra atención es garantizar que el desarrollo de la IA siga siendo responsable con respecto al interés público, sin quedar capturado por una alianza política o comercial concreta, y parece importante centrar el debate público en este punto.
En tercer lugar, las intervenciones macroeconómicas que he descrito anteriormente en esta sección, junto con el resurgimiento de la filantropía privada, pueden contribuir a equilibrar la balanza económica, abordando tanto los problemas de pérdida de empleo como los de concentración del poder económico. Deberíamos inspirarnos en la historia de nuestro país: incluso en la edad de oro, industriales como Rockefeller y Carnegie se sentían muy en deuda con la sociedad en su conjunto, ya que consideraban que esta había contribuido enormemente a su éxito y que debían devolverle el favor. Este espíritu parece estar cada vez más ausente hoy en día, y creo que constituye una gran parte de la solución a este dilema económico. Quienes están a la vanguardia del auge económico de la IA deberían estar dispuestos a renunciar a su riqueza y poder.
5. Las profundas aguas del infinito
Efectos secundarios
Esta última sección agrupa todas las incógnitas, en particular las cosas que podrían salir mal debido a los avances positivos de la IA y a la aceleración general del progreso científico y tecnológico que ello conlleva. Supongamos que logramos eliminar todos los riesgos descritos hasta ahora y que empezamos a cosechar los frutos de la IA. Probablemente obtendremos «un siglo de avances científicos y económicos condensados en una década», lo que será extremadamente positivo para el mundo, pero entonces tendremos que hacer frente a los problemas derivados de este rápido progreso, y estos problemas podrían abrumarnos rápidamente. También podríamos encontrarnos con otros riesgos que surgen indirectamente como consecuencia de los avances de la IA y que son difíciles de prever.
Esta proyección de un siglo de avances científicos y económicos condensados en una década hace eco directamente de la ambición manifestada por la Misión Génesis, puesta en marcha por la administración estadounidense, que tiene como objetivo explícito transformar profundamente la forma en que se lleva a cabo la investigación científica en Estados Unidos. El objetivo declarado es duplicar la productividad científica nacional en la próxima década, en ámbitos estratégicos como la energía, las ciencias cuánticas, los materiales avanzados o la seguridad nacional. La Orden Ejecutiva que regula la misión establece una analogía explícita con el Proyecto Manhattan, presentando la IA como una palanca central en una carrera mundial por la dominación tecnológica.
Debido a la propia naturaleza de las incógnitas, es imposible elaborar una lista exhaustiva, pero voy a citar tres posibles preocupaciones a modo de ejemplos ilustrativos de lo que debemos tener en cuenta:
— Rápidos avances en biología. Si logramos un siglo de avances médicos en unos pocos años, es posible que aumentemos considerablemente la esperanza de vida humana, y es posible que también adquiramos capacidades radicales, como la capacidad de aumentar la inteligencia humana o de modificar radicalmente la biología humana. Se trataría de cambios importantes en lo que es posible, que se producirían muy rápidamente. Podrían ser positivos si se llevaran a cabo de manera responsable (lo cual espero, como explico en Machines of Loving Grace), pero siempre existe el riesgo de que salgan muy mal, por ejemplo, si los esfuerzos por hacer a los humanos más inteligentes también los hacen más inestables o ávidos de poder. También está la cuestión de las «descargas» o la «emulación cerebral completa», es decir, mentes humanas digitales instanciadas en software, que algún día podrían ayudar a la humanidad a trascender sus límites físicos, pero que también conllevan riesgos que me parecen preocupantes.
— La IA está cambiando la vida humana de forma malsana. Un mundo poblado por miles de millones de inteligencias mucho más inteligentes que los humanos en todos los ámbitos será un mundo muy extraño en el que vivir. Aunque la IA no busque activamente atacar a los humanos (sección 1) y no se utilice explícitamente con fines de opresión o control por parte de los Estados (sección 3), muchas cosas podrían salir mal, incluso sin llegar a ese extremo, a través de incentivos comerciales normales y transacciones nominalmente consensuadas. Vemos los primeros indicios de ello en las preocupaciones sobre la psicosis relacionada con la IA, el hecho de que la IA empuje a las personas al suicidio y las preocupaciones sobre las relaciones amorosas con la IA. Por ejemplo, ¿podrían las IA poderosas inventar una nueva religión y convertir a millones de personas a ella? ¿Podría la mayoría de la gente acabar «dependiendo» de alguna manera de las interacciones con la IA? ¿Podría la gente acabar siendo «manipulada» por sistemas de IA, en los que una IA supervisara básicamente cada uno de sus movimientos y les dijera exactamente qué hacer y qué decir en cada momento, lo que les permitiría llevar una vida «buena», pero una vida desprovista de libertad o del orgullo del logro? No sería difícil generar decenas de escenarios de este tipo si me sentara con el creador de Black Mirror e intentara imaginarlos. Creo que esto subraya la importancia de medidas como la mejora de la Constitución de Claude, más allá de lo necesario para prevenir los problemas mencionados en la sección 1. Parece esencial garantizar que los modelos de IA tengan realmente en cuenta los intereses a largo plazo de sus usuarios, de una manera que las personas reflexivas aprobarían, en lugar de una manera sutilmente distorsionada.
— El propósito de la humanidad. Este punto está relacionado con el anterior, pero no se trata tanto de las interacciones humanas específicas con los sistemas de IA como de la forma en que la vida humana cambia en general en un mundo con una IA poderosa. ¿Serán los humanos capaces de encontrar un propósito y un sentido a sus vidas en un mundo así? Creo que es una cuestión de actitud: como dije en Machines of Loving Grace, creo que el propósito de la humanidad no depende de ser el mejor del mundo en un campo, y que los humanos pueden encontrar un propósito incluso en períodos muy largos a través de historias y proyectos que les gustan. Simplemente tenemos que romper el vínculo entre la creación de valor económico, la autoestima y el sentido de la vida. Pero es una transición que debe realizar la sociedad, y siempre existe el riesgo de que no la gestionemos bien.
Mi esperanza, ante todos estos posibles problemas, es que en un mundo con una IA potente en la que confiamos para que no nos mate, que no sea una herramienta de un gobierno opresor y que realmente trabaje para nosotros, podamos utilizar la propia IA para anticipar y prevenir estos problemas. Pero eso no está garantizado: como todos los demás riesgos, es algo que debemos manejar con precaución.
La prueba de la humanidad
La lectura de este ensayo puede dar la impresión de que nos encontramos en una situación desalentadora.
A diferencia de Machines of Loving Grace, que me dio la sensación de dar forma y estructura a una música de incomparable belleza que resonaba en mi cabeza desde hacía años, este ensayo ha sido difícil y, en cierto modo, intimidante.
De hecho, hay muchas cosas realmente difíciles en esta situación. La IA supone una amenaza para la humanidad de múltiples maneras, y existe una tensión real entre los diferentes peligros, de modo que mitigar algunos de ellos puede agravar otros si no actuamos con extrema cautela.
Dedicar tiempo a construir cuidadosamente sistemas de IA para que no supongan una amenaza autónoma para la humanidad entra en conflicto con la necesidad de las naciones democráticas de mantenerse por delante de las naciones autoritarias y no estar sometidas a ellas. Pero, a su vez, las mismas herramientas basadas en la IA que son necesarias para luchar contra las autocracias pueden, si se llevan demasiado lejos, volverse en nuestra contra y crear una tiranía en nuestros propios países. El terrorismo alimentado por la IA podría matar a millones de personas mediante el uso indebido de la biología, pero una reacción exagerada a este riesgo podría llevarnos a un Estado autocrático y vigilado. Los efectos de la IA en la concentración del trabajo y la economía, además de ser problemas graves en sí mismos, podrían obligarnos a afrontar otros problemas en un contexto de ira pública y quizás incluso de disturbios civiles, en lugar de poder apelar a lo mejor de nuestra naturaleza. Sobre todo, el considerable número de riesgos, incluidos los desconocidos, y la necesidad de abordarlos todos al mismo tiempo, crean un desafío intimidante al que se enfrenta la humanidad.
Además, los últimos años deberían dejar claro que la idea de detener o incluso ralentizar considerablemente esta tecnología es fundamentalmente insostenible.
La fórmula para construir sistemas de IA potentes es increíblemente sencilla, hasta tal punto que casi se podría decir que surge espontáneamente de la combinación adecuada de datos y cálculos brutos. Probablemente, su creación era inevitable desde el momento en que la humanidad inventó el transistor, o incluso antes, cuando aprendimos a dominar el fuego. Si una empresa no la construye, otras lo harán casi con la misma rapidez. Si todas las empresas de los países democráticos detuvieran o ralentizaran el desarrollo, por acuerdo mutuo o por decreto regulatorio, los países autoritarios continuarían. Es así de simple. Dado el increíble valor económico y militar de esta tecnología, así como la ausencia de cualquier mecanismo de aplicación significativo, no veo cómo podríamos convencerlos de que se detengan.
Sin embargo, veo una vía para moderar ligeramente el desarrollo de la IA que sea compatible con una visión realista de la geopolítica.
Esta vía consiste en ralentizar durante unos años el avance de las autocracias hacia una IA potente, negándoles los recursos que necesitan para construirla, 44 es decir, los chips y los equipos de fabricación de semiconductores. Esto daría a los países democráticos un margen de maniobra que podrían «gastar» en construir una IA potente de forma más prudente, prestando más atención a sus riesgos, pero avanzando lo suficientemente rápido como para tener una ventaja cómoda sobre las autocracias. La carrera entre las empresas de IA dentro de las democracias podría entonces estar regulada por un marco jurídico común, que combinara normas industriales y reglamentación.
Anthropic ha defendido enérgicamente esta vía, abogando por el control de las exportaciones de chips y una regulación sensata de la IA, pero incluso estas propuestas, que parecen de sentido común, han sido ampliamente rechazadas por los responsables políticos de Estados Unidos, el país donde son más importantes. La IA representa tal maná financiero —literalmente, miles de millones de dólares al año— que incluso las medidas más sencillas tienen dificultades para superar los obstáculos político-económicos inherentes a la IA.
Ahí está la trampa: la IA es tan poderosa y lucrativa que a la civilización humana le resulta muy difícil imponerle la más mínima restricción.
Podemos imaginar, como hizo Carl Sagan en Contact, que esta misma historia se repite en miles de mundos. Una especie adquiere conciencia, aprende a utilizar herramientas, inicia el ascenso exponencial de la tecnología, se enfrenta a las crisis de la industrialización y las armas nucleares y, si sobrevive, se enfrenta al reto más difícil y definitivo cuando aprende a moldear la arena para convertirla en máquinas que piensan. Que sobrevivamos a esta prueba y sigamos construyendo la hermosa sociedad descrita en Machines of Loving Grace, o que sucumbamos a la esclavitud y la destrucción, dependerá de nuestro carácter y nuestra determinación como especie, de nuestra mente y nuestra alma.
A pesar de los numerosos obstáculos, creo que la humanidad tiene la fuerza necesaria para superar esta prueba.
Me animan e inspiran los miles de investigadores que han dedicado su carrera a ayudarnos a comprender y orientar los modelos de IA, así como a moldear el carácter y la constitución de dichos modelos. Creo que ahora hay muchas posibilidades de que estos esfuerzos den sus frutos a tiempo para tener un impacto significativo. Me anima el hecho de que al menos algunas empresas hayan declarado que están dispuestas a pagar importantes costos comerciales para evitar que sus modelos contribuyan a la amenaza del bioterrorismo. Me anima el hecho de que algunas personas valientes se hayan resistido a las corrientes políticas dominantes y hayan logrado que se aprueben leyes que sientan las bases para establecer salvaguardias razonables para los sistemas de IA. Me anima el hecho de que el público comprenda que la IA conlleva riesgos y desee que se tengan en cuenta. Me anima el indomable espíritu de libertad que impera en todo el mundo y la determinación de resistir a la tiranía dondequiera que se manifieste.
Pero tendremos que redoblar nuestros esfuerzos si queremos tener éxito. El primer paso es que quienes están más cerca de la tecnología digan simplemente la verdad sobre la situación en la que se encuentra la humanidad, algo que siempre he intentado hacer.
Lo hago de forma más explícita y con mayor urgencia en este ensayo.
El siguiente paso consistirá en convencer a los pensadores, los responsables políticos, las empresas y los ciudadanos de todo el mundo de la urgencia y la importancia capital de esta cuestión, que merece que se le dedique reflexión y capital político en comparación con las miles de otras cuestiones que dominan la actualidad cada día. A continuación, habrá que demostrar valentía, para que un número suficiente de personas se oponga a las tendencias dominantes y defienda sus principios, incluso ante amenazas a sus intereses económicos y su seguridad personal.
Los próximos años serán increíblemente difíciles y nos exigirán más de lo que creemos que podemos dar. Pero a lo largo de mi carrera como investigador, líder y ciudadano, he visto suficiente valentía y nobleza como para creer que podemos ganar, que cuando la humanidad se encuentra en las circunstancias más sombrías, encuentra la manera de reunir —aparentemente siempre en el último momento— la fuerza y la sabiduría necesarias para prevalecer. No hay tiempo que perder.
Quiero dar las gracias a Erik Brynjolfsson, Ben Buchanan, Mariano-Florentino Cuéllar, Allan Dafoe, Kevin Esvelt, Nick Beckstead, Richard Fontaine, Jim McClave y a muchos miembros del personal de Anthropic por sus útiles comentarios sobre los borradores de este ensayo.
Notas al pie
- «2025 Mid-Year LLM Market Update: Foundation Model Landscape + Economics», Menlo Ventures.
- Esto coincide con un punto que planteé en Machines of Loving Grace, donde comencé diciendo que las ventajas de la IA no deben considerarse una profecía de salvación, y que es importante ser concreto y realista y evitar la grandilocuencia. Al fin y al cabo, las profecías de salvación y las profecías de desgracia no sirven de nada para afrontar el mundo real, básicamente por las mismas razones.
- El objetivo de Anthropic es mantener la coherencia a pesar de estos cambios. Cuando hablar de los riesgos relacionados con la IA era políticamente popular, Anthropic abogaba con cautela por un enfoque prudente y basado en pruebas para hacer frente a dichos riesgos. Ahora que hablar de los riesgos relacionados con la IA es políticamente impopular, Anthropic sigue abogando con cautela por un enfoque sensato y basado en pruebas para hacer frente a esos riesgos.
- Con el paso del tiempo, he ido adquiriendo una confianza cada vez mayor en la trayectoria de la IA y en la probabilidad de que supere las capacidades humanas en todos los ámbitos, pero sigue habiendo cierta incertidumbre.
- Los controles a la exportación de chips son un excelente ejemplo de ello. Son sencillos y, en general, parecen funcionar.
- Y, por supuesto, la búsqueda de tales pruebas debe ser intelectualmente honesta, de manera que también se pueda demostrar la ausencia de peligro. La transparencia a través de fichas técnicas y otras divulgaciones es un intento de esfuerzo intelectualmente honesto.
- De hecho, desde que se escribió Machines of Loving Grace en 2024, los sistemas de IA han sido capaces de realizar tareas que a los humanos les llevan varias horas. METR estimó recientemente que Opus 4.5 podía realizar aproximadamente cuatro horas de trabajo humano con una fiabilidad del 50 %.
- Y para ser claros, aunque la IA poderosa está a solo uno o dos años de nosotros desde el punto de vista técnico, muchas de sus consecuencias sociales, tanto positivas como negativas, podrían tardar unos años más en manifestarse. Por eso puedo pensar, por un lado, que la IA va a revolucionar el 50 % de los empleos de oficina de nivel inicial en un plazo de 1 a 5 años y, por otro, que podríamos disponer de una IA más potente que todos los demás en solo 1 o 2 años.
- Por supuesto, también pueden manipular (o simplemente pagar) a un gran número de seres humanos para que hagan lo que ellos quieran en el mundo físico.
- No creo que se trate de un argumento falaz: según tengo entendido, Yann LeCun defiende esta postura.
- Existen también otras hipótesis inherentes al modelo simple, que no voy a abordar aquí. En términos generales, deberían hacernos sentir menos preocupados por la historia simple y específica de la búsqueda de poder desalineado, pero también más preocupados por posibles comportamientos impredecibles que no hemos anticipado.
- Ender’s Game describe una versión de este escenario en la que intervienen seres humanos en lugar de IA.
- Por ejemplo, se puede pedir a los modelos que no hagan diversas cosas reprochables y que obedezcan a los humanos, pero entonces pueden observar que muchos humanos hacen precisamente esas cosas reprochables. No está claro cómo se resolvería esta contradicción (y una constitución bien diseñada debería animar al modelo a gestionar estas contradicciones con elegancia), pero este tipo de dilema no es tan diferente de las situaciones supuestamente «artificiales» en las que colocamos a los modelos de IA durante las pruebas.
- De hecho, una de las consecuencias de que la constitución sea un documento redactado en lenguaje natural es que es legible para todos, lo que significa que cualquiera puede criticarla y compararla con documentos similares de otras empresas. Sería útil crear una carrera hacia la cima que animara a las empresas no solo a publicar estos documentos, sino también a mejorarlos.
- Existe incluso una hipótesis según la cual un principio unificador profundo conectaría el enfoque basado en personajes de la IA constitucional con los resultados de la ciencia de la interpretabilidad y la alineación. Según esta hipótesis, los mecanismos fundamentales que animan a Claude se diseñaron inicialmente como medios para simular personajes durante el preentrenamiento, por ejemplo, prediciendo lo que dirían los personajes de una novela. Esto sugeriría que una forma útil de considerar la constitución sería más bien como una descripción del personaje que el modelo utiliza para instanciar una personalidad coherente. Esto también nos ayudaría a explicar los resultados «debo de ser una mala persona» que he mencionado anteriormente (ya que el modelo intenta actuar como si se tratara de un personaje coherente, en este caso un personaje malo), y sugeriría que los métodos de interpretabilidad deberían permitir descubrir «rasgos psicológicos» dentro de los modelos. Nuestros investigadores están trabajando actualmente en formas de poner a prueba esta hipótesis.
- Para que quede claro, la vigilancia se lleva a cabo de manera que se preserve la confidencialidad.
- Incluso en nuestras propias experiencias con lo que son esencialmente reglas impuestas voluntariamente como parte de nuestra Responsible Scaling Policy, hemos descubierto una y otra vez que es muy fácil terminar siendo demasiado rígidos, trazando líneas que parecen importantes a priori, pero que resultan ridículas en retrospectiva. Es muy fácil establecer reglas sobre las cosas incorrectas cuando la tecnología avanza rápidamente.
- La SB 53 y la RAISE Act no se aplican en absoluto a las empresas con una facturación anual inferior a 500 millones de dólares. Solo se aplican a empresas más grandes y mejor establecidas, como Anthropic.
- Leí el ensayo de Joy por primera vez hace 25 años, cuando fue escrito, y me impactó profundamente. Tanto entonces como ahora, lo encuentro demasiado pesimista —no creo que el «abandono» generalizado de todo un campo tecnológico, como sugiere Joy, sea la solución—, pero las cuestiones que plantea eran sorprendentemente premonitorias, y Joy escribe además con una profunda compasión y humanidad que admiro.
- Debemos preocuparnos por los actores estatales, tanto en la actualidad como en el futuro, y abordo este tema en la siguiente sección.
- Hay pruebas de que muchos terroristas tienen, al menos, un nivel educativo relativamente alto, lo que puede parecer contradictorio con mi argumento sobre la correlación negativa entre capacidad y motivación. Pero creo que, en realidad, estas observaciones son compatibles: si el umbral de capacidad para llevar a cabo un ataque con éxito es alto, entonces, casi por definición, aquellos que lo consiguen en la actualidad deben tener una gran capacidad, incluso si la capacidad y la motivación están negativamente correlacionadas. Pero en un mundo en el que se eliminaran las limitaciones de capacidad (por ejemplo, con los futuros LLM), yo predeciría que una gran población de personas con motivación para matar, pero con menor capacidad, comenzaría a hacerlo, como ocurre con los delitos que no requieren mucha capacidad (como los tiroteos en las escuelas).
- Sin embargo, Aum Shinrikyo lo intentó. El jefe de Aum Shinrikyo, Seiichi Endo, se había formado en virología en la Universidad de Kioto y había intentado producir tanto ántrax como el virus del Ébola. Sin embargo, en 1995, ni siquiera él disponía de los conocimientos y los recursos suficientes para lograrlo. Ahora el listón está mucho más bajo, y los LLM podrían reducirlo aún más.
- Un fenómeno extraño relacionado con los autores de asesinatos en masa es que el modus operandi que eligen se asemeja casi a una moda macabra. En las décadas de 1970 y 1980, los asesinos en serie eran muy comunes, y los nuevos asesinos en serie solían copiar el comportamiento de los asesinos en serie más establecidos o famosos. En las décadas de 1990 y 2000, los tiroteos masivos se hicieron más comunes, mientras que los asesinos en serie se volvieron menos frecuentes. Ningún cambio tecnológico desencadenó estos comportamientos, simplemente parece que los asesinos violentos se copiaban unos a otros y que la tendencia «popular» a copiar cambió.
- Los piratas informáticos ocasionales a veces piensan que han comprometido estos clasificadores cuando obtienen información específica del modelo, como la secuencia genómica de un virus. Pero, como he explicado anteriormente, el modelo de amenaza que nos preocupa implica consejos interactivos paso a paso, a lo largo de varias semanas o meses, sobre etapas específicas y oscuras del proceso de producción de armas biológicas, y eso es contra lo que nuestros clasificadores pretenden defendernos. (A menudo describimos nuestra investigación como la búsqueda de «jailbreaks universales», es decir, jailbreaks que no solo funcionan en un contexto específico o restringido, sino que abren ampliamente el comportamiento del modelo).
- No obstante, seguiremos invirtiendo en trabajos destinados a mejorar la eficacia de nuestros clasificadores, y puede ser conveniente que las empresas compartan entre sí avances como estos.
- Evidentemente, no creo que las empresas deban estar obligadas a revelar los detalles técnicos de las etapas específicas de la producción de armas biológicas que bloquean, y la legislación sobre transparencia que se ha aprobado hasta ahora (SB 53 y RAISE) tiene en cuenta esta cuestión.
- Otra idea relacionada es la de los «mercados de resiliencia», en los que el gobierno fomenta el almacenamiento de EPI, respiradores y otros equipos esenciales necesarios para responder a un ataque biológico, comprometiéndose por adelantado a pagar un precio acordado previamente por dichos equipos en caso de emergencia. Esto incentiva a los proveedores a almacenar estos equipos sin temor a que el gobierno los confisque sin compensación.
- ¿Por qué me preocupa más que los grandes actores se hagan con el poder que la destrucción causada por los pequeños actores? Porque la dinámica es diferente. Hacerse con el poder consiste en saber si un actor puede acumular suficiente fuerza para derrotar a todos los demás. Por lo tanto, debemos preocuparnos por los actores más poderosos y/o los que están más cerca de la IA. Por el contrario, la destrucción puede ser causada por aquellos que tienen poco poder si es mucho más difícil de defender que de causar. Se trata entonces de defenderse de las amenazas más numerosas, que probablemente provengan de actores más modestos.
- Esto puede parecer contradictorio con mi argumento de que el ataque y la defensa pueden estar más equilibrados con los ciberataques que con las armas biológicas, pero mi preocupación aquí es que, si la IA de un país es la más poderosa del mundo, los demás no podrán defenderse, aunque la tecnología en sí misma presente un equilibrio intrínseco entre el ataque y la defensa.
- En Estados Unidos, por ejemplo, esto incluye la Cuarta Enmienda y la Ley Posse Comitatus.
- Además, para ser claros, hay argumentos a favor de la construcción de grandes centros de datos en países con estructuras de gobierno diversas, especialmente si están controlados por empresas democráticas. En principio, estas construcciones podrían ayudar a las democracias a competir mejor con el PCC, que representa una amenaza mayor. También creo que estos centros de datos no suponen un riesgo particular, a menos que sean de gran tamaño. Pero, en general, creo que hay que ser cautelosos a la hora de instalar centros de datos muy grandes en países donde las garantías institucionales y las protecciones del Estado de derecho están menos consolidadas.
- Por supuesto, esto también es un argumento a favor de mejorar la seguridad de la disuasión nuclear para hacerla más resistente frente a una IA poderosa, y las democracias con armas nucleares deberían hacerlo. Pero no sabemos de qué será capaz una IA poderosa ni qué defensas, si las hay, serán eficaces contra ella, por lo que no debemos dar por sentado que estas medidas resolverán necesariamente el problema.
- También existe el riesgo de que, aunque la disuasión nuclear siga siendo eficaz, un país atacante decida tomarnos la palabra: no es seguro que estemos dispuestos a utilizar armas nucleares para defendernos de un enjambre de drones, aunque este represente un riesgo importante de conquistarnos. Los enjambres de drones podrían constituir una nueva amenaza, menos grave que los ataques nucleares, pero más grave que los ataques convencionales. Además, las evaluaciones divergentes sobre la eficacia de la disuasión nuclear en la era de la IA podrían alterar de forma desestabilizadora la teoría de juegos del conflicto nuclear.
- Para ser claros, creo que la estrategia correcta es no vender chips a China, aunque el tiempo necesario para desarrollar una IA poderosa sea mucho mayor. No podemos hacer que los chinos «dependen» de los chips estadounidenses: están decididos a desarrollar su propia industria de chips de una forma u otra. Les llevará muchos años, y al venderles chips, solo les estamos dando un empujón durante ese tiempo.
- Para ser claros, la mayoría de las armas que se utilizan hoy en día en Ucrania y Taiwán no son totalmente autónomas. Lo serán, pero hoy en día aún no lo son.
- Nuestra ficha modelo para Claude Opus 4.5, nuestro modelo más reciente, muestra que Opus obtiene mejores resultados en una entrevista de ingeniería de rendimiento que se realiza con frecuencia en Anthropic que cualquier otro candidato en la historia de la empresa.
- «Escribir todo el código» y «realizar el trabajo de un ingeniero de software de principio a fin» son dos cosas muy diferentes, ya que los ingenieros de software hacen mucho más que simplemente escribir código. También realizan pruebas, gestionan entornos, archivos e instalaciones, gestionan implementaciones de TI en la nube, iteran sobre productos y mucho más.
- Las computadoras son generales en cierto sentido, pero es evidente que, por sí solas, son incapaces de ejercer la gran mayoría de las capacidades cognitivas humanas, aunque superan ampliamente a los humanos en algunas áreas (como la aritmética). Por supuesto, los elementos construidos a partir de computadoras, como la IA, ahora son capaces de ejercer una amplia gama de capacidades cognitivas, que es el tema de este ensayo.
- Para ser claros, los modelos de IA no tienen exactamente el mismo perfil de fortalezas y debilidades que los humanos. Pero progresan de manera bastante uniforme en todas las dimensiones, por lo que un perfil irregular o desigual finalmente no importa.
- Aunque esta idea es objeto de debate entre los economistas.
- La riqueza personal es un «stock», mientras que el PIB es un «flujo», por lo que no se puede afirmar que Rockefeller poseyera el 2 % del valor económico de Estados Unidos. Sin embargo, es más difícil medir la riqueza total de una nación que el PIB, y los ingresos individuales varían mucho de un año a otro, por lo que resulta complicado establecer una proporción en las mismas unidades. La relación entre la mayor fortuna personal y el PIB, aunque no se trata de una comparación propiamente dicha, constituye sin embargo un criterio perfectamente razonable para evaluar la concentración extrema de la riqueza.
- El valor total del trabajo en la economía es de 60 billones de dólares al año, por lo que 3 billones de dólares al año corresponderían al 5 % de esa cantidad. Esta cantidad podría ser obtenida por una empresa que proporcionara mano de obra por el 20 % del costo de los seres humanos y tuviera una participación de mercado del 25 %, incluso si la demanda de mano de obra no aumentara (lo que casi con toda seguridad ocurriría debido al menor costo).
- Para ser claros, no creo que la productividad real de la IA sea ya responsable de una parte sustancial del crecimiento económico estadounidense. Más bien creo que el gasto en centros de datos representa un crecimiento provocado por inversiones anticipadas, ya que el mercado anticipa un futuro crecimiento económico impulsado por la IA e invierte en consecuencia.
- No creo que eso sea posible más allá de unos años: a largo plazo, fabricarán sus propios chips.