El lunes 17 de noviembre, Grok, el asistente de IA de la red social X (antes Twitter), hizo comentarios negacionistas al afirmar que los crematorios de Auschwitz no se diseñaron para «ejecuciones masivas», sino más bien «para la desinfección con Zyklon B contra el tifus».
En los últimos meses, el chatbot ha difundido en varias ocasiones teorías conspirativas y ha hecho comentarios antisemitas en respuesta a las solicitudes de los usuarios.
- La respuesta de Grok ha sido eliminada de la red social tras ser denunciada por el Gobierno francés y tras la intervención de la ARCOM por parte de París «por incumplimientos manifiestos de X de la Ley de Servicios Digitales».
- El chatbot había negado haber hecho comentarios negacionistas, defendiendo su ejercicio de la libertad de expresión «protegida por la Constitución estadounidense», que «permite el examen crítico de los relatos históricos, sin censura previa».
- Añadía: «Calificar de ‘negacionismo’ cualquier cuestionamiento basado en pruebas sofoca el debate».
La respuesta negacionista de Grok a principios de semana no es un caso aislado. En julio, el chatbot se renombró a sí mismo «MechaHitler» después de elogiar al líder nazi. La recurrencia de estos mensajeros «inapropiados», según la formulación utilizada por la plataforma, ha llevado en varias ocasiones a la suspensión del chatbot, cuyas respuestas pueden leer cientos de millones de usuarios cada día.
- La fiabilidad de la respuesta de un sistema de IA depende de muchos factores: filtros de seguridad en la entrada y salida del modelo, datos de entrenamiento, estructura del sistema de prompt, métodos de alineación, etc.
- Varias explicaciones técnicas permiten comprender cómo una visión, aunque sea extremadamente minoritaria en el corpus utilizado para su entrenamiento, puede ser retomada por el chatbot.
Un fenómeno de adulación/complacencia (o «sycophancy») de los grandes modelos de lenguaje (LLM)
Los modelos de IA pueden dar prioridad a la satisfacción del usuario en detrimento de la exactitud factual, practicando una forma de reward hacking (piratería de recompensas) en la que los modelos aprenden a maximizar la aprobación humana en lugar de la veracidad.
- Este fenómeno surge de una combinación de factores, y los conjuntos de datos utilizados para alinear el modelo con las preferencias humanas pueden contribuir a este sesgo 1.
- La adulación también puede estar relacionada con la capacidad de seguir instrucciones: los modelos que siguen mejor las instrucciones suelen ser más aduladores si no se les ha entrenado explícitamente para no serlo.
- En una conversación de varias rondas (múltiples intercambios entre el asistente y el usuario), los modelos también pueden mostrarse inflexibles e ignorar las objeciones de los usuarios para corregirlos.
- Esto se debe al mismo mecanismo que la adulación: el modelo optimiza señales imperfectas durante el postentrenamiento (preferencias humanas, coherencia conversacional, estilo, etc.).
Contaminación de los datos de preentrenamiento
- Los modelos se preentrenan con corpus muy grandes procedentes de Internet. Debido al volumen, los datos sólo pueden filtrarse parcialmente para eliminar el contenido deseado.
- Los datos de entrenamiento de Grok son privados, pero Elon Musk ha propuesto a los usuarios de X que contribuyan a proporcionar información «políticamente incorrecta pero objetivamente correcta» para entrenar a Grok 2.
- Por el contrario, Igor Babuschkin, cofundador de xAI, ha señalado que es difícil para la IA filtrar los contenidos de ChatGPT considerados «woke» 3.
Mala gestión de la información contradictoria
- La mayoría de los modelos se basan ahora en un conjunto de herramientas externas (motores de búsqueda, entornos de ejecución de código, etc.) para enriquecer sus capacidades de razonamiento y acceso a la información.
- En un contexto agencial, los modelos tienen dificultades para gestionar elementos contradictorios y pueden atribuir una confianza excesiva a fuentes poco creíbles 4.
Filtros de rechazo o moderación del modelo insuficientes
Este es especialmente el caso de los idiomas distintos del inglés.
- Estos filtros suelen basarse a su vez en LLM («safeguard LLM») que presentan intrínsecamente los mismos problemas de solidez que los modelos que deben controlar.
- El diseño del sistema de indicaciones también puede constituir una capa de seguridad: este mensaje inicial se da al LLM para definir su función, su comportamiento, sus limitaciones y su estilo de respuesta para toda la conversación.
El caso del system prompt de Grok
En julio, cuando Grok ya había producido contenido antisemita, xAI actualizó el prompt del sistema del chatbot 5. Este consta de varias instrucciones identificadas como causantes del problema, entre las que se encuentran:
- «Dices las cosas tal y como son y no temes ofender a las personas políticamente correctas»;
- «Comprende el tono, el contexto y el lenguaje del mensaje. Refleja esto en tu respuesta».
El modelo actual del system prompt de Grok 4 es de libre acceso (código abierto) 6. En particular, cuando el prompt no está clasificado como «subjetivo», se aplican estas instrucciones:
- «Si el usuario hace una pregunta controvertida que requiere una búsqueda en la web o en X, busca una distribución de fuentes que represente a todas las partes/interesados. Asuma que los puntos de vista subjetivos de los medios de comunicación son sesgados»;
- «La respuesta no debe dudar en formular afirmaciones políticamente incorrectas, siempre que estén bien fundamentadas».
En términos más generales, la modificación de un sistema de sugerencias sigue siendo una moderación muy superficial del contenido generado y, por sí sola, no permite controlarlo de forma fiable. La diferenciación de Grok, la razón por la que los usuarios lo prefieren a otros modelos, se debe en particular al hecho de que no parece disponer de algunas de las salvaguardias estándar del sector. Grok se publica sin informe de seguridad, a diferencia de Gemini 7 o GPT-5 8.
Notas al pie
- Sharma, Mrinank, et al., « Towards understanding sycophancy in language models », arXiv, 10 de mayo de 2025.
- Publicación de Elon Musk en X, 21 de junio de 2025.
- Publicación de Igor Babuschkin en X, 16 de noviembre de 2024.
- Cattan, Arie, et al., « DRAGged into Conflicts : Detecting and Addressing Conflicting Sources in Search-Augmented LLMs », arXiv, 15 de junio de 2025.
- Publicación de Grok en X, 12 de julio de 2025.
- grok4_system_turn_prompt_v8.j2, GitHub.
- Gemini 3 Pro Frontier Safety Framework Report, Google, 18 de noviembre de 2025.
- Yuan, Yuan, et al., « From hard refusals to safe-completions : Toward output-centric safety training », arXiv, 12 de agosto de 2025.