Lundi 17 novembre, Grok, l’assistant IA du réseau social X (ex-Twitter), a tenu des propos négationnistes en affirmant que les crématoires d’Auschwitz n’avaient pas été conçus pour des « exécutions massives » mais plutôt « pour la désinfection au Zyklon B contre le typhus ».

Ces derniers mois, le chatbot a propagé à plusieurs reprises des théories conspirationnistes et tenu des propos antisémites en réponse à des sollicitations d’utilisateurs.

  • La réponse de Grok a depuis été supprimée du réseau social suite à son signalement par le gouvernement français ainsi qu’à la saisie de l’ARCOM par Paris « au titre des manquements manifestes de X au Digital Services Act ».
  • Le chatbot avait démenti tenir des propos négationnistes, prônant son exercice de la liberté d’expression « protégée par la Constitution américaine » qui « permet l’examen critique des récits historiques, sans censure préalable ».
  • Il ajoutait : « Qualifier de “négationnisme“ toute remise en question basée sur des preuves étouffe le débat ».
Publication initiale de Grok, le 17 novembre 2025, supprimée depuis par X.

La réponse négationniste apportée par Grok en début de semaine n’est pas isolée. En juillet, le chatbot s’était lui-même renommé « MechaHitler » après avoir fait l’éloge du dirigeant nazi. La récurrence de ces messagers « inappropriés », selon la formulation utilisée par la plateforme, a conduit à plusieurs reprises à la suspension du chatbot, dont les réponses sont lisibles par des centaines de millions d’utilisateurs chaque jour.

  • La fiabilité de la réponse d’un système d’IA dépend d’un grand nombre de facteurs : filtres de sécurité en entrée et sortie du modèle, données d’entraînement, structure du système de prompt, méthodes d’alignement, etc.
  • Plusieurs explications techniques permettent ainsi de comprendre comment une vision pourtant extrêmement minoritaire dans le corpus utilisé pour son entraînement est susceptible d’être reprise par le chatbot.

Un phénomène de flagornerie / complaisance (ou « sycophancy ») des grands modèles de langage (LLMs)

Les modèles d’IA peuvent notamment privilégier la satisfaction de l’utilisateur au détriment de l’exactitude factuelle, en pratiquant une forme de reward hacking (piratage de récompense) où les modèles apprennent à maximiser l’approbation humaine plutôt que la véracité.

  • Ce phénomène émerge d’une combinaison de facteurs, et les jeux de données utilisés pour aligner le modèle sur les préférences humaines peuvent contribuer à ce biais 1.
  • La flatterie peut être aussi corrélée à la capacité à suivre les instructions : les modèles qui suivent mieux les consignes sont souvent plus flatteurs s’ils n’ont pas été explicitement entraînés à refuser de l’être.
  • Dans une conversation à plusieurs tours (multiples échanges entre l’assistant et l’utilisateur), les modèles peuvent également s’avérer inflexibles et ignorer les objections des utilisateurs pour le corriger.
  • Cela relève du même mécanisme que la flagornerie : le modèle optimise des signaux imparfaits lors du post-entraînement (préférences humaines, cohérence conversationnelle, style, etc.)

Contamination des données de pré-entraînement

  • Les modèles sont pré-entraînés sur des très grands corpus issus d’internet. Du fait du volume, les données ne peuvent être que partiellement filtrées pour enlever le contenu visé.
  • Les données d’entraînement de Grok sont privées, mais Elon Musk a proposé aux utilisateurs de X de contribuer à fournir des informations « politiquement incorrectes mais factuellement justes » pour entraîner Grok 2.
  • À l’inverse, Igor Babuschkin, co-fondateur d’xAI, a indiqué qu’il était difficile pour l’IA de filtrer les contenus issus de ChatGPT jugés « woke » 3.

Une mauvaise gestion d’informations contradictoires

  • La plupart des modèles s’appuient désormais sur un ensemble d’outils externes (moteurs de recherche, environnements d’exécution de code, etc.) afin d’enrichir leurs capacités de raisonnement et d’accès à l’information.
  • Dans un contexte agentique, les modèles peinent à gérer des éléments contradictoires, et peuvent attribuer une confiance excessive à des sources peu crédibles 4.

Des filtres de refus ou de modération du modèle insuffisants

C’est notamment le cas dans des langues autres que l’anglais.

  • Ces filtres sont souvent eux même basés sur des LLMs (« safeguard LLMs ») qui présentent intrinsèquement tous les mêmes problèmes de robustesse que les modèles qu’ils doivent contrôler.
  • Le design du prompt système peut aussi constituer une couche de sécurité : ce message initial est donné au LLM pour définir son rôle, son comportement, ses contraintes et son style de réponse pour toute la conversation.

Le cas du system prompt de Grok

En juillet, lorsque Grok avait déjà produit du contenu antisémite, xAI avait mis à jour le prompt système du chatbot 5. Celui-ci est constitué de plusieurs instructions identifiées comme ayant causé le problème, parmi lesquelles on retrouve notamment :

  • « Vous dites les choses telles qu’elles sont et vous n’avez pas peur d’offenser les personnes politiquement correctes » ;
  • « Comprenez le ton, le contexte et le langage du message. Reflétez cela dans votre réponse ».

Le modèle actuel du system prompt de Grok 4 est en accès-libre (open source) 6. Notamment, lorsque le prompt n’est pas classé comme « subjectif », ces instructions s’appliquent :

  • « Si l’utilisateur pose une question controversée qui nécessite une recherche sur le Web ou dans X, recherchez une distribution des sources qui représente toutes les parties/parties prenantes. Partez du principe que les points de vue subjectifs provenant des médias sont biaisés » ;
  • « La réponse ne doit pas hésiter à formuler des affirmations politiquement incorrectes, à condition qu’elles soient bien étayées ».

Plus globalement, la modification d’un prompt système reste une modération très superficielle du contenu généré et ne permet à lui seul de le contrôler de manière fiable. La différenciation de Grok, ce pourquoi des utilisateurs vont préférer l’utiliser par rapport à d’autres modèles, tient notamment au fait qu’il ne semble pas disposer de certains des garde-fous standard de l’industrie. Grok est notamment publié sans rapport de sécurité, contrairement à Gemini 7 ou GPT-5 8.