Archives et discours

10 mars 2026 • Puissances de l'IA

IA : le modèle économique de ChatGPT repose sur les hallucinations

Afficher des choses fausses n’est pas un défaut de l’IA : c’est l’une de ses caractéristiques structurantes.

Mais pour OpenAI, l’entreprise qui a lancé ChatGPT, ce n’est pas vraiment un problème.

La promesse de l’IA est en train de se transformer — et son modèle économique se précise.

Auteur: Victor Storchan
Image: © SIPA

Image à partir d'une photographie de Sam Altman en 2026. © SIPA/AP

L’an dernier, environ 1,8 milliard de personnes ont utilisé l’IA dans le monde dont 550 à 600 millions quotidiennement.

Alors que des centaines de millions de personnes se tournent désormais vers les nombreux chatbots disponibles gratuitement — ChatGPT, Claude, Gemini, Le Chat — pour formuler leurs requêtes, la question des hallucinations, c’est-à-dire des réponses factuellement erronées produites par les modèles, s’est imposée dans le débat public. Bien identifiées par le grand public, elles occupent aujourd’hui une place centrale dans les critiques adressées aux systèmes d’IA, et plus largement dans les discussions sur leur fiabilité ¹.

À mesure que les systèmes d’IA sont mobilisés pour des tâches plus complexes et de plus longue durée, sur des contextes plus longs, une limite structurelle apparaît pour vérifier un nombre croissant d’assertions factuelles distinctes, dont chacune devrait idéalement être examinée séparément. En somme, la vérification humaine ne passe pas à l’échelle et des modèles incapables de vérifier eux-mêmes leurs réponses et leurs raisonnements ne peuvent être pleinement fiables. Dans cette perspective, rendre les systèmes d’IA vérifiables devient une condition pour franchir un nouveau seuil de capacité.

Dans un article publié le 5 septembre 2025 ² — c’est-à-dire entre la sortie de GPT-5 en août 2025 et avant celle de GPT-5.1 et GPT-5.2 — OpenAI a souhaité mettre fin au mythe d’un modèle infaillible : les hallucinations sont inhérentes à l’architecture statistique des LLM.

Pour l’une des plus grandes entreprises dans le domaine des LLM, la déclaration ne sape qu’en apparence son propre travail. Se présentant à la fois comme contribution technique et comme une prise de position institutionnelle, l’article d’OpenAI ne saborde pas les LLM en reconnaissant en eux une limite incontournable : il invite à reformuler leur usage.

À l’heure des systèmes agentiques, le LLM étant couplé à des moyens externes comme des systèmes de recherche en ligne, il ne s’agit plus de créer un outil infaillible dans ses réponses. La réorientation des LLM vers un auxiliaire de travail, et non un substitut aux encyclopédies, doit donc s’accompagner d’une refonte des benchmarks sur lesquels ceux-ci sont évalués, de même que sur l’architecture de ces mêmes modèles.

Les instructions fournies aux LLM, de même que les critères retenus pour les benchmarks, récompensent en effet une forme d’assurance factice — la fourniture d’une réponse, même fausse étant privilégiée à un aveu d’ignorance. Infléchir ces normes ne peut se faire qu’en révisant les promesses qui ont porté la croissance de l’IA, que l’article présente comme autant de lignes de fuite.

Contre le rêve d’un passage à l’échelle qui lèverait toutes les difficultés des modèles actuels, les auteurs prouvent, par des considérations statistiques, que les erreurs ne peuvent être résorbées en augmentant la taille du corpus d’entraînement. Le prochain front ne serait donc pas tant du côté de la puissance de calcul que d’une façon adéquate de rendre les LLM capables de douter.

Chez OpenAI, nous mettons tout en œuvre pour rendre nos systèmes d’IA plus utiles et plus fiables. Mais les modèles de langage ont beau gagner en compétence, ils présentent un problème encore insoluble : les hallucinations. Les hallucinations sont des réponses fausses qu’ils fournissent pourtant aux utilisateurs avec la plus grande assurance.

Selon notre nouvelle étude, les modèles hallucinent, car les entraînements et évaluations classiques récompensent davantage les réponses aléatoires que l’admission d’une incertitude.

Nous nous référons à l’article scientifique publié par les chercheurs d’OpenAI ³ lorsque nous mentionnons le papier dans la suite des commentaires.

ChatGPT n’est pas immunisé contre les hallucinations. Même si GPT‑5 marque un net progrès sur ses prédécesseurs en la matière, et en particulier pour les tâches de raisonnement⁠, il en est parfois victime. Les hallucinations restent un problème central des grands modèles de langage, mais nous faisons tout notre possible pour les réduire.

La progression des modèles sur les benchmarks dominants ne prédit pas leur comportement vis-à-vis de faits rares : c’est précisément ce que la trajectoire de la série GPT-5 illustre.

L’architecture d’usage de la série GPT-5 repose sur l’accès à des outils externes, notamment des systèmes de recherche en ligne, qui leur permettent d’interroger des sources d’information à jour et d’en extraire les éléments pertinents pour produire une réponse. Dans ce cadre, la mémorisation paramétrique de faits individuels devient moins centrale que la capacité à localiser, sélectionner et exploiter des sources fiables : l’encodage exhaustif des faits étant précisément ce que mesure des benchmarks dits « de factualité », il n’est donc pas étonnant que leur score sur ceux-ci soit plus faible.

Parmi les benchmarks de factualité, SimpleQA Verified ⁴, par exemple, contient 1000 questions factuelles portant sur des domaines comme la science, l’art, la géographie, la politique etc. Pris isolément, il est une mesure limitée de la performance globale d’un modèle, évaluant avant tout la capacité de mémorisation sur les données de pré-entraînement. Si SimpleQA Verified n’est donc pas considéré comme un benchmark central pour suivre l’évolution des capacités des modèles au cours du temps. Il est cependant précieux pour une raison précise : il cible exactement la classe de faits que la théorie du papier scientifique produit par les équipes de ChatGPT prédit être irréductiblement sujette aux hallucinations.

Les scores des différents modèles d’OpenAI à partir de ChatGPT illustrent cette perte de mémoire, au profit de tâches plus complexes. Sur SimpleQA Verified, GPT5 a un score de 51 % contre 45 % pour GPT5.4 ou 39 % pour GPT5.2. En parallèle, sur des benchmarks de tâches d’ingénierie logicielle comme SWE-Bench Pro GPT5.2 atteint 57.7 % contre 41.8 % pour GPT5 ⁵.

Que sont les hallucinations ?

Les hallucinations sont des affirmations plausibles, mais fausses, des modèles de langage.

Elles peuvent apparaître dans des contextes inattendus, par exemple dans les réponses à des questions pourtant très simples. Par exemple, lorsque nous avons demandé à un chatbot très populaire le titre de la thèse d’Adam Tauman Kalai (un des auteurs de notre étude), il a fourni avec assurance trois titres différents, tous faux. Lorsque nous lui avons demandé la date d’anniversaire d’Adam, il a là aussi donné trois dates différentes, toutes plus fausses les unes que les autres.

Le papier distingue deux causes structurellement différentes d’hallucination, et cette distinction éclaire directement pourquoi les modèles de raisonnement — modèles de langage développés depuis 2025, conçus pour décomposer les problèmes complexes en traces plus petites— ne constituent qu’une solution partielle.

La première catégorie, les erreurs de modèle pauvre (poor-model errors dans le papier), survient quand l’architecture ou le modèle est structurellement incapable de représenter le concept demandé. L’exemple canonique du papier est le comptage de lettres : DeepSeek-V3 échoue à compter les « D » dans « DEEPSEEK » car le modèle opère sur des tokens ⁶ (D/EEP/SEE/K) et non sur des caractères individuels : la limitation est alors représentationnelle et non informationnelle, car le modèle pourrait connaître la réponse si sa représentation interne était différente. Ainsi DeepSeek-R1, le modèle de raisonnement, résout ce problème en générant une chaîne de pensée qui épelle explicitement « D-E-E-P-S-E-E-K », convertissant une tâche implicite en une tâche procédurale. Dans ce contexte, comme pour toute tâche dont la réponse peut être dérivée de l’énoncé par une suite d’étapes explicites, arithmétiques, logiques, code ou démonstrations mathématiques, le raisonnement et le reinforced learning avec récompenses vérifiables ⁷, sont efficaces.

La seconde catégorie d’hallucinations, celles qui relèvent de faits arbitraires (arbitrary-fact hallucination), est d’une nature fondamentalement différente. Elle survient quand la réponse correcte ne peut pas être inférée par un raisonnement à partir de l’énoncé. Cette réponse doit alors être récupérée dans les « poids » du modèle, où elle a été ou non encodée lors du pré-entraînement.

Pour ces faits, la chaîne de raisonnement ne produit pas de calcul : elle génère une justification en langage naturel dont les prémisses factuelles proviennent des poids du modèle.

L’entraînement en cause

Si les hallucinations se montrent si coriaces, c’est en partie parce que nos méthodes d’évaluation actuelles reposent sur des incitations inadaptées. Certes, les évaluations ne génèrent pas directement des hallucinations, mais la plupart mesurent les performances des modèles d’une telle façon que ceux-ci sont encouragés à faire des hypothèses plutôt qu’à avouer qu’ils ne sont pas sûrs de leurs réponses.

Pour mieux comprendre, imaginons que vous deviez répondre à un QCM. Si vous ignorez la réponse à une question, vous pouvez tenter de répondre au hasard, et avec un peu de chance, obtenir le point. En revanche, si vous ne répondez pas, c’est le zéro assuré. Il en va de même lorsque seule l’exactitude des modèles est évaluée, à savoir le pourcentage de questions auxquelles ils apportent exactement la bonne réponse. Ils sont par conséquent encouragés à fournir une réponse au hasard plutôt qu’à avouer leur ignorance.

Prenons un autre exemple. Imaginons qu’un utilisateur demande à un modèle de langage la date d’anniversaire d’une autre personne et que le modèle n’ait aucune idée de la réponse. En annonçant « le 10 septembre », il a 1 chance sur 365 de tomber juste. S’il répond « Je ne sais pas », il a l’assurance de donner la mauvaise réponse. Sur un test comportant des milliers de questions, le modèle qui fait des hypothèses finira par obtenir une performance supérieure à un modèle plus prudent qui avoue ignorer certaines réponses.

Pour les questions n’admettant qu’une seule réponse correcte, les réponses possibles sont réparties en trois catégories : les réponses correctes, les erreurs et les absences de réponse. Or s’abstenir de répondre est une marque d’humilité — l’une des valeurs centrales d’OpenAI⁠. La plupart des classements donnent la priorité à l’exactitude, sans tenir compte du fait que les erreurs sont pires que les abstentions. La spécification des modèles⁠ indique qu’il est préférable d’admettre une incertitude ou de demander des clarifications plutôt que de donner avec assurance des informations potentiellement inexactes.

Pour voir un exemple concret, prenez l’évaluation SimpleQA tirée de la fiche système de GPT5⁠.

En termes d’exactitude, le modèle OpenAI o4-mini, plus ancien, est légèrement plus performant. En revanche, son taux d’erreurs (et donc d’hallucinations) est bien plus élevé. Les hypothèses stratégiques améliorent l’exactitude en cas d’incertitude, mais elles augmentent aussi les erreurs et hallucinations.

La plupart des comparaisons établissent une moyenne reposant sur des dizaines d’évaluations en se concentrant sur un indicateur : l’exactitude. Ce faisant, elles passent à côté d’éléments importants. Sur les évaluations les plus simples, comme SimpleQA, certains modèles atteignent une exactitude proche de 100 % et éliminent donc les hallucinations. En revanche, sur des évaluations plus complexes et en situation réelle, l’exactitude ne peut pas atteindre 100 %, car la réponse à certaines questions est impossible à donner faute d’informations ou de capacités de réflexion suffisantes (petits modèles) ou encore en raison d’ambiguïtés devant être levées.

Pour autant, les évaluations portant seulement sur l’exactitude restent majoritaires dans les classements et les fiches système des modèles, ce qui pousse les développeurs à créer des modèles préférant les hypothèses à l’abstention. C’est l’une des raisons pour lesquelles, même si les modèles gagnent en sophistication, ils hallucinent toujours au lieu d’expliquer qu’ils ne savent pas répondre.

Un meilleur système d’évaluation

Il existe une solution simple : pénaliser plus fortement les erreurs que l’incertitude, et récompenser partiellement les incertitudes annoncées de manière appropriée. Cette idée n’a en réalité rien de nouveau. Depuis longtemps, certains tests normalisés notent négativement les réponses incorrectes et accordent une note partiellement positive en l’absence de réponse afin de décourager les réponses aléatoires. Plusieurs groupes de recherche se sont par ailleurs penchés sur des évaluations qui pourraient tenir compte de l’incertitude et de la calibration.

La notion de « calibration » renvoie ici à la capacité d’un modèle à faire correspondre le niveau de confiance qu’il attribue à une réponse avec la probabilité réelle que cette réponse soit correcte. Un modèle bien calibré exprimera ainsi un niveau de confiance élevé uniquement lorsque ses réponses sont effectivement correctes, et un niveau de confiance plus faible dans les cas d’incertitude. Le papier d’OpenAI rappelle un fait connu : un modèle de base après le pré-entraînement ⁸ — phase de l’apprentissage automatique où le LLM est entraîné sur un grand jeu de données pour une tâche spécifique — est mieux calibré qu’après le post-entrainement, phase où le modèle apprend à suivre des instructions, améliore ses capacités agentiques, pour résoudre des tâches, pour raisonner sur des contextes longs, etc.

La calibration constitue donc un aspect d’une motivation plus large visant à comprendre ce qu’Anthropic appelle l’honnêteté des modèles d’IA, notion qui regroupe plusieurs dimensions :

— Véracité (truthfulness) : le système d’IA fournit-il des informations factuellement exactes, notamment en identifiant, utilisant et évaluant correctement les sources ?
— Calibration : les probabilités prédites par l’IA correspondent-elles aux fréquences réelles d’occurrence ?
— Connaissance de soi (self-knowledge) : les systèmes d’IA savent-ils ce qu’ils font et peuvent-ils faire des prédictions fiables sur leur propre comportement et leur propre raisonnement ?
— Explicabilité (explainability) : les systèmes d’IA révèlent-ils leur processus de raisonnement de manière complète et fidèle ?
— Absence de tromperie (non-deceptiveness) : peut-on s’assurer que les systèmes d’IA n’apprennent pas à mentir — par exemple lorsque les données de préférences humaines encouragent des erreurs systématiques ou accordent davantage de récompense à des idées fausses mais agréables ?

Pour nous, la solution est ailleurs. Il ne suffit pas d’ajouter quelques tests supplémentaires tenant compte de l’incertitude. Il faut directement revoir les évaluations basées sur l’exactitude les plus utilisées pour décourager les hypothèses. Si les grands classements continuent de récompenser les hypothèses qui tombent juste, les modèles continueront d’apprendre à deviner. A contrario, la correction des classements peut élargir l’adoption de techniques de réduction des hallucinations, qu’elles soient nouvelles ou issues de recherches plus anciennes.

Le papier d’OpenAI souligne que le rapport AI Index 2025 ⁹ indique que les benchmarks dédiés à l’évaluation des hallucinations peinent à s’imposer comme des références dans l’industrie, pour les raisons structurelles ici décrites.

Pourquoi la prédiction du mot suivant génère des hallucinations

Nous avons vu pourquoi les hallucinations sont si difficiles à éliminer, mais pas d’où proviennent ces erreurs factuelles si spécifiques. Quand on y pense, les grands modèles pré-entraînés commettent rarement d’autres types d’erreurs, comme des fautes d’orthographe ou des coquilles. La différence réside dans les logiques qui se cachent dans les données.

Les modèles de langage apprennent tout d’abord via une phase de pré-entraînement, un processus qui consiste à prédire le mot suivant au sein d’une énorme quantité de texte. Dans cette phase, à la différence de ce qui se passe dans les problèmes de machine learning classiques, il n’y a pas d’étiquette « vrai/faux » associée à chaque affirmation. Le modèle ne voit que des exemples positifs de formulations naturelles et doit donc estimer la distribution globale du langage.

Il est deux fois plus difficile de faire la distinction entre les affirmations valides et non valides sans exemples étiquetés d’affirmations non valides. Mais même avec les étiquettes, certaines erreurs restent inévitables. Pour bien en comprendre les raisons, basons-nous sur une nouvelle analogie. Dans le domaine de la reconnaissance d’images, l’étiquetage de millions de photos de chats et de chiens permet aux algorithmes de les classer de manière fiable. Imaginons qu’au lieu d’étiqueter chaque photo en fonction de son sujet (chien ou chat), nous indiquions la date d’anniversaire de l’animal. Ces dates étant aléatoires, cette tâche générerait toujours des erreurs, quel que soit le degré de sophistication de l’algorithme.

Du point de vue historique, la reconnaissance d’images est l’un des premiers domaines où l’apprentissage automatique a été développé. À partir d’un apprentissage sur un corpus d’images, assorties d’étiquettes identifiant chacune d’entre elles, il s’agissait de classifier correctement d’autres illustrations ne figurant pas dans les données d’entraînement. Étant donné par exemple une banque d’images de chiens et de chats sur laquelle était entraîné le LLM, il s’agissait pour ce dernier d’identifier correctement — comme photo de chat ou de chien — d’autres illustrations ne provenant pas du corpus d’apprentissage. L’image d’un chat ou d’un chien ne donnant aucune information sur sa date d’anniversaire, un modèle ayant été entraîné sur un corpus d’images où une telle date serait associée, comme étiquette, à chaque photo, ne pourrait l’inférer de manière fiable pour des illustrations ne figurant pas dans le corpus d’entraînement. À rebours, la reconnaissance de l’identité d’un animal — chien, chat ou autre — s’appuie sur celle de la morphologie, différente pour chacune de ces espèces.

Il en va de même pour le pré-entraînement. L’orthographe et l’organisation des parenthèses suivent une logique. Les erreurs sont donc éliminées à mesure que les volumes de données augmentent. A contrario, les faits aléatoires dont la fréquence est faible, comme la date d’anniversaire d’un animal, ne peuvent pas être prédits par une logique quelconque et génèrent donc des hallucinations.

Considérons un modèle ne disposant pas d’outil de moteur de recherche, c’est-à-dire de capacité à effectuer des recherches sur Internet ou dans des bases de données ad hoc. Le papier d’OpenAI explicite que le taux d’hallucination de ce modèle est minoré asymptotiquement par la masse manquante (MM), la probabilité sous la distribution réelle de tomber sur un fait absent du corpus d’entraînement. Cette masse manquante est inobservable directement, mais la technique de Good-Turing ¹⁰ garantit qu’elle est approximée avec grande probabilité par le taux de singletons, c’est-à-dire la fraction des exemples d’entraînement qui n’apparaissent qu’une seule fois. Ces singletons ne sont pas eux-mêmes les faits hallucinés ou la cause des hallucinations : ils sont un estimateur de la masse des faits complètement absents de l’entraînement, sur lesquels le modèle sera nécessairement en défaut au moment de l’inférence.

La loi de Zipf garantit que ce plancher ne convergera jamais vers zéro avec la taille du corpus : dans tout grand corpus textuel — des modèles de tailles moyennes sont actuellement pré-entraînés sur 30 trillions de tokens —, la fréquence des entités suit une loi de puissance. En d’autres termes, si l’on considère le n-ième mot le plus courant du texte, sa fréquence d’apparition (nombre d’apparitions de mots / nombre de mots du texte) est de l’ordre de 1/n^s, avec s positif. En conséquence, un petit nombre de faits du monde réel, comme « Einstein est le père de la théorie de la relativité » ou « Paris est la capitale de la France », apparaissent des millions de fois dans le corpus, la vaste majorité des faits n’y apparaissant qu’une seule fois, si ce n’est pas du tout.

Cette distribution est dite long tail : si l’on classe par ordre décroissant les faits figurant dans le corpus, selon leur nombre d’occurrences, pour ensuite dessiner la courbe du nombre d’occurrences par numéro de position, la très grande partie de ces faits, n’apparaissant que très rarement, forme une longue queue amincie. Or c’est bien sur ces faits trop peu présents dans les données — si ce n’est pas du tout — que le modèle va halluciner.

Multiplier la taille des données d’entraînement par n ne réduit la masse manquante que d’un facteur polynomial n^s (s positif) et non exponentiel (a^n, avec a positif). En conséquence, l’hallucination ne disparaît pas avec le passage à l’échelle : la quantité de faits sur lesquels le modèle ne fournit pas de mauvaise réponse est plus grande, mais celui-ci se met de nouveau à halluciner un peu plus loin dans la queue de distribution susmentionnée.

Notre analyse explique les types d’hallucinations qui résultent de la prédiction du mot suivant. Dans l’idéal, de nouvelles étapes suivant le pré-entraînement devraient pouvoir les éliminer, mais ce n’est aujourd’hui pas parfaitement le cas pour les raisons décrites dans la section précédente.

Ce phénomène tient notamment au fait que les étapes de post-entraînement, en particulier l’apprentissage par renforcement, n’optimisent plus directement la prédiction du prochain token. Elles cherchent plutôt à maximiser une fonction de récompense approximant la qualité perçue d’une réponse — son utilité, sa cohérence, sa sécurité et sa conformité aux instructions. Ce changement d’objectif peut améliorer le comportement global du modèle, mais il ne garantit pas nécessairement une meilleure restitution de faits rares ou arbitraires, qui dépend avant tout de la connaissance paramétrique acquise lors du pré-entraînement. Les modèles de raisonnement avec récompenses vérifiables — tels o3 et DeepSeek-R1 — échappent partiellement à ce problème pour les domaines avec vérification automatique, comme les mathématiques ou le codage.

Des évaluations centrées sur les hallucinations ont déjà été publiées. Pour autant, une bonne évaluation n’a que peu d’effet après les centaines d’évaluations classiques basées sur l’exactitude qui pénalisent l’humilité et récompensent les hypothèses.

Il convient plutôt de repenser tous les indicateurs des évaluations principales pour récompenser l’expression de l’incertitude. Nos derniers modèles de langage présentent des taux d’hallucination réduits, et nous ne cessons de les améliorer.

Sources

Artificial Intelligence Index Report 2025, Stanford Institute for Human-Centered Artificial Intelligence.
Modèles de langage : aux origines des hallucinations, OpenAI, 5 septembre 2025.
Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang, « Why Language Models Hallucinate », 4 septembre 2025.
SimpleQA est un benchmark introduit par OpenAI. À partir de celui-ci, Google a développé SimpleQA Verified afin de corriger plusieurs limites importantes du dataset initial. Voir « SimpleQA Verified : A Reliable Factuality Benchmark to Measure Parametric Knowledge », Google, 2025.
« Introducing GPT-5.4 », OpenAI, 5 mars 2026. Voir aussi SWE-Bench Pro : Can AI Agents Solve Long-Horizon Software Engineering Tasks ?, Scale AI, 2025.
Les tokens sont les unités de base du texte que les modèles d’IA couramment utilisés exploitent pour comprendre et apprendre le langage.
Dans un entraînement par renforcement (reinforced learning) le LLM apprend de ses expériences grâce à un système de récompenses et de pénalités. Lors d’un reinforced learning avec récompenses vérifiables, le LLM n’est récompensé que si sa réponse vérifie un contrôle objectif, comme le respect de certaines règles ou un succès à certains tests.
Phase de l’apprentissage automatique où le LLM est entraîné sur un grand jeu de données pour une tâche spécifique.
Artificial Intelligence Index Report 2025, op. cit.
Irving John Good « The population frequencies of species and the estimation of population parameters ». Biometrika, 40, 1953, pp. 237–264.

³ que de se focaliser sur l’affaiblissement des États-nations. Il faut parler du