{"id":321318,"date":"2026-03-10T17:09:04","date_gmt":"2026-03-10T16:09:04","guid":{"rendered":"https:\/\/legrandcontinent.eu\/fr\/?p=321318"},"modified":"2026-03-10T17:10:59","modified_gmt":"2026-03-10T16:10:59","slug":"hallucination-ia-chatgpt","status":"publish","type":"post","link":"https:\/\/legrandcontinent.eu\/fr\/2026\/03\/10\/hallucination-ia-chatgpt\/","title":{"rendered":"IA : le mod\u00e8le \u00e9conomique de ChatGPT repose sur les hallucinations"},"content":{"rendered":"\n

L\u2019an dernier, environ 1,8 milliard de personnes ont utilis\u00e9 l\u2019IA<\/a> dans le monde dont 550 \u00e0 600 millions quotidiennement.<\/p>\n\n\n\n

Alors que des centaines de millions de personnes se tournent d\u00e9sormais vers les nombreux chatbots disponibles gratuitement \u2014 ChatGPT, Claude, Gemini, Le Chat \u2014 pour formuler leurs requ\u00eates, la question des hallucinations, c\u2019est-\u00e0-dire des r\u00e9ponses factuellement erron\u00e9es produites par les mod\u00e8les, s\u2019est impos\u00e9e dans le d\u00e9bat public. Bien identifi\u00e9es par le grand public, elles occupent aujourd\u2019hui une place centrale dans les critiques adress\u00e9es aux syst\u00e8mes d\u2019IA, et plus largement dans les discussions sur leur fiabilit\u00e9 <\/span>1<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n

\u00c0 mesure que les syst\u00e8mes d\u2019IA sont mobilis\u00e9s pour des t\u00e2ches plus complexes et de plus longue dur\u00e9e, sur des contextes plus longs, une limite structurelle appara\u00eet pour v\u00e9rifier un nombre croissant d\u2019assertions factuelles distinctes, dont chacune devrait id\u00e9alement \u00eatre examin\u00e9e s\u00e9par\u00e9ment. En somme, la v\u00e9rification humaine ne passe pas \u00e0 l\u2019\u00e9chelle et des mod\u00e8les incapables de v\u00e9rifier eux-m\u00eames leurs r\u00e9ponses et leurs raisonnements ne peuvent \u00eatre pleinement fiables. Dans cette perspective, rendre les syst\u00e8mes d\u2019IA v\u00e9rifiables devient une condition pour franchir un nouveau seuil de capacit\u00e9.<\/p>\n\n\n\n

Dans un article publi\u00e9 le 5 septembre 2025 <\/span>2<\/sup><\/a><\/span><\/span> \u2014 c\u2019est-\u00e0-dire entre la sortie de GPT-5<\/a> en ao\u00fbt 2025 et avant celle de GPT-5.1 et GPT-5.2 \u2014 OpenAI a souhait\u00e9 mettre fin au mythe d\u2019un mod\u00e8le infaillible : les hallucinations sont inh\u00e9rentes \u00e0 l\u2019architecture statistique des LLM.\u00a0<\/p>\n\n\n\n

Pour l\u2019une des plus grandes entreprises dans le domaine des LLM, la d\u00e9claration ne sape qu\u2019en apparence son propre travail. Se pr\u00e9sentant \u00e0 la fois comme contribution technique et comme une prise de position institutionnelle, l\u2019article d\u2019OpenAI ne saborde pas les LLM en reconnaissant en eux une limite incontournable : il invite \u00e0 reformuler leur usage.<\/p>\n\n\n\n

\u00c0 l\u2019heure des syst\u00e8mes agentiques, le LLM \u00e9tant coupl\u00e9 \u00e0 des moyens externes comme des syst\u00e8mes de recherche en ligne, il ne s\u2019agit plus de cr\u00e9er un outil infaillible dans ses r\u00e9ponses. La r\u00e9orientation des LLM vers un auxiliaire de travail, et non un substitut aux encyclop\u00e9dies, doit donc s\u2019accompagner d\u2019une refonte des benchmarks<\/em> sur lesquels ceux-ci sont \u00e9valu\u00e9s, de m\u00eame que sur l\u2019architecture de ces m\u00eames mod\u00e8les.<\/p>\n\n\n\n

Les instructions fournies aux LLM, de m\u00eame que les crit\u00e8res retenus pour les benchmarks<\/em>, r\u00e9compensent en effet une forme d\u2019assurance factice \u2014 la fourniture d\u2019une r\u00e9ponse, m\u00eame fausse \u00e9tant privil\u00e9gi\u00e9e \u00e0 un aveu d\u2019ignorance. Infl\u00e9chir ces normes ne peut se faire qu\u2019en r\u00e9visant les promesses qui ont port\u00e9 la croissance de l\u2019IA, que l\u2019article pr\u00e9sente comme autant de lignes de fuite.<\/p>\n\n\n\n

Contre le r\u00eave d\u2019un passage \u00e0 l\u2019\u00e9chelle qui l\u00e8verait toutes les difficult\u00e9s des mod\u00e8les actuels, les auteurs prouvent, par des consid\u00e9rations statistiques, que les erreurs ne peuvent \u00eatre r\u00e9sorb\u00e9es en augmentant la taille du corpus d\u2019entra\u00eenement. Le prochain front ne serait donc pas tant du c\u00f4t\u00e9 de la puissance de calcul que d\u2019une fa\u00e7on ad\u00e9quate de rendre les LLM capables de douter.<\/p>\n\n\n\n

Chez OpenAI, nous mettons tout en \u0153uvre pour rendre nos syst\u00e8mes d\u2019IA plus utiles et plus fiables. Mais les mod\u00e8les de langage ont beau gagner en comp\u00e9tence, ils pr\u00e9sentent un probl\u00e8me encore insoluble : les hallucinations. Les hallucinations sont des r\u00e9ponses fausses qu\u2019ils fournissent pourtant aux utilisateurs avec la plus grande assurance.<\/p>\n\n\n\n

Selon notre nouvelle \u00e9tude, les mod\u00e8les hallucinent, car les entra\u00eenements et \u00e9valuations classiques r\u00e9compensent davantage les r\u00e9ponses al\u00e9atoires que l\u2019admission d\u2019une incertitude.<\/p>\n\n\n\n

Nous nous r\u00e9f\u00e9rons \u00e0 l\u2019article scientifique publi\u00e9 par les chercheurs d\u2019OpenAI <\/span>3<\/sup><\/a><\/span><\/span> lorsque nous mentionnons le papier dans la suite des commentaires.<\/p>\n\n\n\n

ChatGPT n\u2019est pas immunis\u00e9 contre les hallucinations. M\u00eame si GPT\u20115 marque un net progr\u00e8s sur ses pr\u00e9d\u00e9cesseurs en la mati\u00e8re, et en particulier pour les t\u00e2ches de raisonnement\u2060, il en est parfois victime. Les hallucinations restent un probl\u00e8me central des grands mod\u00e8les de langage, mais nous faisons tout notre possible pour les r\u00e9duire.<\/p>\n\n\n\n

La progression des mod\u00e8les sur les benchmarks<\/em> dominants ne pr\u00e9dit pas leur comportement vis-\u00e0-vis de faits rares : c’est pr\u00e9cis\u00e9ment ce que la trajectoire de la s\u00e9rie GPT-5 illustre.<\/p>\n\n\n\n

L\u2019architecture d\u2019usage de la s\u00e9rie GPT-5 repose sur l\u2019acc\u00e8s \u00e0 des outils externes, notamment des syst\u00e8mes de recherche en ligne, qui leur permettent d\u2019interroger des sources d\u2019information \u00e0 jour et d\u2019en extraire les \u00e9l\u00e9ments pertinents pour produire une r\u00e9ponse. Dans ce cadre, la m\u00e9morisation param\u00e9trique de faits individuels devient moins centrale que la capacit\u00e9 \u00e0 localiser, s\u00e9lectionner et exploiter des sources fiables : l\u2019encodage exhaustif des faits \u00e9tant pr\u00e9cis\u00e9ment ce que mesure des benchmarks<\/em> dits \u00ab de factualit\u00e9 \u00bb, il n\u2019est donc pas \u00e9tonnant que leur score sur ceux-ci soit plus faible.<\/p>\n\n\n\n

Parmi les benchmarks<\/em> de factualit\u00e9, SimpleQA Verified <\/span>4<\/sup><\/a><\/span><\/span>, par exemple, contient 1000 questions factuelles portant sur des domaines comme la science, l\u2019art, la g\u00e9ographie, la politique etc. Pris isol\u00e9ment, il est une mesure limit\u00e9e de la performance globale d’un mod\u00e8le, \u00e9valuant avant tout la capacit\u00e9 de m\u00e9morisation sur les donn\u00e9es de pr\u00e9-entra\u00eenement. Si SimpleQA Verified n\u2019est donc pas consid\u00e9r\u00e9 comme un benchmark<\/em> central pour suivre l\u2019\u00e9volution des capacit\u00e9s des mod\u00e8les au cours du temps. Il est cependant pr\u00e9cieux pour une raison pr\u00e9cise : il cible exactement la classe de faits que la th\u00e9orie du papier scientifique produit par les \u00e9quipes de ChatGPT pr\u00e9dit \u00eatre irr\u00e9ductiblement sujette aux hallucinations.<\/p>\n\n\n\n

Les scores des diff\u00e9rents mod\u00e8les d\u2019OpenAI \u00e0 partir de ChatGPT illustrent cette perte de m\u00e9moire, au profit de t\u00e2ches plus complexes. Sur SimpleQA Verified, GPT5 a un score de 51 % contre 45 % pour GPT5.4 ou 39 % pour GPT5.2. En parall\u00e8le, sur des benchmarks<\/em> de t\u00e2ches d’ing\u00e9nierie logicielle comme SWE-Bench Pro GPT5.2 atteint 57.7 % contre\u00a0 41.8 % pour GPT5 <\/span>5<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n

Que sont les hallucinations ?<\/h2>\n\n\n\n

Les hallucinations sont des affirmations plausibles, mais fausses, des mod\u00e8les de langage. <\/p>\n\n\n\n

Elles peuvent appara\u00eetre dans des contextes inattendus, par exemple dans les r\u00e9ponses \u00e0 des questions pourtant tr\u00e8s simples. Par exemple, lorsque nous avons demand\u00e9 \u00e0 un chatbot<\/em> tr\u00e8s populaire le titre de la th\u00e8se d\u2019Adam Tauman Kalai (un des auteurs de notre \u00e9tude), il a fourni avec assurance trois titres diff\u00e9rents, tous faux. Lorsque nous lui avons demand\u00e9 la date d\u2019anniversaire d\u2019Adam, il a l\u00e0 aussi donn\u00e9 trois dates diff\u00e9rentes, toutes plus fausses les unes que les autres. <\/p>\n\n\n\n

Le papier distingue deux causes structurellement diff\u00e9rentes d’hallucination, et cette distinction \u00e9claire directement pourquoi les mod\u00e8les de raisonnement \u2014 mod\u00e8les de langage d\u00e9velopp\u00e9s depuis 2025, con\u00e7us pour d\u00e9composer les probl\u00e8mes complexes en traces plus petites\u2014 ne constituent qu’une solution partielle.<\/p>\n\n\n\n

La premi\u00e8re cat\u00e9gorie, les erreurs de mod\u00e8le pauvre (poor-model errors<\/em> dans le papier), survient quand l’architecture ou le mod\u00e8le est structurellement incapable de repr\u00e9senter le concept demand\u00e9. L’exemple canonique du papier est le comptage de lettres : DeepSeek-V3 \u00e9choue \u00e0 compter les \u00ab D \u00bb dans \u00ab DEEPSEEK \u00bb car le mod\u00e8le op\u00e8re sur des tokens <\/span>6<\/sup><\/a><\/span><\/span> (D\/EEP\/SEE\/K) et non sur des caract\u00e8res individuels : la limitation est alors repr\u00e9sentationnelle et non informationnelle, car le mod\u00e8le pourrait conna\u00eetre la r\u00e9ponse si sa repr\u00e9sentation interne \u00e9tait diff\u00e9rente. Ainsi DeepSeek-R1, le mod\u00e8le de raisonnement, r\u00e9sout ce probl\u00e8me en g\u00e9n\u00e9rant une cha\u00eene de pens\u00e9e qui \u00e9pelle explicitement \u00ab D-E-E-P-S-E-E-K \u00bb, convertissant une t\u00e2che implicite en une t\u00e2che proc\u00e9durale. Dans ce contexte, comme pour toute t\u00e2che dont la r\u00e9ponse peut \u00eatre d\u00e9riv\u00e9e de l’\u00e9nonc\u00e9 par une suite d’\u00e9tapes explicites, arithm\u00e9tiques, logiques, code ou d\u00e9monstrations math\u00e9matiques, le raisonnement et le reinforced learning<\/em> avec r\u00e9compenses v\u00e9rifiables <\/span>7<\/sup><\/a><\/span><\/span>, sont efficaces.<\/p>\n\n\n\n

La seconde cat\u00e9gorie d\u2019hallucinations, celles qui rel\u00e8vent de faits arbitraires (arbitrary-fact hallucination<\/em>), est d’une nature fondamentalement diff\u00e9rente. Elle survient quand la r\u00e9ponse correcte ne peut pas \u00eatre inf\u00e9r\u00e9e par un raisonnement \u00e0 partir de l’\u00e9nonc\u00e9. Cette r\u00e9ponse doit alors \u00eatre r\u00e9cup\u00e9r\u00e9e dans les \u00ab poids \u00bb du mod\u00e8le, o\u00f9 elle a \u00e9t\u00e9 ou non encod\u00e9e lors du pr\u00e9-entra\u00eenement.<\/p>\n\n\n\n

Pour ces faits, la cha\u00eene de raisonnement ne produit pas de calcul : elle g\u00e9n\u00e8re une justification en langage naturel dont les pr\u00e9misses factuelles proviennent des poids du mod\u00e8le.<\/p>\n\n\n\n

L\u2019entra\u00eenement en cause<\/h2>\n\n\n\n

Si les hallucinations se montrent si coriaces, c\u2019est en partie parce que nos m\u00e9thodes d\u2019\u00e9valuation actuelles reposent sur des incitations inadapt\u00e9es. Certes, les \u00e9valuations ne g\u00e9n\u00e8rent pas directement des hallucinations, mais la plupart mesurent les performances des mod\u00e8les d\u2019une telle fa\u00e7on que ceux-ci sont encourag\u00e9s \u00e0 faire des hypoth\u00e8ses plut\u00f4t qu\u2019\u00e0 avouer qu\u2019ils ne sont pas s\u00fbrs de leurs r\u00e9ponses.<\/p>\n\n\n\n

Pour mieux comprendre, imaginons que vous deviez r\u00e9pondre \u00e0 un QCM. Si vous ignorez la r\u00e9ponse \u00e0 une question, vous pouvez tenter de r\u00e9pondre au hasard, et avec un peu de chance, obtenir le point. En revanche, si vous ne r\u00e9pondez pas, c\u2019est le z\u00e9ro assur\u00e9. Il en va de m\u00eame lorsque seule l\u2019exactitude des mod\u00e8les est \u00e9valu\u00e9e, \u00e0 savoir le pourcentage de questions auxquelles ils apportent exactement la bonne r\u00e9ponse. Ils sont par cons\u00e9quent encourag\u00e9s \u00e0 fournir une r\u00e9ponse au hasard plut\u00f4t qu\u2019\u00e0 avouer leur ignorance.<\/p>\n\n\n\n

Prenons un autre exemple. Imaginons qu\u2019un utilisateur demande \u00e0 un mod\u00e8le de langage la date d\u2019anniversaire d\u2019une autre personne et que le mod\u00e8le n\u2019ait aucune id\u00e9e de la r\u00e9ponse. En annon\u00e7ant \u00ab le 10 septembre \u00bb, il a 1 chance sur 365 de tomber juste. S\u2019il r\u00e9pond \u00ab Je ne sais pas \u00bb, il a l\u2019assurance de donner la mauvaise r\u00e9ponse. Sur un test comportant des milliers de questions, le mod\u00e8le qui fait des hypoth\u00e8ses finira par obtenir une performance sup\u00e9rieure \u00e0 un mod\u00e8le plus prudent qui avoue ignorer certaines r\u00e9ponses.<\/p>\n\n\n\n

Pour les questions n\u2019admettant qu\u2019une seule r\u00e9ponse correcte, les r\u00e9ponses possibles sont r\u00e9parties en trois cat\u00e9gories : les r\u00e9ponses correctes, les erreurs et les absences de r\u00e9ponse. Or s\u2019abstenir de r\u00e9pondre est une marque d\u2019humilit\u00e9 \u2014 l\u2019une des valeurs centrales d\u2019OpenAI\u2060. La plupart des classements donnent la priorit\u00e9 \u00e0 l\u2019exactitude, sans tenir compte du fait que les erreurs sont pires que les abstentions. La sp\u00e9cification des mod\u00e8les\u2060 indique qu\u2019il est pr\u00e9f\u00e9rable d\u2019admettre une incertitude ou de demander des clarifications plut\u00f4t que de donner avec assurance des informations potentiellement inexactes. <\/p>\n\n\n\n

Pour voir un exemple concret, prenez l\u2019\u00e9valuation SimpleQA tir\u00e9e de la fiche syst\u00e8me de GPT5\u2060.<\/p>\n\n\n\n

\n\t
\n\t\t