Déjouer les LLM : pour une IA improbable

Auteur: Milena Harito, Mira Mezini, Marina Niforos
Image: Paul Klee, «Hauptweg und Nebenwege» (Chemin principal et chemins latéraux), 1929, Musée Ludwig
Date: 10 avril 2026

Partager

La technologie de l’IA n’est pas socialement neutre — la presse à imprimer, la radio ou Internet ne l’étaient pas davantage. Chacune de ces technologies a rendu l’échange d’informations plus facile et plus accessible. Chacune a du même mouvement redistribué le pouvoir de transmettre des messages et d’être entendu. Chacune a enfin subi la concentration propre aux industries de réseau : des coûts fixes qui créent des barrières à l’entrée, des rendements croissants qui avantagent les acteurs déjà établis, des effets de réseau qui transforment la taille en avantage cumulatif.

Comme leurs prédécesseurs, les grands modèles de langage (LLM) sont des technologies culturelles — des systèmes qui absorbent, réorganisent et régénèrent l’expression humaine à l’échelle planétaire ¹.

Tous ces systèmes font implicitement des choix de valeurs sur ce qui est rendu probable, ce qui est marginalisé, ce qui disparaît dans un silence statistique. Ce qui distingue les LLM des précédents, c’est que ces choix sont inscrits dans l’architecture avant même toute délibération humaine.

Les LLM sont avant tout des systèmes entraînés à compléter du texte ² : exposés à des quantités massives d’écrits humains, ils apprennent quels mots, quelles formulations, quelles associations d’idées suivent le plus probablement telle ou telle séquence. Cet apprentissage est affiné par des évaluateurs humains et des processus automatisés — mais cet affinage opère sur une base déjà constituée.

C’est ici que le silence statistique est délibérément choisi. Nourris par des textes sur Internet qui surreprésentent l’anglais et les sources institutionnelles, les LLM reproduisent structurellement ces surreprésentations dans chacune de leurs réponses.

Non par malveillance — mais par construction.

Une technologie qui supprime systématiquement l’improbable appauvrit le réservoir à partir duquel le futur pourrait émerger.
Marina Niforos, Milena Harito et Mira Mezini

Le regard de Silicon : le probable comme perte

Cette vision sélective a depuis trouvé un nom : le regard de Silicon.

Les LLM sont entraînés sur des textes faciles à collecter à grande échelle — soit en d’autres termes, le contenu que produisent les populations connectées. Ce qui est rare, oral, régional ou analogique est structurellement absent avant même que le modèle ne commence à apprendre.

Ce premier déséquilibre se trouve ensuite amplifié : les associations fréquentes dans les données d’entraînement sont renforcées comme valeurs par défaut, de sorte que des concepts comme « démocratie » ou « justice » arrivent préchargés des présupposés culturels des textes qui les utilisent le plus.

Cette déformation est empiriquement documentée. Une recherche publiée dans PNAS Nexus a cartographié les valeurs culturelles de cinq grands modèles GPT par rapport à des données d’enquête représentatives de 107 pays : chaque modèle se trouvait proche des valeurs des pays anglophones, indépendamment de la langue dans laquelle il était interrogé ³.

Ce n’est pas un biais linguistique superficiel. Par ce mécanisme, une partie des valeurs morales de l’humanité est définie comme point de départ universel.

Autrement dit, l’algorithme n’a plus besoin uniquement de nos « likes » pour apprendre. Les valeurs qui étaient identifiables — déchiffrables dans une production cinématographique, reconnaissables dans un fil éditorial — deviennent insidieusement prédominantes, si ce n’est uniques.

Ce qui est en jeu dépasse aussi la représentation équitable de différents points de vue.

Les plus grandes idées ont toujours émergé à la marge. Le progrès des droits de l’Homme ou de ceux des femmes est le fruit d’un long combat. Une technologie qui supprime systématiquement l’improbable appauvrit donc le réservoir à partir duquel le futur pourrait émerger : elle se réserve la décision de ce qui est probable.

Comme l’écrivent Francisco W. Kerche, Matthew Zook et Mark Graham dans un récent article : « La centralité statistique n’est pas la neutralité. C’est l’application silencieuse du probable contre le possible ⁴. »

Les fausses promesses du marché

Aujourd’hui, une poignée d’entreprises concentre la quasi-totalité de la capacité d’entraînement des modèles de pointe. L’infrastructure nécessaire — calcul, données, talents — crée des barrières à l’entrée considérables.

Certes, ces entreprises ont produit des avancées scientifiques réelles et ont ouvert des capacités nouvelles à des centaines de millions d’utilisateurs. Elles posent cependant une question concrète pour les acteurs européens : dans quelle mesure peuvent-ils faire des choix réels sur l’infrastructure qu’ils utilisent, les valeurs qu’elle intègre et les données qu’elle mobilise ?

La logique commerciale du développement de l’IA n’est pas hostile à la diversité culturelle : elle lui est indifférente d’une manière structurelle.

Les données d’entraînement ne font que refléter ce qui est abondant en ligne. Les critères d’alignement, quant à eux, sont produits en anglais, dans des institutions états-uniennes, selon des cadres normatifs qui ne sont pas culturellement neutres.

L’orientation similaire des plus grandes entreprises d’IA n’est pas le fait d’une conspiration entre elles : il suffit que le chemin de moindre résistance mène, systématiquement, dans la même direction. Le résultat est ce que l’Institut Ada Lovelace appelle une monoculture algorithmique ⁵.

L’algorithme n’a plus besoin uniquement de nos « likes » pour apprendre.
Marina Niforos, Milena Harito et Mira Mezini

Pour une bifurcation européenne

L’Europe se trouve face à un dilemme : face à des plateformes transnationales aux biais architecturaux, il lui faut non seulement cadre normatif — elle en possède déjà un — mais une capacité productive : des données, des modèles et des normes d’alignement qui portent ses propres références culturelles.

D’autres chemins sont possibles — et ils existent déjà.

En Espagne, le projet ALIA a produit des modèles ouverts en catalan, basque et galicien, financés publiquement. Ceux-ci démontrent que performance technique et droits linguistiques sont compatibles.

Au Québec, la loi n°109 adoptée en décembre 2025 affirme que la diversité culturelle numérique est une exigence réglementaire, pas une aspiration. La création de Mila, l’Institut québécois d’intelligence artificielle, prouve qu’une institution publique ancrée dans la science ouverte peut soutenir une recherche de classe mondiale sans céder à la logique des plateformes commerciales.

Ce sont là des preuves d’existence : elles démontrent que d’autres choix peuvent encore être faits.

Dans un environnement informationnel fracturé, où la science et les faits de référence sont contestés, la fiabilité des systèmes qui produisent et organisent l’information est une question de bien public et non de simple efficacité industrielle. À l’ère des modèles génératifs, il s’agirait de construire pour leur entraînement non une encyclopédie comme Wikipédia, mais une infrastructure de données et de normes ancrée dans les communautés qui l’utilisent.

L’Europe dispose à cet égard d’avantages réels. La European Language Grid avec ses milliers de ressources multilingues, le projet HPLT avec sept pétaoctets de données en 80 langues, ou bien encore des modèles comme Poro sont autant d’initiatives qui prouvent qu’une infrastructure publique peut produire des résultats de premier ordre : elle fournit un cadre réglementaire qui exige déjà la représentativité culturelle des données d’entraînement ⁶.

C’est d’autre chose dont manque l’Europe : la volonté de traiter la culture pour ce qu’elle a toujours été — non pas un marché de niche ou un actif stratégique, mais le substrat de notre identité, de notre lien social, un patrimoine qui appartient à ceux qui le font vivre et s’appauvrit quand on cesse de le transmettre.

Aspirées, homogénéisées, restituées sous une forme appauvrie, les données culturelles perdent progressivement ce qui faisait leur valeur — la singularité, la variation, l’improbable.
Marina Niforos, Milena Harito et Mira Mezini

Une IA improbable : trois propositions

Les propositions qui suivent s’organisent autour de trois axes complémentaires — données, infrastructures et modèles, — qui correspondent aux trois points d’entrée où une intervention publique peut corriger ce que le marché ne fera de lui-même.

En Europe, on pourrait considérer les données d’entraînement de haute qualité et culturellement représentatives comme un bien commun. Les communautés qui en sont à l’origine le gèreraient en disposant de droits collectifs sur son utilisation : le droit de fixer des normes, d’exiger de la transparence et d’évaluer les résultats.

Une fois ces données constituées, l’ajustement de modèles européens et ouverts pourrait se faire sur des corpus culturels de haute qualité, constitués patiemment et annotés par les communautés concernées. Il s’appuierait sur l’Alliance for Language Technologies du consortium européen pour l’infrastructure numérique, le projet High Performance Language Technologies ou l’European Language Grid.

Grâce à cette infrastructure reliant données et modèles, l’alignement déterminant ne serait pas une norme juridique externe, mais une logique culturelle encodée dans les données elles-mêmes — bien différente des « constitutions » propriétaires rédigées dans la Silicon Valley.

Tels seraient les outils de notre indépendance — pour sortir de l’aplatissement culturel et garder notre potentiel de développement basé sur le spécifique, l’unique, l’improbable.

Des acteurs du secteur privé tels que Mistral AI et Silo AI ont déjà démontré que des équipes européennes sont capables de développer et de déployer des modèles de pointe à grande échelle compétitifs.

Mais l’Europe devrait également investir dans la prochaine génération de modèles fondamentaux qui vont au-delà du paradigme dominant actuel — par exemple l’initiative publique NextFrontierAI, qui vise à construire des architectures plus innovantes, plus efficientes en termes d’échantillonnage et structurellement plus ouvertes à la diversité culturelle.

La logique commerciale du développement de l’IA n’est pas hostile à la diversité culturelle : elle lui est indifférente d’une manière structurelle.
Marina Niforos, Milena Harito et Mira Mezini

La condition culturelle d’une IA du futur

La langue n’est pas un simple outil de communication.

Elle est le médium par lequel une société délibère, légifère, éduque et se gouverne elle-même. Ressource commune, produit de générations, cette langue appartient à tous : elle est irréductible à la propriété d’un seul acteur.

Dans ses travaux, l’économiste Elinor Ostrom a montré que de telles ressources, laissées sans gouvernance collective, tendent vers un équilibre destructeur : chaque acteur rationnel exploite ce qui est disponible, sans que personne n’ait intérêt à en assurer la reproduction ⁷. Appliqué aux données culturelles et linguistiques, le mécanisme est bien celui-ci : aspirées, homogénéisées, restituées sous une forme appauvrie, elles perdent progressivement ce qui faisait leur valeur — la singularité, la variation, l’improbable.

Cet appauvrissement n’est pas un mal qui nous attendrait si nous ne faisons rien. Nous le connaissons dès aujourd’hui.

L’Europe nous prouve qu’un autre chemin est possible. Elle possède le cadre réglementaire et l’infrastructure de recherche nécessaires.

Ce qui lui manque encore, c’est la volonté de considérer le problème pour ce qu’il est : non un dossier de politique industrielle ou de diversité culturelle, mais un choix de priorité dont dépend la gouvernance de systèmes qui, demain, définiront le rapport de nos sociétés à leurs connaissances et à leurs droits — et déterminera, dans ces mêmes sociétés, qui sera encore à même de délibérer.

Les modèles dominants aujourd’hui sont conçus pour maximiser l’efficacité et l’adoption à grande échelle — et pour beaucoup d’usages, cette logique se défend.

Mais les systèmes qui structurent la connaissance, la délibération et le droit ne s’y soumettent pas sans perte. Pour eux, la culture n’est pas une contrainte à optimiser : c’est la condition sans laquelle ils cessent d’être légitimes.

Sources

Henry Farrell, « Large language models are cultural technologies. What might that mean ? », Programmable Mutter, 18 août 2025.
Même au stade de l’intelligence générale, si elle venait à être atteinte, les LLMs ne permettraient pas de comprendre la nature de la conscience, que la puissance de calcul seule ne peut pas atteindre.
Yan Tao, Olga Vibert, Ryan S. Baker et Rene F. Kizilec, « Cultural bias and cultural alignment of large language models », PNAS Nexus, 3 (9), septembre 2024.
Francisco W. Kerche, Matthew Zook et Mark Graham, « The silicon gaze. A typology of biases and inequality in LLMs through the lens of place », Platforms & Society, janvier 2026.
Jorge Perez, « Tokenising culture : causes and consequences of cultural misalignment in large language models », Ada Lovelace Institute, 19 juin 2025.
Règlement (UE) 2024/1689, Article 10, en vigueur le 1er août 2024 ; dispositions applicables à partir du 2 août 2026.
Elinor Ostrom, Governing the Commons : The Evolution of Institutions for Collective Action, Cambridge, Cambridge University Press, 1990.