Introduction

Le rapport Draghi commandé par le Conseil européen à l’ancien Premier ministre italien, propose une voie à suivre pour améliorer la compétitivité dans l’Union. Il fait suite au rapport Letta sur le marché intérieur de l’Union, que nous avions analysé dans un article précédent

Enrico Letta recommande d’introduire une cinquième liberté en plus de la libre circulation des biens, des services, des personnes et des capitaux, car ces dernières ne permettent pas « de passer d’une économie fondée sur la propriété à une nouvelle économie fondée sur l’accès et le partage ». Une liberté de circulation et le partage de la recherche, de l’innovation, des données et des connaissances devrait donc être consacrée pour ces dimensions qui sont devenues des moteurs indispensables de l’innovation dans les économies modernes.

Nous n’aborderons pas dans cette étude la politique d’investissement et les recommandations de Mario Draghi pour un marché des capitaux intégré, nous concentrant plutôt sur la stratégie d’innovation proposée telle qu’elle est expliquée dans la partie B du rapport, couvrant une analyse approfondie et des recommandations à la fois sur les politiques sectorielles et horizontales. Nous soutenons l’idée de promouvoir le lancement explicite d’une deuxième saison de la stratégie européenne en matière de données telle qu’elle a été initialement présentée en février 2020. Une Union des données tirera parti du cadre réglementaire et des investissements dans les espaces européens communs de données et facilitera la cinquième liberté prônée par Enrico Letta sur la compétitivité de l’IA.

Le partage des données dans les écosystèmes des dix secteurs stratégiques proposés par Mario Draghi est la condition préalable à toute application utile de l’IA dans ces secteurs.

Les progrès impressionnants de l’IA générative ne pourront pas atteindre leur potentiel global sans l’accès à des données de qualité obtenues avec le consentement des détenteurs de données. Par ailleurs, des modèles d’IA open-source comme le R1 de DeepSeek peuvent être considérés comme un « moment Spoutnik » 1 et montrent que la compétition globale sur l’IA est loin d’être terminée. Une équipe de 200 ingénieurs est apparemment en mesure de développer un modèle d’IA plus respectueux de l’environnement et qui répond aux attentes formulées dans le rapport Draghi. Cette approche, déployée en Europe, serait sans doute préférable à celle s’appuyant sur la « force brute » annoncée par Donald Trump à travers les 500 milliards au consortium Stargate une semaine plus tôt 2.

Nous résumerons d’abord la position du rapport Draghi sur le partage des données en montrant qu’il ne le reconnaît pas comme une condition préalable indispensable pour le « Plan de priorités de l’Union européenne en matière d’IA verticale ». Nous présenterons ensuite la chaîne de valeur du partage des données en tant que fondement d’un avantage concurrentiel grâce à l’IA, puis nous donnerons un aperçu des initiatives existantes en matière de partage des données en Europe. Nous expliquerons enfin comment tirer parti des investissements européens en matière de partage des données pour soutenir le Plan de priorités en matière d’IA verticale.

Le partage des données dans le rapport Draghi

Le rapport Draghi se compose de deux parties : le rapport lui-même (partie A) et les recommandations (partie B).

La partie A se concentre sur l’analyse de l’écart de productivité entre l’Union et les États-Unis :

Le principal moteur de l’écart de productivité croissant entre l’Union et les États-Unis a été la technologie numérique et l’Europe semble actuellement prête à se laisser distancer davantage.

L’exemple clef de l’écart de productivité est illustré par la référence à l’IA :

L’Europe est à la traîne en ce qui concerne les technologies numériques de rupture qui stimuleront la croissance à l’avenir. Environ 70 % des modèles de fondation IA  ont été développés aux États-Unis depuis 2017 et trois hyperscalers seulement représentent plus de 65 % du marché mondial et européen  du cloud […]. Le désavantage concurrentiel de l’Union se creusera probablement dans le domaine du cloud, car le marché se caractérise par des investissements massifs continus, des économies d’échelle et de multiples services offerts par un seul fournisseur. Cependant, il existe de nombreuses raisons pour lesquelles l’Europe ne doit pas renoncer à développer son secteur technologique. Tout d’abord, il est important que les entreprises de l’Union gardent un pied dans les domaines où la souveraineté technologique est nécessaire, tels que la sécurité et le cryptage (solutions souveraines du cloud). Deuxièmement, un secteur technologique faible entravera les performances en matière d’innovation dans un large éventail de domaines adjacents tels que la pharmacie, l’énergie, les matériaux et la défense. Troisièmement, l’IA est une technologie évolutive dans laquelle les entreprises de l’Union ont encore la possibilité de se tailler une place de premier plan dans certains segments.

Plus loin dans le rapport, le partage des données est mentionné comme l’une des principales recommandations :

L’Union devrait promouvoir la coordination interindustrielle et le partage des données afin d’accélérer l’intégration de l’IA dans l’industrie européenne… Pour faciliter cette coopération, les entreprises de l’Union devraient être encouragées à participer au « Plan de priorités en matière d’IA verticale ». L’objectif de ce plan serait d’accélérer dix secteurs stratégiques dans lesquels les modèles commerciaux de l’Union bénéficieront le plus de l’introduction rapide de l’IA (automobile, fabrication avancée et robotique, énergie, télécommunications, agriculture, aérospatiale, défense, prévisions environnementales, pharmacie et soins de santé) […]. En particulier, pour pallier le manque de grands ensembles de données de l’Union, l’entraînement des modèles devrait être alimenté par des données librement fournies par plusieurs entreprises de l’Union au sein d’un certain secteur.

Enfin, l’importance de l’informatique dématérialisée pour le partage des données et la manière de tirer parti des avancées américaines sont mentionnées :

Compte tenu de la domination des fournisseurs américains, l’Union doit trouver un juste milieu entre la promotion de son industrie nationale du cloud et la garantie d’un accès aux technologies dont elle a besoin.

La partie B du rapport Draghi décrit l’état actuel de la « numérisation et des technologies avancées » dans l’Union :

Le modèle industriel de l’Union, basé jusqu’à présent sur les importations de technologies de pointe et les exportations des secteurs de l’automobile, de la mécanique de précision, de la chimie, des matériaux et de la mode, ne reflète pas le rythme actuel de l’évolution technologique.
L’Union souffre d’une capacité limitée à tirer parti de la dynamique winners take most, des effets de réseau et des économies d’échelle dans les technologies clefs, à l’exception des matériaux de nouvelle génération et des technologies propres.
Plusieurs alliances industrielles de l’Union pour les technologies basées sur le cloud et les échanges de données ont été créées au fil du temps avec des missions diverses (Andromède, Gaia-X, Catena-X), mais les résultats sont minimes à ce jour.
Plus récemment, plusieurs États membres ont encouragé la mise en place de systèmes « sécurisés » dans lesquels les fournisseurs d’infrastructures en tant que service appartenant à l’Union coopèrent avec les distributeurs d’hyperscalers tout en conservant le contrôle des éléments sensibles de la sécurité et du cryptage (solutions de « cloud souverain »).

La deuxième série de recommandations est essentielle pour combler le fossé de la productivité et promouvoir l’utilisation de l’IA dans 10 industries stratégiques :

Lancer un « Plan de priorités de l’Union en matière d’IA verticale ». Dans le cadre de ces priorités, le plan financerait des modèles verticaux clefs d’IA dans les secteurs industriels, fondés sur le partage des données de l’Union, à l’abri de l’application des règles antitrust pour dix industries stratégiques où le savoir-faire européen et la capture de la valeur doivent être protégés : 1°) l’industrie automobile et la plateforme de mobilité ; 2°) l’industrie de pointe et la robotique ; 3°) l’énergie — pour l’optimisation du réseau ainsi que la production et l’intégration des sources — ; 4°) les réseaux de télécommunications — y compris le edge computing et l’Internet des objets— ; 5°) l’agriculture ; 6°) l’aérospatiale — y compris les données d’observation de la Terre générées depuis l’espace — ; 7°) la défense ; 8°) les prévisions environnementales ; 9°) les produits pharmaceutiques et 10°) les soins de santé.

Au fondement de la compétitivité de l’IA : la chaîne de valeur du partage des données

Comme toute technologie numérique, l’IA n’est pas une fin en soi mais un moteur de compétitivité. Il est donc utile de distinguer les cas d’utilisation typiques de l’IA industrielle :

1 — Utilisation de services numériques basés sur l’IA

Dans ce cas, les entreprises industrielles « consomment » simplement des services numériques/intelligents fournis par des vendeurs de logiciels, etc. qui utilisent l’IA — à la fois prédictive et générative. Des exemples peuvent être trouvés dans divers domaines, par exemple les services de capteurs améliorés par l’IA, les services d’estimation de l’heure d’arrivée dans le domaine de la logistique, etc.

2 — Utilisation de l’IA prédictive pour les services numériques/intelligents de l’industrie

Les entreprises industrielles utilisent leurs propres données et/ou celles de leurs clients pour leur fournir un service numérique. Un exemple est celui des services de maintenance prédictive ou de surveillance de l’état d’un produit qui utilisent les données créées lors de l’utilisation d’un produit de l’entreprise industrielle concernée. Ainsi, les entreprises privées (clients) partagent leurs données pour bénéficier de meilleurs services numériques. Si les données des clients sont utilisées pour des services numériques/intelligents, la loi européenne sur les données s’applique et régit les droits du détenteur des données.

3 — Utilisation de l’IA générative par une entreprise industrielle

Les activités des processus commerciaux tels que l’approvisionnement, la comptabilité, le marketing, etc. peuvent être accélérées et automatisées à l’aide de grands modèles de langage (LLM). Or la majorité des LLM est détenue par des entreprises d’IA non européennes.

4 — Enrichissement de l’IA générative par une entreprise industrielle

Dans ce cas, les entreprises industrielles ne se contentent pas d’utiliser des LLM, mais déploient des technologies telles que RAG (Retrieval Augmented Generation) pour « enrichir » les LLM à l’aide de données privées. 

Cette approche augmente les performances du LLM. 

L’évaluation des données partagées est nécessaire car, dans le cas contraire, une entreprise privée ne serait pas incitée à nourrir le LLM de ses propres données. 

5 — Modèles de base industriels partagés/LLM

Dans ce cas de figure, plusieurs entreprises privées partagent leurs données afin de former et/ou d’affiner conjointement un modèle de base/LLM. Nous n’avons pas connaissance d’un seul cas productif de ce type dans la pratique : les intermédiaires qui facilitent le partage des données sont soumis à la loi européenne sur la gouvernance des données afin d’empêcher la mise en commun des données aux dépens des détenteurs des droits sur les données.

Afin de réduire les dépendances et d’accroître la compétitivité, les entreprises et les décideurs politiques doivent comprendre la chaîne de valeur sous-jacente du partage des données qui prolonge la chaîne de valeur traditionnelle des données et de l’IA — consistant à collecter, créer, conserver, enrichir, stocker et distribuer des données et à les utiliser pour former des modèles d’IA — par la notion de partage. En Europe, aucun acteur ne possède à lui seul toutes les ressources nécessaires — l’infrastructure informatique, les données, la confiance, etc. — pour opérer la chaîne de valeur complète du partage de données.

Dans l’écosystème extrêmement dynamique de l’IA, il est essentiel d’identifier où doivent se porter les investissements européens.

La priorité doit-elle être donnée au développement de modèles de fondation génériques puissants ou plutôt au fine tuning et à la customisation de modèles ouverts ? La question est d’une extrême actualité avec l’arrivée du R1 de DeepSeek. La communauté de l’IA est toujours en discussion pour identifier les facteurs qui ont fait de R1 un modèle supérieur : meilleure qualité des données initiales, processus de « curation » plus efficace,  utilisation de l’apprentissage par renforcement, « distillation » dans des plus petits modèles…

En Europe, aucun acteur ne possède à lui seul toutes les ressources nécessaires pour opérer la chaîne de valeur complète du partage de données.

Boris Otto et Hubert Tardieu

Toujours est-il que Hugging Face offre déjà Open-R1 3, une reproduction complète du R1 de DeepSeek pour faciliter la réutilisation du modèle de fondation et le développement de modèles spécialisés par industrie sur ce modèle générique.

Dans ce contexte, les champions européens en IA comme Mistral AI en France ou Aleph Alpha en Allemagne peuvent se poser la question de se concentrer sur les quatrième et cinquième cas d’usage décrits plus haut pour utiliser des modèles de fondation ouverts et se focaliser sur le fine tuning spécifique à chaque industrie qui sera le plus créateur de valeur. Cette stratégie est encouragée par le fait que des modèles de taille moyenne peuvent être fructueusement développés en Europe, comme le montre l’exemple de Teuken 7B 4.

Se concentrer sur l’aval — la partie à plus forte valeur ajoutée de la chaîne de valeur données et IA — amène à identifier des similitudes avec beaucoup d’écosystèmes de partage de données qui utilisent les infrastructures de fournisseurs de cloud non européen mais garantissent la protection et la souveraineté des données à travers des architectures règlementées et des standards industriels — tels que le protocole d’espace de données d’IDSA 5 et l’architecture de confiance de Gaia-X 6.

L’infrastructure informatique et le « trésor de données » souvent cité sont répartis entre de nombreuses organisations différentes, tant privées que publiques. Pour faciliter les modèles de fondations partagées, les mêmes exigences que pour l’économie des données de l’Union en général doivent être satisfaites : la confiance, la souveraineté, la traçabilité, l’économie des données, etc. Ces exigences ont été au centre de l’actuelle stratégie européenne en matière de données et doivent donc également être satisfaites dans l’Union européenne des données et le Plan de priorités en matière d’IA verticale.

Par ailleurs, les espaces de données les plus avancés — comme Catena dans l’industrie automobile — sont de plus en plus confrontés au défi de l’interopérabilité des données. 

Les espaces de données n’exigent pas qu’un ensemble commun de définitions de données soit adopté d’emblée par tous les participants à l’espace de données ; afin de ne pas imposer une telle ontologie comme condition préalable 7, les espaces de données ont d’abord concentré leur attention sur l’adoption de définitions de données communes pour chacun de leurs principaux cas d’utilisation ; ils doivent, dans un deuxième temps, harmoniser ces définitions en utilisant l’IA générative et les LLM existants enrichis par les catalogue de données utilisés par chaque partenaire de l’espace de données. Des ensembles de données utilisables par l’industrie seront alors disponibles pour alimenter de nouvelles applications d’IA avec des données de qualité obtenues avec le consentement de leurs détenteurs.

La compétitivité de l’IA en Europe ne peut être accrue que si les investissements dans les espaces européens communs de données et le cadre réglementaire de l’économie des données sont exploités au maximum.

La situation actuelle de l’espace européen commun de données

Au cours des quatre dernières années, les États membres de l’Union européenne et la Commission européenne ont déjà engagé un nombre significatif de ressources pour la création d’espaces de données en tirant parti du Fonds pour la reconstruction et la résilience (RRF) après la pandémie de Covid-19. Le tableau infra donne un aperçu du portefeuille de financement au niveau européen et au niveau des États membres.

Si l’importance du partage des données est désormais bien comprise dans la plupart des pays européens, les gouvernements qui ont financé les premiers espaces de données — en Allemagne depuis 2019 et en France depuis 2021 — attendent encore un retour sur investissement. Avec la convergence des fondements technologiques des espaces de données, les efforts conjoints doivent maintenant se concentrer sur l’adoption, la création de valeur et la capture des données partagées. Si la technologie est la condition nécessaire du succès, l’économie est la condition suffisante.

Plusieurs exemples récents montrent que la communauté a besoin de soutien. Fondé en 2020, AgDataHub 8, par exemple, a été arrêté en novembre 2024 parce que son modèle économique n’était pas en mesure d’atteindre le seuil de rentabilité malgré les 85 000 agriculteurs connectés et le soutien important des syndicats agricoles. Les principaux cas d’utilisation abordés par AgDataHub se concentraient sur l’identité de confiance des agriculteurs pour faciliter les échanges de données administratives avec les autorités, ainsi que sur la traçabilité des aliments et la génétique animale, tous des cas d’utilisation qui sont encore très stratégiques pour l’agriculture en Europe.

Le Centre de soutien aux espaces de données (DSSC) propose de nombreux outils pour soutenir les espaces de données dans leur parcours vers une adoption réussie — tels que les « blocs de construction commerciaux et organisationnels » et la « méthode de co-création » 9. En outre, un projet de l’Institut Gaia-X sur l’économie du partage des données a défini quatre niveaux de maturité qu’il est nécessaire de franchir avant d’obtenir les avantages d’un espace de données autonome. Le modèle proposé 10 établit qu’un ensemble de cas d’utilisation convenus d’un commun accord est une condition préalable pour gravir les niveaux de maturité.

Trois exemples inclus dans les dix secteurs stratégiques sélectionnés par Mario Draghi dans son rapport peuvent illustrer la voie à suivre.

L’aérospatial

Le secteur aérospatial est confronté à un double défi.

D’une part, une demande d’avions qui représente un portefeuille de 8 000 avions ou 10 ans de production et d’autre part une refonte majeure du modèle de production prévue dans les 30 prochaines années pour produire des avions à faible émission de carbone. Le principal cas d’utilisation de l’important projet aérospatial européen qui sera lancé en 2025 concernera par conséquent la chaîne d’approvisionnement et la capacité des principaux constructeurs aéronautiques et de leurs fournisseurs de pièces à partager un espace de données commun afin d’optimiser et de « dérisquer » l’approvisionnement en pièces.

Une première mise en œuvre appelée BoostAerospace 11 a été lancée il y a douze ans. Elle regroupe quatre grands fabricants en France : Airbus, Safran, Dassault et Thalès, leur permettant d’acheter en commun la majorité de leurs pièces. Il a fallu près de huit ans pour que le système atteigne sa viabilité économique. Le nouvel espace de données étendra la portée fonctionnelle de BoostAeroSpace à la conception de produits partagés et à la conformité à l’exportation.

L’énergie

Le secteur de l’énergie bénéficiera quant à lui du partage des données à la fois pour optimiser la distribution de l’énergie, comme cela a commencé avec les compteurs intelligents, et pour la production, et plus particulièrement pour la production d’énergie nucléaire. 

En Europe, seuls certains États membres sont impliqués, la France étant particulièrement intéressée par la construction d’au moins 6 nouveaux réacteurs appelés EPR2. Comme pour l’aérospatiale, la chaîne d’approvisionnement est le cas d’utilisation critique, avec plus de 1 500 entreprises impliquées pour atteindre l’objectif majeur de réduire le temps de construction d’un nouveau réacteur à 70 mois — en Chine, il est déjà de 60 mois.

La production industrielle

Dans le domaine de la fabrication, l’Allemagne a récemment lancé l’initiative International Manufacturing-X (IM-X) afin d’accroître la compétitivité, la résilience et la durabilité de l’industrie manufacturière allemande, européenne et mondiale grâce à des écosystèmes de données industrielles.

En tant que projet phare de Manufacturing-X, Factory-X 12 se concentre sur 11 cas d’utilisation dédiés qui visent à améliorer et à intégrer les aspects horizontaux et verticaux de la chaîne d’approvisionnement au sein des opérations industrielles. Ces cas d’utilisation sont conçus pour étendre les solutions existantes axées sur la chaîne d’approvisionnement développées par Catena-X, en mettant l’accent sur l’intégration verticale, qui relie directement et optimise les opérations de l’atelier. Le consortium est dirigé par les deux principaux champions de l’industrie 4.0 : Siemens AG et SAP, qui pilotent la chaîne d’approvisionnement et l’automatisation des usines depuis des années.

Comme le mentionne à juste titre le rapport Draghi : 

Plusieurs alliances industrielles de l’Union pour les technologies basées sur le cloud et les échanges de données ont été créées au fil du temps avec des attributions diverses (Andromède, Gaia-X, Catena-X).

Tous les nouveaux espaces de données utilisent les fondations posées par Gaia-X et inaugurées par Catena, qui est opérationnel depuis octobre 2023. Les initiatives européennes dans les domaines de l’aéronautique, du nucléaire et de la fabrication réutiliseront l’architecture technique distribuée et le cadre de confiance pour coordonner la chaîne d’approvisionnement et la conception de nouveaux produits au cours des trois à cinq prochaines années.

La recréation d’une nouvelle industrie européenne de l’informatique dématérialisée pour concurrencer les grandes entreprises n’est plus l’option privilégiée. Comme le rappelle le rapport de Mario Draghi 13, une voie médiane a été trouvée :

Les différents secteurs de l’aéronautique, de l’énergie et de l’automobile ont défini leurs exigences en termes d’interopérabilité et de souveraineté, qui ont été incorporées dans des labels volontaires de 1 à 3. Ces labels sont utilisés par les acteurs de l’aéronautique, de l’énergie et de l’automobile pour communiquer leurs exigences aux fournisseurs de services cloud qui proposent leurs services pour mettre en œuvre le partage de données. La conformité des services cloud aux labels étant difficile à vérifier pour les utilisateurs, Gaia-X a mis en place des clearing houses (une ou deux dans chaque pays) qui estampillent la conformité des services cloud aux labels.

Après avoir défini sa stratégie en matière de données, la précédente Commission européenne a eu la sagesse de se concentrer sur l’établissement de la nouvelle réglementation, laissant aux associations industrielles telles que Gaia-X la responsabilité d’élaborer les meilleures options en termes d’architecture, de normes et de labels.

Deux règlements ont été mis en place, couvrant de multiples aspects, dont deux sont particulièrement pertinents pour contribuer à la création d’espaces de données réussis :

  • La loi sur la gouvernance des données (DGA) a identifié le rôle de « l’intermédiaire de données » qui fournit les services de partage de données aux partenaires de l’espace de données ; ces services sont construits sur des services génériques de cloud respectant le label requis par les utilisateurs des espaces de données et sont facturés à ces utilisateurs par abonnement ou par transaction de la manière dont les logiciels en tant que service (SAAS) sont proposés maintenant depuis des années par l’industrie du logiciel. Le DGA recommande (ou impose 14) qu’aucun des participants à l’espace de données ne soit également l’intermédiaire de données — pour éviter le biais observé dans le monde B-to-C où Amazon bénéficie d’un avantage indu vis-à-vis des autres marchands en exploitant la plateforme.
  • La loi sur les données (DA) met en place un grand nombre de dispositions nécessaires au partage des données et qui ont été incorporées dans les labels. Elle définit un principe clef : les données générées par un équipement appartiennent au propriétaire de l’équipement et non au vendeur de l’équipement. Ce principe facilite l’échange de données : dès que le propriétaire de l’équipement est prêt à partager les données générées par l’équipement au cours de son fonctionnement (après avoir pris possession de l’équipement), l’échange bidirectionnel de données entre le vendeur et l’utilisateur de l’équipement est primordial et permet de réduire les coûts d’exploitation et de maintenance.

L’expérience acquise lors du lancement des premiers espaces de données — qu’ils soient réussis ou non — apporte une contribution précieuse à l’identification des principes de l’économie du partage des données.

L’infrastructure de l’espace de données — cadres de confiance, transactions de partage de données, etc. — doit être mise en place pour permettre de saisir les avantages commerciaux du partage de données et, ainsi, d’atteindre les seuils de rentabilité des investissements dans l’infrastructure et d’être prêt à partager les données pour l’entraînement et le perfectionnement de l’IA générative collective.

Si l’on considère le portefeuille d’activités actuel, les nouveaux espaces de données importants visent ce niveau de maturité et le seuil de rentabilité pour les principaux cas d’utilisation à la fin de 2027, ce qui permettra une réutilisation opérationnelle des données industrielles en 2028.

Autrement dit : il ne faut pas s’attendre à récolter au printemps ce qu’on a semé à l’automne.

Tirer parti des investissements dans l’espace de données européen pour les secteurs de l’IA verticale

Le rapport Draghi définit des objectifs et des propositions clairs en matière d’IA, ce que nous ne pouvons qu’approuver :

L’Union doit avoir l’ambition d’être un leader dans le développement de l’IA pour ses secteurs de force, de reprendre et de conserver le contrôle des données et des services cloud sensibles, et de développer un volet financier et des talents solides pour soutenir l’innovation dans l’informatique et l’IA. Pour y parvenir, l’Union devrait s’efforcer d’occuper une position forte au cours des cinq prochaines années en ce qui concerne l’IA intégrée dans les secteurs industriels clefs, tels que la fabrication de pointe et la robotique industrielle, la chimie, les télécommunications et la biotechnologie, sur la base d’un ensemble de grands modèles linguistiques et de modèles verticaux sectoriels élaborés par l’Union. (…) Pour atteindre ces objectifs, l’Union devrait adopter  nouvelle loi sur le développement de l’informatique cloud et de l’IA, visant à renforcer les capacités et les infrastructures européennes de calcul intensif 15, d’IA et de quantique, à harmoniser les exigences en matière d’architecture cloud et les processus de passation de marchés, ainsi qu’à coordonner les initiatives prioritaires afin d’accroître la participation et le financement du secteur privé.

Nous pensons que le délai proposé de cinq ans est approprié et conforme aux cibles et objectifs de la décennie numérique : 75 % des entreprises de l’Union utilisant le cloud, l’IA ou le Big Data d’ici 2030.

Cependant, la manière de dépenser au cours de ces cinq années est essentielle. Or la lecture de certains passages de la partie B du rapport concernant le Plan de priorités de l’Union en matière d’IA verticale peut susciter des inquiétudes :

Cet effort serait alimenté par des données librement fournies par les entreprises de l’Union et soutenu par des cadres open source dans les industries à forte intensité de données, dûment protégés de l’application des règles antitrust de l’Union, afin d’encourager une coopération systématique entre les principales entreprises de l’Union pour l’IA générative et les champions industriels à l’échelle de l’Union dans des secteurs clefs.

Sans discuter de la gouvernance proposée pour le développement des principaux secteurs de l’IA verticale par le biais d’un « incubateur d’IA de type CERN », nous ne voulons pas parier  l’avenir de l’Europe en matière d’IA sur l’hypothèse chimérique d’entreprises européennes — profondément impliquées dans le marché mondial — prêtes à fournir gratuitement leurs données. 

À titre d’exemple, la raison pour laquelle l’industrie aéronautique est prête à partager ses données n’est pas altruiste : il s’agit essentiellement d’augmenter son volume de livraison au-delà de 800 avions par an pour co-concevoir, avec le reste de l’écosystème aéronautique, l’avion à faible émission de carbone. De même, la raison pour laquelle l’industrie nucléaire a décidé de créer un espace de données est de relever le défi de livrer une centrale nucléaire tous les 70 mois afin de fournir suffisamment d’énergie propre pour soutenir le développement de l’Europe.

Nous ne voulons pas parier  l’avenir de l’Europe en matière d’IA sur l’hypothèse chimérique d’entreprises européennes prêtes à fournir gratuitement leurs données

Boris Otto et Hubert Tardieu

Les entreprises ne fourniront pas leurs données gratuitement à des modèles partagés, mais exigeront à juste titre la confiance, la transparence, la clarté quant à la propriété des modèles et une série d’autres critères. Les espaces de données doivent précisément être l’outil à disposition pour répondre à ces exigences fondamentales.

En 2025, le partage des données est compris par plusieurs industries — en particulier celles mentionnées dans le rapport Draghi — comme le seul moyen de relever les défis existentiels auxquels elles sont confrontées en raison du réchauffement climatique ; dans plusieurs des nouveaux espaces de données qui viennent d’être lancés, atteindre le seuil de rentabilité pour les cas d’utilisation les plus critiques — chaîne d’approvisionnement, conception de véhicules à faible émission de carbone, respect de la réglementation environnementale — prendra trois ans, ce qui est une condition préalable à un processus durable de collecte de données industrielles pour l’IA à l’échelle de l’ensemble de l’industrie ; comme mentionné à la fin de la section 2, l’interopérabilité des données dans l’ensemble de l’industrie devra avoir été réglée entre-temps pour que les données industrielles puissent être utilisées dans l’ensemble de l’industrie au-delà du périmètre des cas d’utilisation pour lesquels les données ont été collectées.

Nous recommandons donc qu’après 4 ans de financement par l’Europe et les États membres, il soit procédé à un examen approfondi des espaces de données arrivant au terme de leur financement.

L’Institut Gaia-X et l’Université Paris Dauphine ont proposé un modèle de maturité pour évaluer la viabilité économique des espaces de données existants 16 en suivant la définition proposée par le Centre de soutien à l’espace de données de l’Union 17. Il est important d’anticiper les espaces de données existants qui risquent de s’effondrer lorsque le financement cessera. 

L’Europe a été pionnière dans sa stratégie en matière de données et des erreurs ont certainement été commises dans le passé, mais la prochaine génération d’espace de données, qui sera lancée en 2025, devra être rentabilisée dans les 3 à 4 prochaines années pour chacun des cas d’utilisation qui ont été proposés ; une voie vers l’interopérabilité des données utilisant l’IA générative devra être identifiée, dans l’intervalle, afin de garantir la réutilisation des données sectorielles de l’industrie pour l’IA.

Le rapport Draghi, dans la section cloud, propose une autre recommandation que nous soutenons :

Soutenir les courtiers en données (ex-Data Governance Act) en tant qu’intermédiaires de données « préapprouvés », certifiant la conformité ex ante avec l’acquis de l’Union et garantissant l’autorisation réglementaire via le mécanisme du « Médiateur de l’Union ». Cela contribuerait à favoriser les solutions spécifiques à l’industrie promues par les entreprises de l’Union.

Au-delà des aspects réglementaires pour les intermédiaires de données, nous avons vu récemment que les intermédiaires de données, que nous appelons aussi « orchestrateurs », concentrent la plupart des risques économiques que les membres réguliers ne sont pas disposés à prendre et qui sont parfois cachés par les cotisations des membres, ce qui permet à l’espace de données de survivre tant qu’il trouve de nouveaux membres, créant de facto une pyramide de Ponzi. Les intermédiaires de données continueront à jouer un rôle clef dans la réussite de l’adoption de l’espace de données et de l’intelligence artificielle dans la mesure où ils répondent aux besoins d’interopérabilité, fonctionnent comme une entité de confiance et coordonnent le déploiement des fonds investis — le plus souvent dans le cadre de partenariats public-privé.

Enfin, le rapport Draghi aborde le point important des « régimes de bac à sable réglementaire de l’IA » (regulatory sandboxes), ces régimes normatifs qui laissent une place à l’expérimentation :

Harmoniser les régimes nationaux de « bac à sable » pour l’IA dans tous les États membres afin de permettre l’expérimentation et le développement d’applications innovantes de l’IA dans les secteurs industriels sélectionnés et de garantir une mise en œuvre harmonisée et simplifiée du GDPR.

Nous pensons que cette recommandation est essentielle dans des domaines tels que la santé, la conduite autonome, mais aussi tout le domaine des agents autonomes qui est susceptible de se développer fortement dans un avenir proche.

Conclusion

Le rapport Draghi a raison d’appeler à une plus grande compétitivité économique à une époque où les demandes d’autonomie stratégique et de souveraineté technologique sont de plus en plus nombreuses. 

L’IA est la technologie qui offre aujourd’hui la source la plus puissante d’avantages concurrentiels. C’est pourquoi l’Europe doit stimuler l’innovation dans le domaine de l’IA et réduire les dépendances économiques.

Le succès de l’IA repose sur la disponibilité de ressources clefs telles que la capacité de calcul, les grands modèles de langage/fondation et les données. Contrairement à d’autres domaines économiques, ces ressources ne sont pas détenues par quelques acteurs du marché ou sous le contrôle de l’État, mais réparties entre diverses parties prenantes.

C’est pourquoi l’Europe doit trouver sa propre voie pour atteindre l’objectif urgent de compétitivité fixé par le rapport Draghi. La voie européenne doit être caractérisée par des écosystèmes de partage qui consistent en un paysage distribué de capacité de calcul, de modèles de base et de données pour entraîner et perfectionner ces modèles. Cette voie ne sera couronnée de succès que lorsqu’un plan d’action sera mis en place, prenant en compte les aspects techniques, mais surtout les aspects liés à la gouvernance et au business. Le premier temps de la stratégie européenne en matière de données a mis en place les cadres nécessaires pour progresser vers une véritable Union européenne des données.

Sources
  1. L’annonce fin janvier 2025 de R1 par DeepSeek offre une nouvelle opportunité à une IA générative ouverte avec avec un coût d’entrainement de son modèle que son concepteur annonce 20 fois moindre que pour GPT4. Si elle constitue un encouragement, elle va également accentuer les défis de souveraineté quant à l’utilisation potentielle des données par les autorités chinoises.
  2. Cf. Conroy, G., & Mallapaty, S., « How China created AI model DeepSeek and shocked the world », Nature, 2025.
  3. Elie Bakouch, Leandro von Werra, Lewis Tunstall, « Open-R1 : a fully open reproduction of DeepSeek-R1 », Hugging Face, 28 janvier 2025.
  4. « Teuken-7B : Multilingual open-source large language model released », 2 décembre 2024.
  5. « The Dataspace Protocol », Déclaration de l’IDSA, juillet 2024.
  6. « Deliverables & Gaia-X Standard – Gaia-X : A Federated Secure Data Infrastructure »
  7. Dans ce contexte, une ontologie est un ensemble de concepts et de catégories dans une matière ou un domaine qui montre leurs propriétés et la relation entre eux.
  8. AgDataHub.
  9. Voir Knowledge-base : Data Spaces Support Centre pour plus de détails.
  10. Eric Brousseau, Lucas Eustache, Joëlle Toledano, « Position Paper : Economics of Data Sharing », Gaia-X, 2024.
  11. Voir son site officiel.
  12. Factory-X.
  13. « Compte tenu de la domination des fournisseurs américains, l’Union doit trouver un juste milieu entre la promotion de son industrie nationale du cloud et la garantie d’un accès aux technologies dont elle a besoin. »
  14. La DGA impose que les fournisseurs de services d’intermédiation de données soient enregistrés et puissent demander la marque de confiance de l’Union pour démontrer qu’ils respectent toutes les exigences légales.
  15. HPC (High Performance Computing) désigne une nouvelle génération de superordinateurs de l’ordre de l’exaflops (supercalculateurs exaflopique) ; EuroHPC est une initiative conjointe entre l’Union, les pays européens et des partenaires privés pour développer un écosystème de superordinateurs de classe mondiale en Europe.
  16. Eric Brousseau, Lucas Eustache, Joëlle Toledano, « Position Paper : Economics of Data Sharing », Gaia-X, 2024.
  17. Modèle de maturité de l’espace de données : un ensemble d’indicateurs et un outil d’auto-évaluation permettant aux initiatives d’espace de données de comprendre leur maturité dans le cycle de développement, leurs indicateurs de performance et leurs capacités techniques, fonctionnelles, opérationnelles, commerciales et juridiques en termes absolus et par rapport à leurs pairs.