Einführung
Der Draghi-Bericht, den der Europäische Rat bei dem ehemaligen italienischen Ministerpräsidenten beauftragt hatte, schlägt einen Weg zur Verbesserung der Wettbewerbsfähigkeit in der Europäischen Union vor. Er folgt auf den Letta-Bericht über den EU-Binnenmarkt, den wir in einem früheren Artikel bereits analysiert haben.
Letta empfiehlt darin die Einführung einer fünften Freiheit zusätzlich zum freien Waren-, Dienstleistungs-, Personen- und Kapitalverkehr, da letzterer nicht ausreicht, „um den Übergang von einer auf Eigentum basierenden Wirtschaft zu einer neuen, auf Zugang und gemeinsamer Nutzung basierenden Wirtschaft zu bewältigen“. Dies aufgreifend, schlägt Letta als fünfte Freiheit den freien Verkehr und die gemeinsame Nutzung von Forschung, Innovation, Daten und Wissen vor, die in modernen Volkswirtschaften zu unverzichtbaren Innovationsmotoren geworden sind.
In diesem Kommentar werden wir nicht auf die Investitionspolitik und Draghis Empfehlungen für einen integrierten Kapitalmarkt eingehen, sondern uns auf die vorgeschlagene Innovationsstrategie konzentrieren, wie sie in Teil B des Berichts erläutert wird. Dieser enthält eine eingehende Analyse und Empfehlungen sowohl für die sektoralen als auch die horizontalen Maßnahmen. Wir unterstützen die darin formulierte Idee, eine Neuauflage der ursprünglich im Februar 2020 vorgestellten Europäischen Datenstrategie zu fördern, denn eine Europäische Datenunion wird den Rechtsrahmen und die Investitionen in gemeinsame europäische Datenräume stärken und Lettas fünfte Freiheit in Richtung KI-Wettbewerbsfähigkeit erleichtern.
Die gemeinsame Nutzung von Daten in Ökosystemen in den zehn von Draghi vorgeschlagenen strategischen Sektoren ist die Voraussetzung für jede sinnvolle Anwendung von KI in diesen Sektoren. Die beeindruckenden Fortschritte der generativen KI werden ihr gesamtes Potenzial nicht ausschöpfen können, wenn sie nicht auf hochwertige Daten zugreifen können, die mit Zustimmung der Dateninhaber gewonnen wurden. Open-Source-KI-Modelle wie DeepSeek R1 1 sollen den „Sputnik-Moment“ für die KI schaffen; sie signalisieren definitiv, dass der Wettbewerb noch nicht vorbei ist und dass ein Team von 200 Ingenieuren eine ökologisch vernünftige Lösung erfinden kann, die in die von Draghi empfohlene Gesamtstrategie integrierbar ist − im Gegensatz zu der eine Woche zuvor angekündigten Brute-Force-Lösung StarGate 2.
Im Folgenden fassen wir zunächst die Position des Draghi-Berichts zur gemeinsamen Datennutzung zusammen und zeigen, dass er die gemeinsame Datennutzung nicht als integrale Voraussetzung für den “ EU Vertical AI Priorities Plan“ anerkennt. Dann werden wir die Wertschöpfungskette der gemeinsamen Datennutzung als Grundlage für Wettbewerbsvorteile durch KI vorstellen, gefolgt von einem Überblick über bestehende Initiativen zur gemeinsamen Datennutzung in Europa. Danach werden wir erläutern, wie die europäischen Investitionen in den Datenaustausch zur Unterstützung des „EU Vertical AI Priorities Plan“ genutzt werden können.
Gemeinsame Nutzung von Daten im Draghi-Bericht
Der Draghi-Bericht besteht aus zwei Teilen, nämlich dem eigentlichen Bericht (Teil A) und den Empfehlungen (Teil B).
Teil A befasst sich mit der Analyse des Produktivitätsgefälles zwischen der EU und den USA:
„Der Hauptgrund für die wachsende Produktivitätslücke zwischen der EU und den USA ist die digitale Technologie, und Europa wird wohl weiter zurückfallen.“
Das wichtigste Beispiel für das Produktivitätsgefälle ist die KI:
„Europa hinkt bei den bahnbrechenden digitalen Technologien hinterher, die das Wachstum in der Zukunft antreiben werden. Rund 70 % der grundlegenden KI-Modelle wurden seit 2017 in den USA entwickelt, und auf nur drei Hyperscaler entfallen mehr als 65 % des globalen wie auch des europäischen Cloud-Marktes… Der Wettbewerbsnachteil der EU beim Cloud Computing wird sich wahrscheinlich noch verstärken, da der Markt durch kontinuierliche massive Investitionen, Skaleneffekte und mehrere von einem einzigen Anbieter angebotene Dienste gekennzeichnet ist. Es gibt jedoch mehrere Gründe, warum Europa nicht auf die Entwicklung seines heimischen Technologiesektors verzichten sollte. Erstens ist es wichtig, dass EU-Unternehmen in Bereichen, in denen technologische Souveränität erforderlich ist, wie Sicherheit und Verschlüsselung (souveräne Cloud-Lösungen), weiterhin Fuß fassen. Zweitens wird ein schwacher Technologiesektor die Innovationsleistung in einer Vielzahl von angrenzenden Bereichen wie Pharma, Energie, Werkstoffe und Verteidigung behindern. Drittens ist KI eine sich entwickelnde Technologie, bei der EU-Unternehmen noch die Möglichkeit haben, in ausgewählten Segmenten eine führende Position einzunehmen.“
Im weiteren Verlauf des Berichts wird die gemeinsame Nutzung von Daten als eine der wichtigsten Empfehlungen bezeichnet:
„Die EU sollte die branchenübergreifende Koordinierung und den Datenaustausch fördern, um die Integration der KI in die europäische Industrie zu beschleunigen. […] Zur Erleichterung dieser Zusammenarbeit sollten die EU-Unternehmen ermutigt werden, sich an einem „EU Vertical AI Priorities Plan“ zu beteiligen. Ziel dieses Plans wäre es, die Entwicklung von KI in den zehn strategischen Sektoren voranzutreiben, in denen die Geschäftsmodelle der EU am meisten von einer raschen Einführung der KI profitieren werden (Automobilindustrie, fortschrittliche Fertigung und Robotik, Energie, Telekommunikation, Landwirtschaft, Luft- und Raumfahrt, Verteidigung, Umweltprognosen, Pharma und Gesundheitswesen) […] Um insbesondere den Mangel an großen Datensätzen in der EU zu überwinden, sollte das Modelltraining mit Daten gespeist werden, die von mehreren EU-Unternehmen innerhalb eines bestimmten Sektors kostenlos zur Verfügung gestellt werden.“
Abschließend wird auf die Bedeutung von Cloud Computing für die gemeinsame Nutzung von Daten und die Möglichkeiten zur Nutzung des US-Fortschritts hingewiesen:
„Angesichts der Dominanz der US-Anbieter muss die EU einen Mittelweg zwischen der Förderung ihrer heimischen Cloud-Industrie und der Sicherstellung des Zugangs zu den benötigten Technologien finden.“
In Teil B wird der aktuelle Stand zum Thema „Digitalisierung und fortgeschrittene Technologien“ in der EU erläutert und beschrieben:
„Das Industriemodell der EU, das bisher auf dem Import von Spitzentechnologien und dem Export aus der Automobil-, Feinmechanik-, Chemie-, Werkstoff- und Modeindustrie beruhte, entspricht nicht dem derzeitigen Tempo des technologischen Wandels.
Die EU ist nur begrenzt in der Lage, von der Dynamik der Gewinner, von Netzwerkeffekten und Größenvorteilen bei Schlüsseltechnologien zu profitieren − mit Ausnahme von Werkstoffen der nächsten Generation und sauberen Technologien.
Im Laufe der Zeit wurden mehrere EU-Industrieallianzen für Cloud-basierte Technologien und Datenaustausch mit unterschiedlichen Zielsetzungen gegründet (Andromède, Gaia-X, Catena-X), doch die Ergebnisse sind bisher minimal.“
In jüngster Zeit haben mehrere Mitgliedstaaten „sichere“ Cloud-Konfigurationen gefördert, bei denen EU-eigene Infrastructure-as-a-Service-Anbieter mit der Distribution von Hyperscalern zusammenarbeiten, aber die Kontrolle über sensible Elemente der Sicherheit und Verschlüsselung behalten („souveräne Cloud“-Lösungen).
Die zweite Reihe von Empfehlungen ist der Schlüssel zur Schließung der Produktivitätslücke und fördert den Einsatz von KI in 10 strategischen Branchen:
Einführung eines „EU Vertical AI Priorities Plan“. Im Rahmen dieser Prioritäten würde der Plan wichtige vertikale KI-Modelle in allen Industriesektoren finanzieren, die auf der gemeinsamen Nutzung von EU-Daten beruhen und vor der Durchsetzung von Kartellen in zehn strategischen Branchen geschützt sind, in denen das europäische Know-how und die Wertschöpfung geschützt werden sollten: Automobilindustrie und Mobilitätsplattform, fortschrittliche Fertigung und Robotik, Energie sowohl für die Netzoptimierung als auch für die Produktion und Integration von Quellen, Telekommunikationsnetze, einschließlich Edge Computing und IoT, Landwirtschaft, einschließlich weltraumgestützter Erdbeobachtungsdaten, Luft- und Raumfahrt, Verteidigung, Umweltvorhersage, Pharmazie und Gesundheitswesen.
Die Wertschöpfungskette der gemeinsamen Nutzung von Daten als Grundlage für die KI-Wettbewerbsfähigkeit
KI ist – wie digitale Technologie im Allgemeinen – kein Selbstzweck, sondern ein Motor für die Wettbewerbsfähigkeit. Daher ist es sinnvoll, typische Anwendungsfälle der industriellen KI zu unterscheiden:
1 — Nutzung von KI-basierten digitalen Dienstleistungen
Industrieunternehmen nehmen in diesem Fall „nur“ digitale/intelligente Dienste in Anspruch, die von Softwareanbietern usw. bereitgestellt werden und KI (sowohl prädiktive als auch generative KI) nutzen. Beispiele lassen sich in verschiedenen Bereichen finden, z. B. KI-gestützte Sensordienste, Dienste zur Schätzung der Ankunftszeit in der Logistik usw.
2 — Nutzung von prädiktiver KI für eigene digitale/intelligente Dienste der Industrie
Industrieunternehmen nutzen eigene und/oder Kundendaten, um ihren Kunden einen digitalen Dienst anzubieten. Ein Beispiel ist die vorausschauende Wartung oder Zustandsüberwachung, die auf Daten zurückgreift, die bei der Nutzung eines Produkts des jeweiligen Industrieunternehmens anfallen. Private Unternehmen (Kunden) geben also ihre Daten weiter, um von besseren digitalen Diensten zu profitieren. Wenn Kundendaten für digitale/intelligente Dienste verwendet werden, gilt das Europäische Datenschutzgesetz, das die Rechte des Dateninhabers regelt.
3 — Einsatz von generativer KI in einem Industrieunternehmen
Tätigkeiten in Geschäftsprozessen wie Beschaffung, Buchhaltung, Marketing usw. können durch große Sprachmodelle (LLM) beschleunigt und automatisiert werden. Die Mehrheit der LLMs ist im Besitz außereuropäischer KI-Unternehmen.
4 — Anreicherung generativer KI durch ein Industrieunternehmen
In diesem Fall nutzen Industrieunternehmen nicht nur einfach LLMs, sondern setzen Technologien wie RAG (retrieval augmented generation) ein, um LLMs durch private Daten „anzureichern“. Dieser Ansatz steigert die Leistung des LLMs. Die Bewertung gemeinsam genutzter Daten ist notwendig, da es sonst keinen Anreiz für ein Privatunternehmen gäbe, seine Daten in einen LLM einzubringen.
5 — Gemeinsam genutzte industrielle Basismodelle/LLM
In diesem Fall teilen mehrere private Unternehmen ihre Daten, um gemeinsam ein Basismodell/LLM zu trainieren und/oder fein abzustimmen. Uns ist kein einziger produktiver Fall dieser Art in der Praxis bekannt. Intermediäre, die die gemeinsame Nutzung von Daten erleichtern, fallen unter das europäische Gesetz über die Datenverwaltung, um ein Datenpooling auf Kosten der Inhaber der Datenrechte zu verhindern.
Um Abhängigkeiten zu verringern und die Wettbewerbsfähigkeit zu steigern, müssen Unternehmen und politische Entscheidungsträger die zugrunde liegende Wertschöpfungskette der gemeinsamen Datennutzung verstehen, die die traditionelle Daten- und KI-Wertschöpfungskette − bestehend aus dem Sammeln/Erstellen, der Kuratierung, der Anreicherung, der Speicherung, der Verteilung und der anschließenden Nutzung der Daten zum Trainieren von KI-Modellen − um den Begriff der gemeinsamen Nutzung erweitert. Es ist eine Tatsache, dass in Europa kein einzelner Akteur über alle Ressourcen verfügt, die für die gesamte Wertschöpfungskette der gemeinsamen Nutzung von Daten erforderlich sind (z. B. Recheninfrastruktur, Daten, Vertrauen usw.).
Im hochdynamischen KI-Ökosystem ist es auch von strategischer Bedeutung, zu entscheiden, wo Ressourcen zugewiesen werden sollten. Sollte der Fokus auf der Entwicklung leistungsstarker, allgemeiner Foundation-Modelle liegen oder eher auf der Feinabstimmung und „Anpassung“ vorhandener Open-Source-Modelle? Diese Frage könnte angesichts der kürzlichen Ankündigung von DeepSeek R1 nicht relevanter sein.
Die Community diskutiert noch die entscheidenden Faktoren, die DeepSeek R1 im Vergleich zu Alternativen überlegen machen, wie etwa höhere Datenqualität, effizienterer Kurationsprozess, der Einsatz von Reinforcement Learning, die „Distillation“ in kleinere Modelle…
Es ist eine Tatsache, dass in Europa kein einzelner Akteur über alle Ressourcen verfügt, die für die gesamte Wertschöpfungskette der gemeinsamen Nutzung von Daten erforderlich sind (z. B. Recheninfrastruktur, Daten, Vertrauen usw.).
Boris Otto und Hubert Tardieu
In jedem Fall lässt sich beobachten, dass Hugging Face mit Open-R1 eine vollständige Reproduktion von DeepSeek R1 anbietet, um die Wiederverwendung des Grundmodells und den Aufbau eines spezialisierten Industriemodells darauf zu erleichtern 3.
Vor diesem Hintergrund sollten europäische KI-Champions wie Mistral AI in Frankreich und Aleph Alpha in Deutschland nun in Erwägung ziehen, sich auf die oben beschriebenen Anwendungsfälle 4 und 5 zu konzentrieren und somit ein bestehendes, offenes, allgemeines Foundation-Modell zu nutzen und den Fokus auf wertschöpfende, branchenspezifische Feinabstimmungs- und Erweiterungsansätze zu legen. Diese Strategie wird weiter unterstützt durch die Tatsache, dass auch mittelgroße Modelle in Europa entwickelt werden können, wie am Beispiel von Teuken 7B gezeigt 4.
Die Fokussierung auf nachgelagerte, wertschöpfende Teile der Daten- und KI-Wertschöpfungskette ähnelt vielen Beispielen von Datenaustausch-Ökosystemen, die auf der Infrastruktur nicht-europäischer Cloud-Diensteanbieter basieren, jedoch den Datenschutz und die Datensouveränität durch ein regulatorisches Rahmenwerk und offene Industriestandards (wie das IDSA Dataspace Protocol 5 und das Gaia-X Trust Framework 6).
Sowohl die Datenverarbeitungsinfrastruktur als auch der oft zitierte „Datenschatz“ sind auf viele verschiedene Organisationen, sowohl private als auch öffentliche, verteilt. Zur Erleichterung gemeinsamer Basismodelle müssen daher die gleichen Anforderungen erfüllt werden wie für die EU-Datenwirtschaft im Allgemeinen, d. h. Vertrauen, Datenhoheit, Rückverfolgbarkeit von Daten, Wirtschaftlichkeit von Daten usw. Dies sind genau die Anforderungen, die im Mittelpunkt der aktuellen Europäischen Datenstrategie stehen und die daher auch in der Europäischen Datenunion und dem „EU Vertical AI Priorities Plan“ erfüllt werden müssen.
Darüber hinaus sehen sich die innovativsten Datenräume, wie etwa Catena-X in der Automobilindustrie, mehr und mehr mit der Herausforderung der Dateninteroperabilität konfrontiert. Datenräume verlangen nicht, dass bereits im Voraus eine gemeinsame Datendefinition von allen Teilnehmenden des Datenraums angenommen wird; um eine solche Ontologie 7 nicht zur Voraussetzung zu machen, haben sich Datenräume zunächst darauf konzentriert, sich auf gemeinsame Datendefinitionen für jeden ihrer Hauptanwendungsfälle zu einigen; in einer zweiten Phase müssen sie diese Definitionen durch den Einsatz generativer KI und bestehender LLM harmonisieren, die mit dem Katalog der von den einzelnen Partnern des Datenraums verwendeten Daten abgestimmt sind. Dann werden verwendbare Datensätze der Industrie verfügbar sein, um neue KI-Anwendungen mit Qualitätsdaten zu füttern, die mit Zustimmung der Dateninhaber gewonnen wurden.
Die KI-Wettbewerbsfähigkeit in Europa kann also nur gesteigert werden, wenn die Investitionen in gemeinsame europäische Datenräume und der Rechtsrahmen für die Datenwirtschaft optimal genutzt werden.
Aktueller Stand der gemeinsamen europäischen Datenräume
In den letzten vier Jahren haben die europäischen Mitgliedstaaten und die Europäische Kommission unter Nutzung des nach der Coronapandemie aufgelegten „Recovery and Resilience Facility Fund” (RRF) bereits beträchtliche Ressourcen für die Schaffung von Datenräumen bereitgestellt. Die nachstehende Tabelle zeigt eine Momentaufnahme des Finanzierungsportfolios auf europäischer und mitgliedstaatlicher Ebene.
Während die Bedeutung der gemeinsamen Nutzung von Daten in den meisten europäischen Ländern inzwischen gut verstanden wird, erwarten die europäischen Regierungen, die die ersten Datenräume − in Deutschland seit 2019 und in Frankreich seit 2021 − finanzieren, eine Rendite ihrer Investitionen. Da die technologische Grundlage der Datenräume konvergiert, muss der Schwerpunkt der gemeinsamen Anstrengungen nun auf der Übernahme, Wertschöpfung und Erfassung der gemeinsam genutzten Daten liegen. Die Technologie ist dabei die zwingende Voraussetzung für den Erfolg, die Wirtschaft hingegen ist die hinreichende Voraussetzung.
Die Gemeinschaft braucht Unterstützung, wie jüngste Beispiele zeigen. Der im Jahr 2020 gegründete AgDataHub 8 wurde beispielsweise im November 2024 eingestellt, da sein Wirtschaftsmodell trotz 85 000 angeschlossener Landwirte und starker Unterstützung durch die Landwirtschaftsverbände nicht in der Lage war, kostendeckend zu arbeiten. Die wichtigsten Anwendungsfälle von AgDataHub konzentrierten sich auf die vertrauenswürdige Identität der Landwirte, um den Austausch von Verwaltungsdaten mit Behörden zu erleichtern, sowie auf die Rückverfolgbarkeit von Lebensmitteln und die Tiergenetik − alles Anwendungsfälle, die für die Landwirtschaft in Europa nach wie vor von großer strategischer Bedeutung sind.
Das Data Spaces Support Centre (DSSC) bietet zahlreiche Instrumente an, die Datenräume auf ihrem Weg zur erfolgreichen Einführung unterstützen (z. B. „Business and organizational building blocks“ und die „Co-Creation Method“) 9. Darüber hinaus wurden in einem Projekt des Gaia-X-Instituts über die Wirtschaftlichkeit der gemeinsamen Nutzung von Daten vier Reifegrade definiert, die durchlaufen werden müssen, um die Vorteile eines sich selbst tragenden Datenraums zu erhalten. Darüber hinaus legt das vorgeschlagene Modell 10 fest, dass ein gemeinsam vereinbarter Satz von Anwendungsfällen eine Voraussetzung für das Erreichen der Reifegrade ist.
Drei Beispiele aus den zehn strategischen Sektoren, die Mario Draghi in seinem Bericht ausgewählt hat, sollen den Weg in die Zukunft veranschaulichen.
Die Luft- und Raumfahrt
Die Luft- und Raumfahrt steht vor einer doppelten Herausforderung: (1) einer Nachfrage nach Flugzeugen, die einem Portfolio von 8000 Flugzeugen oder einer Produktionsdauer von 10 Jahren entspricht, (2) einer für die nächsten 30 Jahre erwarteten umfassenden Umgestaltung, um kohlenstoffarme Flugzeuge herzustellen. Daher wird der Hauptanwendungsfall des in diesem Jahr anlaufenden bedeutenden europäischen Luft- und Raumfahrtprojekts, die Lieferkette betreffen, wobei die wichtigsten Flugzeughersteller und ihre Zulieferer in der Lage sein werden, einen gemeinsamen Datenraum zu nutzen, um die Beschaffung von Teilen zu optimieren und Risiken zu verringern. Eine erste Implementierung mit dem Namen BoostAeroSpace 11 wurde vor zwölf Jahren gestartet und umfasst vier große Hersteller in Frankreich: Airbus, Safran, Dassault und Thalès. Sie wurden hiermit in die Lage versetzt, den Großteil ihrer Teile gemeinsam zu beschaffen; es dauerte fast acht Jahre, bis das System seine wirtschaftliche Tragfähigkeit erreichte. Der neue Datenraum wird die funktionale Reichweite von BoostAeroSpace auf die gemeinsame Produktentwicklung und die Einhaltung von Exportbestimmungen ausweiten.
Der Energiesektor
Der Energiesektor wird von der gemeinsamen Nutzung von Daten profitieren − sowohl für die Optimierung der Energieverteilung, wie sie mit intelligenten Zählern bereits begonnen hat, als auch für die Produktion und insbesondere für die Kernenergieproduktion. Nur einige der Mitgliedstaaten in Europa sind daran beteiligt, wobei Frankreich besonders am Bau von mindestens sechs neuen Reaktoren (EPR2) interessiert ist. Wie in der Luft- und Raumfahrt ist die Lieferkette der kritische Anwendungsfall: Es sind mehr als 1500 Unternehmen beteiligt, um das große Ziel zu erreichen, die Bauzeit eines neuen Reaktors auf 70 Monate zu reduzieren, während sie in China bereits bei 60 Monaten liegt.
Die Fertigungsindustrie
Im Bereich der Fertigungsindustrie hat Deutschland kürzlich die internationale Manufacturing-X-Initiative (IM-X) ins Leben gerufen, um die Wettbewerbsfähigkeit, Widerstandsfähigkeit und Nachhaltigkeit der deutschen, europäischen und globalen Fertigungsindustrie durch industrielle Datenökosysteme zu verbessern. Als Manufacturing-X-Leuchtturmprojekt konzentriert sich Factory-X 12 auf 11 spezielle Anwendungsfälle, die darauf abzielen, sowohl horizontale als auch vertikale Aspekte der Lieferkette innerhalb industrieller Abläufe zu verbessern und zu integrieren. Diese Anwendungsfälle sollen die bestehenden, auf die Lieferkette ausgerichteten Lösungen, die von Catena-X entwickelt wurden, erweitern, wobei der Schwerpunkt auf der vertikalen Integration liegt, die den Betrieb in der Fertigung direkt verbindet und optimiert. Das Konsortium wird von den beiden größten Verfechtern von Industrie 4.0 geleitet: der Siemens AG und SAP, die seit Jahren die Automatisierung von Lieferketten und Fabriken vorantreiben.
Wie im Draghi-Bericht zu Recht erwähnt, wurden im Laufe der Zeit mehrere EU-Industrieallianzen für Cloud-basierte Technologien und Datenaustausch mit unterschiedlichen Aufgaben (Andromède, Gaia-X, Catena-X) gegründet; alle neuen Datenräume stützen sich auf die von Gaia-X geschaffenen Grundlagen und die Vorreiterrolle von Catena-X, das seit Oktober 2023 in Betrieb ist. Von Europa vorangetriebene Initiativen in den Bereichen Luftfahrt, Kernenergie und Fertigung werden die verteilte technische Architektur und den Vertrauensrahmen wiederverwenden, um die Lieferkette und die Entwicklung neuer Produkte in den nächsten 3 bis 5 Jahren zu koordinieren.
Die Neugründung einer europäischen Cloud-Industrie, die mit den Hyperscalern konkurrieren soll, ist nicht mehr die bevorzugte Option, und wie in Draghis Bericht 13 erwähnt, wurde ein Mittelweg gefunden:
Die verschiedenen Branchen Luftfahrt, Energie und Automobil haben ihre Anforderungen in Bezug auf Interoperabilität und Souveränität definiert, die in freiwillige Gütesiegel von 1 bis 3 eingeflossen sind. Diese Gütesiegel werden von den Akteuren der Luftfahrt, der Energie und der Automobilbranche verwendet, um ihre Anforderungen an die Anbieter von Cloud-Diensten zu stellen, die ihre Dienste für den Datenaustausch anbieten. Da es für die Nutzer schwierig ist, die Konformität der Cloud-Dienste mit den Gütesiegeln zu überprüfen, hat Gaia-X Clearingstellen eingerichtet (eine oder zwei in jedem Land), die die Konformität der Cloud-Dienste mit den Gütesiegeln bestätigen.
Die bisherige Europäische Kommission (Dezember 2019 bis Dezember 2024) hat sich nach der Festlegung ihrer Datenstrategie klugerweise auf die Einführung der neuen Verordnung konzentriert und es Industrieverbänden wie Gaia-X überlassen, die besten Optionen in Bezug auf Architektur, Standards und Labels zu entwickeln.
Es wurden zwei Verordnungen erlassen, die mehrere Aspekte abdecken, von denen zwei besonders wichtig für die Schaffung erfolgreicher Datenräume sind:
- Der Data Governance Act (DGA) hat die Rolle des „Datenvermittlers“ identifiziert, der den Partnern des Datenraums Dienste zur gemeinsamen Nutzung von Daten zur Verfügung stellt. Diese Dienste basieren auf allgemeinen Cloud-Diensten, die die von den Nutzern der Datenräume geforderte Kennzeichnung respektieren und diesen Nutzern per Abonnement oder Transaktion in Rechnung gestellt werden, so wie es die Softwareindustrie mit Software-as-a-Service (SAAS) schon seit Jahren vorschlägt. Der DGA empfiehlt (oder schreibt vor 14), dass keiner der Teilnehmenden am Datenraum auch der Datenvermittler sein darf (um die in der B-to-C-Welt beobachtete Verzerrung zu vermeiden, bei der Amazon durch den Betrieb der Plattform einen ungebührlichen Vorteil gegenüber den anderen Händlern genießt).
- Das Datengesetz (DA) legt viele der Bestimmungen fest, die für die gemeinsame Nutzung von Daten erforderlich sind und die in die Etiketten aufgenommen wurden. Das Datengesetz legt ein Schlüsselprinzip fest: die von einem Gerät erzeugten Daten gehören dem Eigentümer des Geräts und nicht dem Geräteverkäufer. Dieser Grundsatz erleichtert den Datenaustausch: Sobald der Eigentümer des Geräts bereit ist, die von dem Gerät während seines Betriebs erzeugten Daten weiterzugeben (nachdem er das Eigentum an dem Gerät erworben hat), wird der bidirektionale Datenaustausch zwischen dem Gerätehersteller und dem Gerätenutzer gefördert, was zu einer Verringerung der Betriebs- und Wartungskosten führt.
Die Erfahrungen, die bei der Einrichtung der ersten Datenräume − sowohl der erfolgreichen als auch der erfolglosen − gesammelt wurden, liefern einen wertvollen Beitrag zur Ermittlung der Grundsätze für die Wirtschaftlichkeit der gemeinsamen Nutzung von Daten.
Die Infrastruktur für den Datenraum (Vertrauensrahmen, Transaktionen zur gemeinsamen Nutzung von Daten usw.) muss eingerichtet werden, damit die geschäftlichen Vorteile der gemeinsamen Nutzung von Daten genutzt werden können und somit der Break-even-Punkt der Infrastrukturinvestitionen erreicht wird und Daten für das kollektive generative KI-Training und die Feinabstimmung freigegeben werden können.
Betrachtet man das derzeitige Tätigkeitsportfolio, so zielen die neuen bedeutenden Datenräume auf diesen Reifegrad und die Gewinnschwelle für die wichtigsten Anwendungsfälle Ende 2027 ab, was eine betriebliche Wiederverwendung von Industriedaten im Jahr 2028 ermöglicht.
Wie wir schon oft gesagt haben, sollten Sie nicht erwarten, dass Sie im Frühjahr von Bäumen ernten können, die Sie im Herbst zuvor gepflanzt haben.
Nutzung der Investitionen in den europäischen Datenraum für vertikale KI
Der Draghi-Bericht (Teil B) enthält klare Ziele und Vorschläge für die künstliche Intelligenz, die wir nachdrücklich befürworten:
„Die EU muss den Ehrgeiz haben, bei der Entwicklung von KI für ihre starken Sektoren führend zu sein, die Kontrolle über Daten und sensible Cloud-Dienste zurückzugewinnen und zu behalten und ein solides finanzielles und talentiertes Schwungrad zu entwickeln, um Innovationen im Bereich der Datenverarbeitung und KI zu unterstützen. Um dies zu erreichen, sollte die EU darauf abzielen, sich in den nächsten fünf Jahren eine starke Position bei der KI zu sichern, die in Schlüsselindustrien wie fortgeschrittene Fertigung und Industrierobotik, Chemie, Telekommunikation und Biotechnologie eingebettet ist, und zwar auf der Grundlage einer Reihe von auf EU-Ebene entwickelten sektoralen Großsprachenmodellen und vertikalen Modellen. […]“
„Um diese Ziele zu erreichen, sollte die EU einen neuen „EU Cloud and AI Development Act“ verabschieden, der darauf abzielt, die europäischen HPC 15, KI- und Quantenkapazitäten und -infrastrukturen zu verbessern, die Anforderungen an die Cloud-Architektur und die Beschaffungsprozesse zu harmonisieren sowie vorrangige Initiativen zu koordinieren, um die private Beteiligung und Finanzierung zu erhöhen.“
Wir glauben, dass der vorgeschlagene Zeitrahmen von fünf Jahren angemessen ist und im Einklang mit den Zielen des digitalen Jahrzehnts steht: 75 % der EU-Unternehmen sollen bis 2030 Cloud, KI oder Big Data nutzen.
Allerdings ist die Art und Weise, wie die Mittel in diesen fünf Jahren ausgegeben werden, von entscheidender Bedeutung; wir machen uns diesbezüglich ernsthafte Sorgen, wenn wir Seite 83 von Teil B über den „EU Vertical AI Priorities Plan“ lesen:
„Diese Bemühungen würden mit Daten gespeist, die von EU-Unternehmen frei zur Verfügung gestellt werden, und durch Open-Source-Frameworks in datenintensiven Branchen unterstützt, die vor der Durchsetzung des EU-Kartellrechts geschützt sind, um die systematische Zusammenarbeit zwischen führenden EU-Unternehmen im Bereich der generativen KI und EU-weiten Industriechampions in Schlüsselsektoren zu fördern“
Ohne die vorgeschlagene Governance für die Entwicklung der wichtigsten KI-Vertikalen durch einen „CERN-ähnlichen KI-Inkubator“ zu erörtern, wollen wir die Zukunft Europas im Bereich der KI nicht auf eine mythische Annahme von EU-Unternehmen setzen, die tief in den Weltmarkt involviert und bereit sind, ihre Daten kostenlos zur Verfügung zu stellen. Der Grund, warum die Luftfahrtindustrie beispielsweise bereit ist, Daten zu teilen, ist nicht altruistisch, sondern er liegt darin, ihr Liefervolumen über 800 Flugzeuge pro Jahr hinaus zu erhöhen und gemeinsam mit dem Ökosystem kohlenstoffarme Flugzeuge zu entwickeln. Der Grund, warum die Nuklearindustrie beschlossen hat, einen Datenraum zu schaffen, ist die Herausforderung, alle 70 Monate ein Kernkraftwerk zu liefern, um genügend saubere Energie zur Unterstützung der europäischen Entwicklung bereitzustellen.
Die Unternehmen werden ihre Daten nicht kostenlos für gemeinsame Modelle zur Verfügung stellen, sondern verlangen zu Recht Vertrauen, Transparenz, Klarheit über die Eigentumsverhältnisse an den Modellen usw. Datenräume sind das Instrument, das zur Verfügung steht, um diese grundlegenden Anforderungen zu erfüllen.
Im Jahr 2025 wird die gemeinsame Nutzung von Daten von mehreren Branchen, insbesondere den im Draghi-Bericht erwähnten, als einzige Möglichkeit zur Bewältigung der existenziellen Herausforderungen angesehen, mit denen sie aufgrund der globalen Erwärmung konfrontiert sind. In mehreren der neuen Datenräume, die gerade erst geschaffen werden, wird es drei Jahre dauern, bis die Gewinnschwelle für die kritischsten Anwendungsfälle (Lieferkette, Entwicklung kohlenstoffarmer Fahrzeuge, Einhaltung von Umweltvorschriften) erreicht wird, was eine Voraussetzung für einen nachhaltigen branchenweiten Prozess der Erfassung von Industriedaten für KI ist. Wie am Ende von Abschnitt 2 erwähnt, muss in der Zwischenzeit die Dateninteroperabilität in der gesamten Branche geklärt werden, damit die Industriedaten über die Grenzen der Anwendungsfälle hinaus, für die Daten erfasst wurden, branchenweit genutzt werden können.
Wir empfehlen daher, nach vier Jahren der Finanzierung durch Europa und die Mitgliedstaaten eine gründliche Überprüfung der Datenräume vorzunehmen, die das Ende ihrer Finanzierung erreichen.
Das Gaia-X Institut und die Université Paris Dauphine haben ein Reifegradmodell vorgeschlagen, um die wirtschaftliche Lebensfähigkeit bestehender Datenräume zu bewerten 16, das sich an der vom EU Data Spaces Support Centre 17 vorgeschlagenen Definition orientiert. Es ist wichtig zu antizipieren, welche der bestehenden Datenräume wahrscheinlich zusammenbrechen werden, wenn die Finanzierung eingestellt wird. Da die Datenstrategie beträchtliche Energien und Finanzmittel mobilisiert hat, ist es wichtig, dass dieser erste Schritt so bald wie möglich und ohne Selbstgefälligkeit durchgeführt wird. Europa hat mit seiner Datenstrategie Pionierarbeit geleistet. In der Vergangenheit wurden sicherlich Fehler gemacht, aber die nächste Generation von Datenräumen, die 2025 eingeführt wird, muss garantiert in den nächsten drei bis vier Jahren für jeden der vorgeschlagenen Anwendungsfälle den Break-even erreichen; in der Zwischenzeit muss ein Weg zur Dateninteroperabilität unter Verwendung generativer KI ermittelt werden, um die Wiederverwendung von Branchendaten für KI sicherzustellen.
Der Draghi-Bericht bietet im Cloud-Abschnitt eine weitere Empfehlung, die wir unterstützen:
Unterstützung von Datenmaklern als „vorab zugelassene“ Datenvermittler, die die Einhaltung des EU-Besitzstandes ex ante bescheinigen und eine behördliche Freigabe über den Mechanismus des „EU-Bürgerbeauftragten“ garantieren. Dies würde dazu beitragen, branchenspezifische Lösungen zu fördern, die von EU-Unternehmen angeboten werden.
Abgesehen von den regulatorischen Aspekten für die Datenvermittler haben wir in der jüngsten Vergangenheit gesehen, dass die Datenvermittler, die wir auch als „Orchestratoren“ bezeichnen, den Großteil der wirtschaftlichen Risiken auf sich vereinen, die die regulären Mitglieder nicht zu tragen bereit sind und die manchmal in den Mitgliedsbeiträgen versteckt sind, die den Datenraum überlebensfähig machen, solange er wächst, wodurch de facto eine „Schneeballsystem“-Pyramide entsteht. Datenvermittler werden auf dem Weg zu einer erfolgreichen Einführung von Datenräumen und KI weiterhin eine Schlüsselrolle spielen, da sie sich um Interoperabilitätserfordernisse kümmern, als vertrauenssichernde Instanz fungieren und den Einsatz der investierten Mittel (meist in öffentlich-privaten Partnerschaften) koordinieren.
Schließlich geht der Draghi-Bericht auf den wichtigen Punkt der „KI-Sandkasten-Regime“ ein:
„Harmonisierung der nationalen „KI-Sandkasten-Regelungen“ in allen Mitgliedstaaten, um die Erprobung und Entwicklung innovativer KI-Anwendungen in den ausgewählten Industriesektoren zu ermöglichen und eine harmonisierte und vereinfachte Umsetzung der Datenschutzverordnung zu gewährleisten.“
Wir glauben, dass diese Empfehlung in Bereichen wie Gesundheit, autonomes Fahren, aber auch im gesamten Bereich der autonomen Agenten, der sich in naher Zukunft wahrscheinlich stark entwickeln wird, von entscheidender Bedeutung ist.
Schlussfolgerung
Der Draghi-Bericht fordert zu Recht mehr wirtschaftliche Wettbewerbsfähigkeit in Zeiten steigender Anforderungen an strategische Autonomie und technologische Souveränität. KI ist die Technologie, die heute den größten Wettbewerbsvorteil bietet. Deshalb muss Europa die KI-Innovation vorantreiben und wirtschaftliche Abhängigkeiten reduzieren.
Erfolgreiche KI hängt von der Verfügbarkeit von Schlüsselressourcen wie Rechenkapazität, großen Sprach-/Grundlagenmodellen und Daten ab. Anders als in anderen Wirtschaftsbereichen befinden sich diese Ressourcen nicht im Besitz einiger weniger Marktteilnehmer oder unter der Kontrolle des Staates, sondern sind auf verschiedene Akteure verteilt.
Deshalb muss Europa einen eigenen Weg finden, um das dringende Ziel der Wettbewerbsfähigkeit zu erreichen, das im Draghi-Bericht genannt wird. Der europäische Weg muss durch gemeinsam genutzte Ökosysteme gekennzeichnet sein, die aus einer verteilten Landschaft von Rechnerkapazitäten, Basismodellen und Daten zur Schulung und Feinabstimmung dieser Modelle bestehen. Außerdem sollte ein europäischer Ansatz offene Modelle wie Teuken 7B und Open-R1 unterstützen und nutzen sowie eigene Ressourcen hauptsächlich für die wertschöpfenderen Teile der Daten- und KI-Wertschöpfungskette einsetzen. Dieser Weg wird nur dann erfolgreich sein, wenn ein Aktionsplan aufgestellt wird, der technische Aspekte, aber vor allem auch Governance- und Geschäftsaspekte berücksichtigt. In der ersten Phase der europäischen Datenstrategie wurden die notwendigen Rahmenbedingungen für den Übergang zu einer echten europäischen Datenunion geschaffen.
Footnotes
- Die Ankündigung von DeepSeek R1 Ende Januar 2025 bietet eine neue Chance für Open-Source-GenAI, da die Kosten für das Modelltraining im Vergleich zu ChatGPT4 bei ähnlicher Leistung um den Faktor 20 gesenkt werden sollen.
- Vgl. Conroy, G., & Mallapaty, S. (2025). How China created AI model DeepSeek and shocked the world. Nature. https://www.nature.com/articles/d41586-025-00259-0
- Vgl. Bakouch, E., von Werra, L., & Tunstall, L. (2025, January 28). Open-R1: A fully open reproduction of DeepSeek-R1. Hugging Face Blog. https://huggingface.co/blog/open-r1
- Vgl. Fraunhofer IUK. (2024, December 2). Teuken-7B: Multilingual open-source large language model released. https://www.iuk.fraunhofer.de/en/news-web/2024/teuken-7b–multilinguales-open-source-sprachmodell-veroeffentlic.html
- https://internationaldataspaces.org/offers/dataspace-protocol/
- https://gaia-x.eu/services-deliverables/deliverables/
- Eine Ontologie ist eine Sammlung von Konzepten und Kategorien in einem Themenbereich oder einer Domäne, die ihre Eigenschaften und die Beziehungen zwischen ihnen aufzeigt.
- https://agdatahub.eu/en/
- Siehe https://dssc.eu/page/knowledge-base für weitere Informationen.
- https://gaia-x.eu/wp-content/uploads/2024/03/Study-on-the-emergence-and-creation-of-value-within-data.pdf
- https://boostaerospace.com/
- https://factory-x.org/de/
- „Angesichts der Dominanz der US-Anbieter muss die EU einen Mittelweg zwischen der Förderung ihrer heimischen Cloud-Industrie und der Sicherstellung des Zugangs zu den benötigten Technologien finden.“ Draghi Report, European Commission, https://commission.europa.eu/topics/eu-competitiveness/draghi-report_en
- Die DGA schreibt vor, dass Anbieter von Datenvermittlungsdiensten registriert sein müssen und ein EU-Vertrauenszeichen beantragen können, um nachzuweisen, dass sie alle gesetzlichen Anforderungen erfüllen.
- HPC (High Performance Computing) bezeichnet die nächste Generation von Supercomputern im Exaflops-Bereich; EuroHPC ist eine gemeinsame Initiative der EU, der europäischen Länder und privater Partner zur Entwicklung eines Supercomputer-Ökosystems der Weltklasse in Europa.
- https://gaia-x.eu/wp-content/uploads/2024/03/Study-on-the-emergence-and-creation-of-value-within-data.pdf
- Datenraum-Reifegradmodell: Eine Reihe von Indikatoren und ein Selbstbewertungsinstrument, das es Datenrauminitiativen ermöglicht, ihr Stadium im Entwicklungszyklus, ihre Leistungsindikatoren und ihre technischen, funktionellen, betrieblichen, geschäftlichen und rechtlichen Fähigkeiten in absoluten Zahlen und im Vergleich zu anderen zu verstehen