Moderne Anwendungen sind in hohem Maße von datengesteuerten Prozessen abhängig – autonomes Fahren beispielsweise benötigt große Mengen an Sensor- und Videodaten, um Algorithmen zu trainieren, und Anwendungen in intelligenten Produktionslinien benötigen einen konstanten und zeitnahen Fluss von Sensordaten, um Produktionsfehler schnell zu erkennen. Diese Daten sind jedoch längst nicht mehr Teil einer einzigen Verarbeitungskette, sondern werden oft von verschiedenen, organisatorisch getrennten Akteuren erzeugt und verwaltet. Dementsprechend ist die gemeinsame Nutzung von Daten für datengesteuerte Anwendungen von großer Bedeutung. Bei der gemeinsamen Nutzung solcher Sensoren, Simulationen, Transaktionen und Daten ergeben sich jedoch eine Vielzahl von geschäftlichen, technischen und organisatorischen Fragen hinsichtlich der Systemleistung, des Datenschutzes, der Vertrauenswürdigkeit und der Verfügbarkeit. Das so genannte Cloud-Edge-Kontinuum, das den Betrieb und die Verwaltung von Daten sowohl in der Nähe der Sensoren als Datenquellen (Edge) als auch in entfernten Cloud Data Lakes im Backend ermöglicht, bietet erste Antworten auf Fragen der Verfügbarkeit und Leistung. Es bleibt also die Frage, wie die Vertraulichkeit und Vertrauenswürdigkeit von Daten über den organisatorischen Kontext hinaus durch Cloud-Edge-Kontinuum-Anwendungen sichergestellt werden kann.
Gemeinsam mit mehreren renommierten internationalen Partnern werden wir diese Frage im Horizon Europe Projekt „TEADAL“ (Trustworthy, Energy-Aware Federated Data Lakes Along the Computing Continuum) angehen, indem wir ein neuartiges Cloud- und Edge-Datenmanagementsystem entwickeln, das Datensätze auf nachvollziehbare, vertrauenswürdige und vertrauliche Weise teilt. Gleichzeitig wird dieses neue System den Schwerpunkt auf die Energieeffizienz legen, insbesondere im Hinblick auf den ökologischen Fußabdruck gemeinsam genutzter Datensysteme. In der digitalen Landwirtschaft sollte es beispielsweise möglich sein, Modelle zur Vorhersage und Bekämpfung von Pflanzenkrankheiten zu erstellen, die auf Beobachtungen von über ganz Europa verteilten Betrieben basieren, von denen einige miteinander konkurrieren, ohne dass vertrauliche landwirtschaftliche Daten preisgegeben werden. So können alle Betriebe von der gemeinsamen Datenerhebung und Modellentwicklung profitieren, ohne Betriebsgeheimnisse preiszugeben.
Eine große wissenschaftliche Herausforderung liegt in der Heterogenität dieser Datenquellen und -besitzer. Ein System, das die Vertrauenswürdigkeit und Vertraulichkeit sicherstellt, muss nachvollziehbar und transparent arbeiten und gleichzeitig die Daten nicht direkt offenlegen. Daher ist die richtige Auswahl und der Einsatz softwarebasierter Lösungen für verteiltes vertrauliches Rechnen und dynamische Datenmodifikation unerlässlich. Unser Fokus im Projekt liegt daher auf Ansätzen in den Bereichen Blockchain-basierte Systeme, Off-Chaining, Zero-Knowledge-Proofs, sicheres Multi-Party-Computing, Trusted Execution Environments (TEEs), Rollups sowie (Laufzeit-)Beobachtbarkeit, Energy Tracing und Privacy Engineering.
Quelle: TEADAL: Trustworthy, Energy-Aware Federated Data Lakes Along the Computing Continuum