Warum fällt es vielen Unternehmen so schwer, von ihrem Datenreichtum zu profitieren? Unternehmen verfügen über immer größere Datenmengen. Meistens befinden sich all diese Daten in isolierten Datenbanken oder Anwendungen, die nicht miteinander verbunden sind. Die Daten werden in der Regel in verschiedenen Formaten gespeichert, manche davon strukturiert, andere unstrukturiert. Mitarbeiter haben auf manche Datenbanken Zugriff, auf andere aber nicht. Datenbankexperten, die benötigt werden, um all diese Daten zu verarbeiten, sind selten und teuer. Und Bedenken im Hinblick auf Sicherheit und Compliance machen den Datenzugriff und die Daten-Governance zu einem komplexen Thema.
Es wurden verschiedene technologische Ansätze entwickelt, um Unternehmen beim Umgang mit diesen und verwandten Datenintegrationsproblemen zu unterstützen, darunter Data Warehouse, Data Lake, Data Mesh, Datenvirtualisierung und die neueste Entwicklung Data Fabric. In diesem Artikel untersuchen wir zwei entgegengesetzte Technologien – Data Warehouse und Datenvirtualisierung – und sehen uns an, was ihre signifikanten Unterschiede dafür bedeuten, wie Sie Ihre Daten verwalten und von ihrem Wert profitieren können.
[ Möchten Sie mehr darüber erfahren, wie Sie Ihre Probleme mit Datensilos lösen und Innovationen voranbringen können? Lesen Sie unser e-Book: Der Vorteil einer Data Fabric. ]
Was bedeutet Datenvirtualisierung? Stellen Sie sich Ihre Daten in all den verschiedenen Datenquellsystemen und in all ihren verschiedenen Formaten vor. Datenvirtualisierung ist eine virtualisierte Architekturschicht, die auf diesen Datenquellen aufbaut und sie miteinander verbindet. (Hinweis: Das ist etwas anderes als „Datenvisualisierung“, bei der es darum geht, Daten mithilfe von Diagrammen und Grafiken zu erklären.)
Sie können sich diese virtualisierte Schicht als Abstraktionsebene vorstellen, was bedeutet, dass all die Entwicklungsarbeiten, die normalerweise erforderlich sind, um die Daten abzurufen (wie API-Aufrufe, Daten-Pipelines usw.), nicht mehr benötigt werden. Aktualisierungen in Echtzeit stellen sicher, dass die Daten sowohl im Quellsystem als auch in der virtualisierten Schicht korrekt sind.
Datenvirtualisierung ist ein Aspekt der Data Fabric, einer Architekturschicht und einem Toolset für die Verbindung verteilter Datenbasen, um eine einheitliche Ansicht zu schaffen. Aufgrund der virtualisierten Datenschicht müssen Sie die Daten nicht aus ihren Speicherorten in eine Datenbank, ein ERP-System oder eine CRM-Anwendung migrieren. Die Daten können entweder On-Premise oder in einem Cloud-Dienst gespeichert werden.
Die Begriffe Datenvirtualisierung und Data Fabric werden manchmal synonym verwendet, aber Data Fabric ist etwas weiter gefasst (und konzentriert sich mehr darauf, Daten nutzbar zu machen). Diese Daten in der virtualisierten Schicht müssen irgendwie nutzbar gemacht werden, und eine Data Fabric enthält die Tools, mit denen das möglich wird, sodass Sie die Daten verbinden, in Beziehung setzen und erweitern können.
Ein wichtiger Punkt, den Sie sich in Bezug auf Data Fabric und Datenvirtualisierung merken sollten, ist, dass die Daten niemals wirklich an einen anderen Ort verschoben werden. Es gibt hier keinen Zeit- oder Kostenaufwand für ihre Migration. Und obwohl die Daten an ihrem Quellspeicherort verbleiben, können Sie sie für Analysen oder als Eingabewerte für andere Anwendungen nutzen. Das ist ein wesentlicher Unterschied im Vergleich zu einem Data Warehouse-Ansatz.
Während eine Data Fabric Datenbasen verbindet, werden in einem Data Warehouse die Daten lediglich gesammelt. Ein Data Warehouse ist ein Speicherort für strukturierte Daten. Mit einem Data Warehouse extrahieren Sie Daten aus den Quellsystemen, wandeln sie um, um sie zu bereinigen und zu duplizieren, und laden sie ins Data Warehouse. Das bedeutet zusätzlichen operativen Overhead in Form von zusätzlicher Entwicklungszeit, Wartungsarbeiten, Überstunden, Pflege und technischen Schulden.
In der Realität sind viel Zeit und menschliche Arbeit erforderlich, um Daten von Punkt A (oder vielen Punkten A) an Punkt B im Data Warehouse zu bewegen. Ein Data Warehouse-Ansatz kann zudem zu Datenintegritätsproblemen führen, da Sie die ursprüngliche Datenbasis kopieren und komplexe Transformationslogiken anwenden.
Und zu guter Letzt erhalten Benutzer aus einem Data Warehouse – anders als mit einer Data Fabric – üblicherweise keine Echtzeitdaten. (Die Transformationsarbeiten hierfür wären viel zu aufwendig.) Das ist ein erheblicher Nachteil.
Mehr Details zu diesem Thema finden Sie in unserem verwandten Artikel: Data Fabric vs. Data Mesh vs. Data Lake. (Ein Data Lake ähnelt einem Data Warehouse, enthält aber unstrukturierte Daten.)
Diese zwei Ansätze für den Umgang mit Daten sind gegensätzlich, haben aber auch einige Gemeinsamkeiten.
Die Konzepte von Datenvirtualisierung und Data Warehouse haben Folgendes gemein:
Beachten Sie diese wichtigen Unterschiede:
Sie haben gerade gelesen, dass eine Datenvirtualisierungsschicht die Entwicklungsgeschwindigkeit beschleunigen kann, aber um wie viel? Laut einer Recherche von Gartner „reduziert eine Data Fabric den Zeitaufwand für das Integrationsdesign um 30 %, für die Bereitstellung um 30 % und für die Wartung um 70 %.“ Weil für eine virtualisierte Datenschicht keine Datenmigration erforderlich ist, können Sie sofort damit beginnen, auf Basis Ihrer Daten leistungsstarke Produkte und Anwendungen zu entwickeln.
Darüber hinaus müssen Sie keine API-Integrationen entwickeln – es sei denn, sie wollen es –, da eine Data Fabric auf Grundlage einer Datenvirtualisierungsschicht bereits über eine Lösung verfügt, um die Daten abzurufen. Eine verwandte Option, Data Mesh, befasst sich mit demselben Problem wie Data Fabric, belastet Unternehmen aber mit viel Arbeit an API-Integrationen und anderen zeitintensiven Entwicklungsarbeiten. Data Mesh ist im Vergleich zu Data Fabric eher eine High-Code-Lösung.
Sie erhalten sogar noch mehr Geschwindigkeit und Mehrwert aus einem Data Fabric-Ansatz, wenn Sie ihn mit einer Plattform kombinieren, die No-Code-Datenmodellierung und Sicherheit auf Datensatzebene bietet.
Sie sind hier, um drei wichtige Fakten über Datenvirtualisierung und Data Warehouses zu erfahren. Hier ist also unser Fazit:
[ Wie passt eine Data Fabric in eine moderne Automatisierungsstrategie? Holen Sie sich den Gartner®-Bericht zu den Trends in der Hyperautomatisierung 2022. ]