Zum Hauptinhalt springen

Datenvirtualisierung und Data Warehouse im Vergleich: 3 wichtige Fakten

Was ist der Unterschied zwischen Datenvirtualisierung und Data Warehouse? Wie hängen die beiden Begriffe mit Data Fabric zusammen? Erfahren Sie, wie sich diese Datenarchitekturoptionen unterscheiden

Warum fällt es vielen Unternehmen so schwer, von ihrem Datenreichtum zu profitieren? Unternehmen verfügen über immer größere Datenmengen. Meistens befinden sich all diese Daten in isolierten Datenbanken oder Anwendungen, die nicht miteinander verbunden sind. Die Daten werden in der Regel in verschiedenen Formaten gespeichert, manche davon strukturiert, andere unstrukturiert. Mitarbeiter haben auf manche Datenbanken Zugriff, auf andere aber nicht. Datenbankexperten, die benötigt werden, um all diese Daten zu verarbeiten, sind selten und teuer. Und Bedenken im Hinblick auf Sicherheit und Compliance machen den Datenzugriff und die Daten-Governance zu einem komplexen Thema.

Es wurden verschiedene technologische Ansätze entwickelt, um Unternehmen beim Umgang mit diesen und verwandten Datenintegrationsproblemen zu unterstützen, darunter Data Warehouse, Data Lake, Data Mesh, Datenvirtualisierung und die neueste Entwicklung Data Fabric. In diesem Artikel untersuchen wir zwei entgegengesetzte Technologien – Data Warehouse und Datenvirtualisierung – und sehen uns an, was ihre signifikanten Unterschiede dafür bedeuten, wie Sie Ihre Daten verwalten und von ihrem Wert profitieren können.

[ Möchten Sie mehr darüber erfahren, wie Sie Ihre Probleme mit Datensilos lösen und Innovationen voranbringen können? Lesen Sie unser e-Book: Der Vorteil einer Data Fabric. ]

Was ist Datenvirtualisierung?

Was bedeutet Datenvirtualisierung? Stellen Sie sich Ihre Daten in all den verschiedenen Datenquellsystemen und in all ihren verschiedenen Formaten vor. Datenvirtualisierung ist eine virtualisierte Architekturschicht, die auf diesen Datenquellen aufbaut und sie miteinander verbindet. (Hinweis: Das ist etwas anderes als „Datenvisualisierung“, bei der es darum geht, Daten mithilfe von Diagrammen und Grafiken zu erklären.)

Sie können sich diese virtualisierte Schicht als Abstraktionsebene vorstellen, was bedeutet, dass all die Entwicklungsarbeiten, die normalerweise erforderlich sind, um die Daten abzurufen (wie API-Aufrufe, Daten-Pipelines usw.), nicht mehr benötigt werden. Aktualisierungen in Echtzeit stellen sicher, dass die Daten sowohl im Quellsystem als auch in der virtualisierten Schicht korrekt sind.

Datenvirtualisierung ist ein Aspekt der Data Fabric, einer Architekturschicht und einem Toolset für die Verbindung verteilter Datenbasen, um eine einheitliche Ansicht zu schaffen. Aufgrund der virtualisierten Datenschicht müssen Sie die Daten nicht aus ihren Speicherorten in eine Datenbank, ein ERP-System oder eine CRM-Anwendung migrieren. Die Daten können entweder On-Premise oder in einem Cloud-Dienst gespeichert werden.

Die Begriffe Datenvirtualisierung und Data Fabric werden manchmal synonym verwendet, aber Data Fabric ist etwas weiter gefasst (und konzentriert sich mehr darauf, Daten nutzbar zu machen). Diese Daten in der virtualisierten Schicht müssen irgendwie nutzbar gemacht werden, und eine Data Fabric enthält die Tools, mit denen das möglich wird, sodass Sie die Daten verbinden, in Beziehung setzen und erweitern können.

Ein wichtiger Punkt, den Sie sich in Bezug auf Data Fabric und Datenvirtualisierung merken sollten, ist, dass die Daten niemals wirklich an einen anderen Ort verschoben werden. Es gibt hier keinen Zeit- oder Kostenaufwand für ihre Migration. Und obwohl die Daten an ihrem Quellspeicherort verbleiben, können Sie sie für Analysen oder als Eingabewerte für andere Anwendungen nutzen. Das ist ein wesentlicher Unterschied im Vergleich zu einem Data Warehouse-Ansatz.

Was ist ein Data Warehouse?

Während eine Data Fabric Datenbasen verbindet, werden in einem Data Warehouse die Daten lediglich gesammelt. Ein Data Warehouse ist ein Speicherort für strukturierte Daten. Mit einem Data Warehouse extrahieren Sie Daten aus den Quellsystemen, wandeln sie um, um sie zu bereinigen und zu duplizieren, und laden sie ins Data Warehouse. Das bedeutet zusätzlichen operativen Overhead in Form von zusätzlicher Entwicklungszeit, Wartungsarbeiten, Überstunden, Pflege und technischen Schulden.

In der Realität sind viel Zeit und menschliche Arbeit erforderlich, um Daten von Punkt A (oder vielen Punkten A) an Punkt B im Data Warehouse zu bewegen. Ein Data Warehouse-Ansatz kann zudem zu Datenintegritätsproblemen führen, da Sie die ursprüngliche Datenbasis kopieren und komplexe Transformationslogiken anwenden.

Und zu guter Letzt erhalten Benutzer aus einem Data Warehouse – anders als mit einer Data Fabric – üblicherweise keine Echtzeitdaten. (Die Transformationsarbeiten hierfür wären viel zu aufwendig.) Das ist ein erheblicher Nachteil.

Mehr Details zu diesem Thema finden Sie in unserem verwandten Artikel: Data Fabric vs. Data Mesh vs. Data Lake. (Ein Data Lake ähnelt einem Data Warehouse, enthält aber unstrukturierte Daten.)

Datenvirtualisierung und Data Warehouse im Vergleich: Unterschiede und Ähnlichkeiten

Diese zwei Ansätze für den Umgang mit Daten sind gegensätzlich, haben aber auch einige Gemeinsamkeiten.

Die Konzepte von Datenvirtualisierung und Data Warehouse haben Folgendes gemein:

  • Kategorie: Beides sind Methoden der Datenintegration oder Datenarchitektur.
  • Zweck: Beide versuchen, Big-Data-Integrationsprobleme zu lösen und Daten für geschäftliche Benutzer verfügbar zu machen.

Beachten Sie diese wichtigen Unterschiede:

  • Speicherort der Daten: Es sei noch einmal darauf hingewiesen, dass bei der Datenvirtualisierung/Data Fabric die Daten dort bleiben, wo sie sind, während bei einem Data Warehouse-Ansatz die Daten migriert werden. Migration bedeutet Arbeitsstunden für Planung und Entwicklung sowie Kosten.
  • Geschwindigkeit: Die Datenvirtualisierung/Data Fabric beschleunigt die Arbeit von Geschäfts- und IT-Teams, da der Migrationsschritt übersprungen wird.
  • Agilität: Eine Data Fabric-Architektur bietet eine neue Möglichkeit, isolierte Daten in einem Unternehmen miteinander zu verbinden. Ein wichtiges Unterscheidungsmerkmal dabei ist, dass eine Data Fabric sowohl transaktionelle als auch analytische Systeme abdeckt. Transaktionselle Daten sind lebendige Daten, die sich ständig verändern, um Anwendungen wie ein CRM zu unterstützen. Analytische Daten sind historische Daten. Sie sind unveränderlich bzw. verändern sich nicht mehr. Ein Data Warehouse unterstützt nur analytische Daten.

So beschleunigt die Datenvirtualisierung/Data Fabric die Entwicklungsarbeit

Sie haben gerade gelesen, dass eine Datenvirtualisierungsschicht die Entwicklungsgeschwindigkeit beschleunigen kann, aber um wie viel? Laut einer Recherche von Gartner „reduziert eine Data Fabric den Zeitaufwand für das Integrationsdesign um 30 %, für die Bereitstellung um 30 % und für die Wartung um 70 %.“ Weil für eine virtualisierte Datenschicht keine Datenmigration erforderlich ist, können Sie sofort damit beginnen, auf Basis Ihrer Daten leistungsstarke Produkte und Anwendungen zu entwickeln.

Darüber hinaus müssen Sie keine API-Integrationen entwickeln – es sei denn, sie wollen es –, da eine Data Fabric auf Grundlage einer Datenvirtualisierungsschicht bereits über eine Lösung verfügt, um die Daten abzurufen. Eine verwandte Option, Data Mesh, befasst sich mit demselben Problem wie Data Fabric, belastet Unternehmen aber mit viel Arbeit an API-Integrationen und anderen zeitintensiven Entwicklungsarbeiten. Data Mesh ist im Vergleich zu Data Fabric eher eine High-Code-Lösung.

Sie erhalten sogar noch mehr Geschwindigkeit und Mehrwert aus einem Data Fabric-Ansatz, wenn Sie ihn mit einer Plattform kombinieren, die No-Code-Datenmodellierung und Sicherheit auf Datensatzebene bietet.

Drei Fakten zur Datenintegration, die Sie sich merken sollten

Sie sind hier, um drei wichtige Fakten über Datenvirtualisierung und Data Warehouses zu erfahren. Hier ist also unser Fazit:

  1. Datenvirtualisierung verbindet Daten. Ein Data Warehouse sammelt nur die Daten.
  2. Die Datenvirtualisierung erstellt eine virtuelle Schicht, über die Benutzer mit Daten arbeiten können, als ob sich diese alle in einem Data Warehouse befinden, nur schneller und ohne Migrationsarbeiten.
  3. Eine Data Fabric verwendet eine Datenvirtualisierungsschicht, über die geschäftliche und IT-Teams Ihre Daten nutzen können, und spart so Zeit ein, die für die Entwicklung innovativerer Produkte und Dienstleistungen genutzt werden kann.

[ Wie passt eine Data Fabric in eine moderne Automatisierungsstrategie? Holen Sie sich den Gartner®-Bericht zu den Trends in der Hyperautomatisierung 2022. ]