Pourquoi la mise en œuvre des données représente-t-elle un tel défi pour tant d’entreprises ? Tout d’abord, les entreprises disposent de masses de données de plus en plus importantes. Généralement, toutes ces données sont stockées dans des bases de données ou des applications cloisonnées, qui ne sont pas connectées entre elles. Les données sont généralement stockées dans différents formats, et une partie d’entre elles est structurée, tandis que l’autre non. Les employés ont accès à certaines bases de données, mais pas à d’autres. Les talents en matière de bases de données, nécessaires pour manipuler toutes ces données, sont limités et coûteux. Enfin, les problèmes de sécurité et de conformité rendent l’accès aux données et leur gouvernance complexes.
De nombreuses approches technologiques sont apparues pour aider les entreprises à gérer ces problèmes d’intégration de données et d’autres problèmes connexes, notamment les entrepôts de données, les lacs de données, les maillages de données, la virtualisation des données et, plus récemment, la data fabric. Dans cet article, nous examinerons deux technologies opposées : l’entrepôt de données et la virtualisation des données. Nous aborderons leurs principales différences et la manière dont elles vous permettent de gérer les données et en exploiter la valeur.
[ Vous voulez découvrir comment résoudre vos problèmes de silos de données et accélérer l’innovation ? Accédez à l’eBook : L’avantage de la data fabric. ]
Que signifie la virtualisation des données ? Imaginez vos données dans tous les différents systèmes de sources de données où elles résident, dans tous leurs formats. La virtualisation des données est une couche d’architecture virtualisée, qui repose sur ces sources de données et les relie. (Remarque : cette notion est différente de celle de « visualisation des données », qui fait référence à des éléments tels que des tableaux et des graphiques aidant à expliquer les données.)
Vous pouvez considérer cette couche virtualisée comme une couche d’abstraction, ce qui signifie que tout le travail de développement qui serait normalement nécessaire pour obtenir des données n’est pas requis (comme les appels API, les pipelines de données, etc.). Les mises à jour en temps réel garantissent que les données sont correctes, à la fois dans le système source et dans la couche virtualisée.
La virtualisation des données est l’un des aspects de la data fabric, laquelle est une couche d’architecture et un ensemble d’outils permettant de connecter des ensembles de données disparates pour créer une vue unifiée. Grâce à la couche de données virtualisées, vous n’avez pas besoin de migrer les données à partir de l’endroit où elles résident, par exemple dans une base de données, un ERP ou une application de gestion de la relation clients (CRM). Les données peuvent se trouver on premise ou dans un service cloud.
Vous verrez que les termes « virtualisation des données » et « data fabric » sont parfois utilisés de manière interchangeable, mais considérez que la data fabric est un peu plus vaste (et davantage axée sur l’utilisation des données). Ces données qui se trouvent dans la couche virtualisée doivent être utilisées d’une manière ou d’une autre, et la data fabric fournit les outils nécessaires pour rendre cela possible, afin que vous puissiez les connecter, les relier et les étendre.
Un point essentiel à retenir de l’approche de la data fabric ou de la virtualisation des données est le suivant : les données ne sont jamais déplacées. Il n’y a pas de durée ni de frais de migration. Bien que les données restent à leur emplacement d’origine, vous pouvez les utiliser à des fins d’analyse ou pour alimenter d’autres applications. Il s’agit d’une différence significative par rapport à l’approche de l’entrepôt de données.
Alors qu’une data fabric connecte des ensembles de données entre eux, un entrepôt de données se contente de les collecter. Un entrepôt de données est un dépôt de données structurées. Avec un entrepôt de données, vous extrayez les données depuis des systèmes sources, vous les transformez pour les nettoyer et les dupliquer, puis vous les chargez dans l’entrepôt de données. Cela implique des frais généraux opérationnels supplémentaires en termes de temps de développement, de travail de maintenance, d’entretien et de dette technique.
En réalité, il faut beaucoup de temps et d’efforts humains pour amener les données du point A (ou de plusieurs points A) au point B de l’entrepôt. L’approche de l’entrepôt de données peut également entraîner des problèmes d’intégrité des données, puisque vous déplacez l’ensemble original de données et appliquez une logique de transformation complexe.
Enfin, contrairement à la data fabric, l’approche de l’entrepôt de données renonce généralement à fournir aux utilisateurs des données en temps réel. (Le travail de transformation serait trop difficile.) C’est un inconvénient non négligeable.
Pour plus de détails sur ce sujet, consultez notre article connexe : Data fabric, maillage de données et lac de données. (Un lac de données est similaire à un entrepôt de données, mais il est utilisé pour des données non structurées.)
Ces deux approches des données sont opposées, mais elles ont des points communs.
Voici ce que les concepts de virtualisation des données et d’entrepôt de données ont en commun :
Notez ces différences importantes :
Vous venez de lire que l’utilisation d’une couche de virtualisation des données peut augmenter la vitesse de développement. Mais dans quelle mesure ? Selon l’étude de Gartner, « la data fabric réduit le temps de conception de l’intégration de 30 %, de déploiement de 30 % et de maintenance de 70 % ». Étant donné qu’une couche de données virtualisées supprime le besoin de migration des données, vous pouvez commencer à utiliser vos données pour développer immédiatement des produits et applications performants.
En outre, vous n’aurez pas à créer d’intégrations API (à moins que vous ne le souhaitiez), puisqu’une data fabric construite sur une couche de virtualisation des données dispose déjà d’une solution en place pour obtenir les données. Le maillage de données est une option similaire qui s’attaque au même problème que la data fabric, mais laisse aux entreprises beaucoup de travail d’intégration d’API et d’autres tâches de développement chronophages. Le maillage de données est davantage une solution high-code que la data fabric.
Vous pouvez obtenir encore plus de rapidité et de valeur de la data fabric lorsque vous la combinez avec une plateforme qui inclut la modélisation de données sans code et la sécurité au niveau des enregistrements.
Vous êtes ici pour obtenir trois informations clés sur la virtualisation des données et les entrepôts de données. Retenez donc ceci :
[ Comment la data fabric s’intègre-t-elle dans une stratégie d’automatisation moderne ? Obtenez le rapport Gartner® 2022 sur les tendances de l’hyperautomatisation. ]