¿Por qué aprovechar los datos supone un desafío tan grande para tantas empresas? En primer lugar, las empresas tienen cantidades de datos cada vez mayores. Normalmente, todos esos datos se encuentran en bases de datos en silos o aplicaciones que no están interconectadas. Los datos suelen almacenarse en diferentes formatos y algunos están estructurados, mientras que el resto no lo está. Los empleados tienen acceso a algunas bases de datos, pero no a otras. La destreza en bases de datos, necesaria para gestionar todos esos datos, es un recurso escaso y costoso. Además, las preocupaciones en torno a la seguridad y el cumplimiento hacen que el acceso y la governance de los datos sean complejos.
Para ayudar a las empresas a manejar estos y otros problemas de integración de datos relacionados, han surgido múltiples enfoques tecnológicos, incluidos el almacén de datos, el lago de datos, la malla de datos, la virtualización de datos y, más recientemente, data fabric. En este artículo, examinaremos dos tecnologías opuestas (almacén de datos y virtualización de datos) y analizaremos cómo sus diferencias significativas influyen en la forma en que podrá gestionar y sacar provecho al valor de los datos.
[¿Quiere saber más sobre cómo resolver sus problemas de silos de datos y acelerar la innovación? Consiga el libro electrónico: La ventaja de Data Fabric. ]
¿Qué significa la virtualización de datos? Piense en todos sus datos en los diferentes sistemas de orígenes de datos en los que se encuentran, en todos sus diferentes formatos. La virtualización de datos es una capa de arquitectura virtualizada que «se posa» encima de esas fuentes de datos y las conecta. (NOTA: Se trata de una función distinta a la de «visualización de datos», la cual consiste en elementos como cuadros y gráficos que ayudan a explicar los datos).
Puede pensar en esta capa virtualizada como una capa de abstracción, lo que significa que no se requiere todo el trabajo de desarrollo que normalmente se necesitaría para la obtención de datos (como API calls, canales de datos, etc.). Las actualizaciones en tiempo real garantizan que los datos sean correctos tanto en el sistema de origen como en la capa virtualizada.
La virtualización de datos es un aspecto del data fabric, que es una capa de arquitectura y un conjunto de herramientas cuya finalidad es conectar conjuntos de datos dispares para crear una vista unificada. Gracias a esa capa de datos virtualizada, no necesitará migrar los datos desde donde se encuentren (por ejemplo, una base de datos, un ERP o una aplicación de CRM). Los datos pueden radicar en las instalaciones o en un servicio cloud.
A veces verá que los términos virtualización de datos y data fabric se usan indistintamente, pero piense en el data fabric como en algo un poco más amplio (y más centrado en hacer que los datos sean utilizables). Los datos que se encuentran en la capa virtualizada deben utilizarse de alguna forma, y el data fabric proporciona las herramientas para hacerlo posible, de modo que pueda conectar esos datos, relacionarlos entre sí y ampliarlos.
Un punto clave a recordar sobre el enfoque de data fabric o virtualización de datos es el siguiente: en realidad, los datos nunca se mueven. No hay tiempos de espera ni gastos relacionados con una migración. Aunque los datos permanecen en su ubicación de origen, puede utilizarlos para realizar análisis o para alimentar otras aplicaciones. Esta es una diferencia significativa respecto al enfoque de almacén de datos.
Mientras que el data fabric conecta conjuntos de datos, un almacén de datos solo los recopila. Un almacén de datos es un depósito de datos estructurados. Con un almacén de datos, extrae datos de los sistemas de origen, los transforma para limpiarlos y duplicarlos y los sube a dicho almacén. Eso supone gastos operativos adicionales en términos de tiempo adicional de desarrollo, trabajo de mantenimiento, horas extra, actualizaciones y deuda técnica.
En realidad, llevar datos de un punto A (o muchos puntos A) a un punto B en el almacén supone un gran gasto de tiempo y esfuerzo humano. El enfoque de almacén de datos también puede causar problemas de integridad de los datos, ya que está moviendo el conjunto de datos original y aplicando una lógica de transformación compleja.
Por último, a diferencia del data fabric, el enfoque de almacén de datos no suele ser capaz de proporcionar a los usuarios datos en tiempo real (pues el trabajo de transformación sería demasiado difícil). Esa es una desventaja significativa.
Para obtener más información sobre este tema, consulte nuestro artículo relacionado: Data fabric vs. data mesh vs. data lake. (Un lago de datos es similar a un almacén de datos, pero para datos no estructurados).
Estos dos enfoques de los datos son opuestos, pero tienen algunas cosas en común.
A continuación le explicamos qué comparten los conceptos de virtualización de datos y almacén de datos:
Tenga en cuenta estas importantes diferencias:
Acaba de leer que el uso de una capa de virtualización de datos puede aumentar la velocidad de desarrollo, pero… ¿hasta qué punto? Según una investigación de Gartner, «el data fabric reduce el tiempo dedicado al diseño de integración en un 30 %, el despliegue en un 30 % y el mantenimiento en un 70 %». Debido a que una capa de datos virtualizados elimina la necesidad de migrarlos, puede empezar a utilizarlos para desarrollar productos y aplicaciones potentes de inmediato.
Además, no tendrá que crear integraciones de API a menos que lo desee, pues un data fabric creado sobre una capa de virtualización de datos ya cuenta con una solución para la recuperación de los datos. Una opción relacionada, la malla de datos, aborda el mismo problema que el data fabric, pero deja a las empresas con una gran cantidad de trabajo de integración de API y otros trabajos de desarrollo que requieren mucho tiempo. La malla de datos es una solución más high-code que el data fabric.
Un enfoque centrado en el data fabric podrá ofrecerle una velocidad y un valor aún mayores si lo combina con una plataforma que incluya modelado de datos sin código y seguridad a nivel de registro.
Ha venido a conocer tres hechos clave sobre la virtualización de datos y los almacenes de datos. Aquí tiene estas lecciones: