Skip to main content

Virtualización de datos frente a almacén de datos: 3 datos clave

¿Cuál es la diferencia entre virtualización de datos y almacén de datos? ¿Cómo se relacionan ambos términos con el data fabric? Le ofrecemos una comparación de estas opciones de arquitectura de datos

¿Por qué aprovechar los datos supone un desafío tan grande para tantas empresas? En primer lugar, las empresas tienen cantidades de datos cada vez mayores. Normalmente, todos esos datos se encuentran en bases de datos en silos o aplicaciones que no están interconectadas. Los datos suelen almacenarse en diferentes formatos y algunos están estructurados, mientras que el resto no lo está. Los empleados tienen acceso a algunas bases de datos, pero no a otras. La destreza en bases de datos, necesaria para gestionar todos esos datos, es un recurso escaso y costoso. Además, las preocupaciones en torno a la seguridad y el cumplimiento hacen que el acceso y la governance de los datos sean complejos.

Para ayudar a las empresas a manejar estos y otros problemas de integración de datos relacionados, han surgido múltiples enfoques tecnológicos, incluidos el almacén de datos, el lago de datos, la malla de datos, la virtualización de datos y, más recientemente, data fabric. En este artículo, examinaremos dos tecnologías opuestas (almacén de datos y virtualización de datos) y analizaremos cómo sus diferencias significativas influyen en la forma en que podrá gestionar y sacar provecho al valor de los datos.

[¿Quiere saber más sobre cómo resolver sus problemas de silos de datos y acelerar la innovación? Consiga el libro electrónico: La ventaja de Data Fabric. ]

¿Qué es la virtualización de datos?

¿Qué significa la virtualización de datos? Piense en todos sus datos en los diferentes sistemas de orígenes de datos en los que se encuentran, en todos sus diferentes formatos. La virtualización de datos es una capa de arquitectura virtualizada que «se posa» encima de esas fuentes de datos y las conecta. (NOTA: Se trata de una función distinta a la de «visualización de datos», la cual consiste en elementos como cuadros y gráficos que ayudan a explicar los datos).

Puede pensar en esta capa virtualizada como una capa de abstracción, lo que significa que no se requiere todo el trabajo de desarrollo que normalmente se necesitaría para la obtención de datos (como API calls, canales de datos, etc.). Las actualizaciones en tiempo real garantizan que los datos sean correctos tanto en el sistema de origen como en la capa virtualizada.

La virtualización de datos es un aspecto del data fabric, que es una capa de arquitectura y un conjunto de herramientas cuya finalidad es conectar conjuntos de datos dispares para crear una vista unificada. Gracias a esa capa de datos virtualizada, no necesitará migrar los datos desde donde se encuentren (por ejemplo, una base de datos, un ERP o una aplicación de CRM). Los datos pueden radicar en las instalaciones o en un servicio cloud.

A veces verá que los términos virtualización de datos y data fabric se usan indistintamente, pero piense en el data fabric como en algo un poco más amplio (y más centrado en hacer que los datos sean utilizables). Los datos que se encuentran en la capa virtualizada deben utilizarse de alguna forma, y el data fabric proporciona las herramientas para hacerlo posible, de modo que pueda conectar esos datos, relacionarlos entre sí y ampliarlos.

Un punto clave a recordar sobre el enfoque de data fabric o virtualización de datos es el siguiente: en realidad, los datos nunca se mueven. No hay tiempos de espera ni gastos relacionados con una migración. Aunque los datos permanecen en su ubicación de origen, puede utilizarlos para realizar análisis o para alimentar otras aplicaciones. Esta es una diferencia significativa respecto al enfoque de almacén de datos.

¿Qué es un almacén de datos?

Mientras que el data fabric conecta conjuntos de datos, un almacén de datos solo los recopila. Un almacén de datos es un depósito de datos estructurados. Con un almacén de datos, extrae datos de los sistemas de origen, los transforma para limpiarlos y duplicarlos y los sube a dicho almacén. Eso supone gastos operativos adicionales en términos de tiempo adicional de desarrollo, trabajo de mantenimiento, horas extra, actualizaciones y deuda técnica.

En realidad, llevar datos de un punto A (o muchos puntos A) a un punto B en el almacén supone un gran gasto de tiempo y esfuerzo humano. El enfoque de almacén de datos también puede causar problemas de integridad de los datos, ya que está moviendo el conjunto de datos original y aplicando una lógica de transformación compleja.

Por último, a diferencia del data fabric, el enfoque de almacén de datos no suele ser capaz de proporcionar a los usuarios datos en tiempo real (pues el trabajo de transformación sería demasiado difícil). Esa es una desventaja significativa.

Para obtener más información sobre este tema, consulte nuestro artículo relacionado: Data fabric vs. data mesh vs. data lake. (Un lago de datos es similar a un almacén de datos, pero para datos no estructurados).

Virtualización de datos frente a almacén de datos: diferencias y similitudes

Estos dos enfoques de los datos son opuestos, pero tienen algunas cosas en común.

A continuación le explicamos qué comparten los conceptos de virtualización de datos y almacén de datos:

  • Categoría: ambos son formas de abordar la integración de datos o la arquitectura de datos.
  • Propósito: ambos intentan resolver los problemas de integración del big data y hacer que los datos sean accesibles para los usuarios de las empresas.

Tenga en cuenta estas importantes diferencias:

  • Ubicación de los datos: vale la pena reiterar el hecho de que, con la virtualización de datos/data fabric, los datos permanecen donde están, mientras que en un almacén de datos, los datos se migran. La migración supone tiempo, horas de planificación y desarrollo y gastos.
  • Velocidad: la virtualización de datos/data fabric permite acelerar los procesos empresariales y el trabajo del equipo de TI, ya que prescinde del paso de migración.
  • Agilidad: una arquitectura de data fabric ofrece una nueva forma de conectar datos entre silos de la empresa. Un diferenciador clave es que el data fabric abarca tanto sistemas transaccionales como analíticos. Los datos transaccionales son datos vivos, que cambian constantemente para dar soporte a aplicaciones como el sistema de CRM. Con datos analíticos nos referimos a datos históricos, y estos son inmutables o invariables. Los almacenes de datos solo pueden trabajar con datos analíticos.

Cómo la virtualización de datos/data fabric acelera el trabajo de desarrollo

Acaba de leer que el uso de una capa de virtualización de datos puede aumentar la velocidad de desarrollo, pero… ¿hasta qué punto? Según una investigación de Gartner, «el data fabric reduce el tiempo dedicado al diseño de integración en un 30 %, el despliegue en un 30 % y el mantenimiento en un 70 %». Debido a que una capa de datos virtualizados elimina la necesidad de migrarlos, puede empezar a utilizarlos para desarrollar productos y aplicaciones potentes de inmediato.

Además, no tendrá que crear integraciones de API a menos que lo desee, pues un data fabric creado sobre una capa de virtualización de datos ya cuenta con una solución para la recuperación de los datos. Una opción relacionada, la malla de datos, aborda el mismo problema que el data fabric, pero deja a las empresas con una gran cantidad de trabajo de integración de API y otros trabajos de desarrollo que requieren mucho tiempo. La malla de datos es una solución más high-code que el data fabric.

Un enfoque centrado en el data fabric podrá ofrecerle una velocidad y un valor aún mayores si lo combina con una plataforma que incluya modelado de datos sin código y seguridad a nivel de registro.

Tres hechos sobre la integración de datos que debe recordar

Ha venido a conocer tres hechos clave sobre la virtualización de datos y los almacenes de datos. Aquí tiene estas lecciones:

  1. La virtualización de datos conecta datos, mientras que un almacén de datos solo recopila datos.
  2. La virtualización de datos crea una capa virtual que permite a los usuarios hacer las mismas cosas que podrían hacer si todos los datos se encontraran en un solo almacén, pero más rápido y sin ningún trabajo de migración.
  3. Un data fabric utiliza una capa de virtualización de datos para permitir que las empresas y el equipo de TI utilicen sus datos y le ahorra tiempo que puede destinar a crear productos y servicios más innovadores.