Perché mettere i dati al lavoro è una sfida per così tante aziende? Innanzitutto, le aziende dispongono di una mole di dati sempre maggiore. In genere, tutti questi dati risiedono in database o applicazioni a compartimenti stagni che non si connettono tra loro. I dati sono solitamente archiviati in diversi formati e alcuni di essi sono strutturati, mentre il resto è destrutturato. I dipendenti hanno accesso ad alcuni database, ma non ad altri. Il personale qualificato per gestire i database, necessario per gestire tutti questi dati, è limitato e costoso. Inoltre, i problemi di sicurezza e compliance normativa rendono complesso l’accesso ai dati e la loro governance.
Sono emersi diversi approcci tecnologici per aiutare le aziende a gestire questi e altri problemi di integrazione dei dati, tra cui data warehouse, data lake, data mesh, virtualizzazione dei dati e, più recentemente, data fabric. In questo articolo esamineremo due tecnologie opposte - il data warehouse e la virtualizzazione dei dati - e discuteremo quali sono le loro differenze significative per il modo in cui sarai in grado di gestire e sfruttare il valore dei dati.
[ Vuoi saperne di più su come risolvere i problemi sui tuoi dati a compartimenti stagni e accelerare l’innovazione? Richiedi l’eBook: The Data Fabric Advantage. ]
Cosa significa virtualizzazione dei dati? Immagina i tuoi dati in tutti i diversi sistemi di origine dati in cui risiedono, in tutti i loro diversi formati. La virtualizzazione dei dati è un livello di architettura virtualizzata che si "appoggia" su queste fonti di dati e le collega. (Nota: questo concetto si distingue dalla "visualizzazione dei dati", che si riferisce a cose come grafici e diagrammi che aiutano a spiegare i dati).
Si può pensare a questo livello virtualizzato come a un livello di astrazione, il che significa che non è necessario tutto il lavoro di sviluppo che sarebbe tipicamente necessario per ottenere i dati (come call API, pipeline di dati, ecc.). Gli aggiornamenti in tempo reale garantiscono la correttezza dei dati sia nel sistema di origine che nel livello virtualizzato.
La virtualizzazione dei dati è un aspetto del data fabric, che è un livello di architettura e un set di strumenti per collegare set di dati eterogenei e creare una visione unificata. Grazie al livello di dati virtualizzati, non è necessario migrare i dati dal luogo in cui si trovano, ad esempio un database, un’applicazione ERP o CRM. I dati possono trovarsi sia on-premise che in un servizio cloud.
A volte i termini virtualizzazione dei dati e data fabric vengono usati in modo intercambiabile, ma il data fabric è un concetto un po’ più ampio (e più incentrato sull’utilizzo dei dati). I dati che si trovano nel livello virtualizzato devono essere messi in pratica in qualche modo e il data fabric fornisce gli strumenti per renderli possibili, in modo da poterli collegare, mettere in relazione ed estendere.
Un punto chiave da ricordare sull’approccio del data fabric o della virtualizzazione dei dati è il seguente: i dati non si spostano mai. Non ci sono tempi o costi di migrazione. Anche se i dati rimangono nella loro posizione di origine, puoi utilizzarli per l’analisi o per alimentare altre applicazioni. Si tratta di una differenza significativa rispetto all’approccio del data warehouse.
Mentre un data fabric collega i set di dati, un data warehouse si limita a raccoglierli. Un data warehouse è un archivio di dati strutturati. Con un data warehouse, estrai i dati dai sistemi di origine, li trasformi per ripulirli e duplicarli e li carichi nel data warehouse. Ciò significa un aumento dei costi operativi in termini di tempi di sviluppo, manutenzione, tempo, manutenzione e debito tecnico.
In realtà, per portare i dati dal punto A (o da molti punti A) al punto B del magazzino ci vuole molto tempo e impegno umano. L’approccio del data warehouse può anche causare problemi di integrità dei dati, in quanto si sposta l’insieme dei dati originali e si applica una complessa logica di trasformazione.
Infine, a differenza del data fabric, l’approccio del data warehouse comunemente rinuncia a fornire agli utenti dati in tempo reale (il lavoro di trasformazione sarebbe troppo difficile). Si tratta di uno svantaggio significativo.
Per maggiori dettagli su questo argomento, consulta il nostro articolo correlato: Data fabric vs. data mesh vs. data lake. (Un data lake è simile a un data warehouse ma per i dati non strutturati).
Questi due approcci ai dati sono opposti, ma hanno alcuni punti in comune.
Ecco cosa condividono i concetti di virtualizzazione dei dati e data warehouse:
Bisogna notare queste importanti differenze:
Hai appena letto che l’utilizzo di un livello di virtualizzazione dei dati può aumentare la velocità di sviluppo, ma di quanto? Secondo una ricerca di Gartner, "il Data Fabric riduce i tempi di progettazione dell’integrazione del 30%, di implementazione del 30% e di manutenzione del 70%". Poiché un livello di dati virtualizzato elimina la necessità di migrazione dei dati, puoi iniziare a usare i tuoi dati per sviluppare prodotti e applicazioni potenti immediatamente.
Inoltre, non dovrai creare integrazioni API, a meno che tu non voglia farlo, perché un data fabric costruito su un livello di virtualizzazione dei dati ha già una soluzione per ottenere i dati. Un’opzione correlata, la rete di dati, si occupa dello stesso problema del data fabric, ma lascia alle aziende un sacco di lavoro di integrazione API e altre attività di sviluppo che richiedono molto tempo. Il data mesh è una soluzione ad alto contenuto di codice più che il data fabric.
Puoi ottenere ancora più velocità e valore da un approccio data fabric se lo combini con una piattaforma che include la modellazione dei dati senza codice e la sicurezza a livello di record.
Sei arrivato qui per sapere tre cose fondamentali sulla virtualizzazione dei dati e sui data warehouse. Quindi prendi spunto da queste informazioni:
[ Come si inserisce il data fabric in una moderna strategia di automazione? Ottieni il Rapporto Gartner® sulle tendenze dell’Hyperautomation nel 2022. ]