Un nuovo genere di piattaforma per stoccare i dati dell'impresa. Perché e a che serve.

data-lake-big-data_une

Processed data storage contro raw data storage: ecco una delle differenze principali tra data warehouse e data lake. Il termine data lake è apparso per la prima volta a ottobre 2010 sul blog di James Dixon. Il CTO di Pentaho, specializzata in business intelligence, lo definiva così:

Se si pensa a un datamart come a un negozio di acqua in bottiglia – depurata, confezionata e strutturata per essere consumata con facilità – il data lake è una grande distesa d'acqua in uno stato più naturale. Il contenuto del data lake affluisce da sorgenti di dati e vari utenti del lake possono esaminarlo, immergervisi o prelevare campioni.

È nella nozione di dati e campioni grezzi che un data lake diverge da un data warehouse: il primo raccoglie un volume consistente di dati grezzi – strutturati, semistrutturati e destrutturati – in formato nativo e ne permette l'analisi. TechTarget spiega più precisamente:

Dove un data warehouse memorizza i dati in file e cartelle, un data lake fa uso di una architettura piatta. Ogni elemento riceve un identificatore e un insieme di metadati a corredo. Il data lake può così essere interrogato alla ricerca di dati rilevanti, che possono essere successivamente analizzati a parte alla ricerca di risultati specifici.

datawarehouse-vs-datalake

Un'architettura per unificare i silo di dati

Nel 2013, un blog di Cisco specificava che il concetto di data lakes sottolinea l'esigenza di creare una moderna architettura di impresa per organizzare, amministrare e sfruttare operativamente grandi masse di dati. […] La ragione per cui abbiamo adottato i data lake è che finora le imprese hanno stoccato i dati in silo indipendenti. Da circa dieci anni i produttori di software hanno progettato soluzioni specifiche per sfruttare i vari dati a disposizione, il che ha rafforzato le strategie a silo e ostacolato l'interoperabilità. Conferma Galaxy Consulting:

Il concetto del data lake vuole rimuovere i silo. Invece di decine di raccolte di dati gestite indipendentemente l'una dall'altra, si può avere un data lake non gestito. Il consolidamento porta teoricamente a maggior uso e condivisione dell'informazione, contemporaneamente tagliando i costi di server e licenze.

Business Intelligence e data science

Un altro vantaggio dei data lake, secondo Vincent Heuschling, CEO di Affini-tech:

Le operazioni sui big data sono spesso complicate dalle difficoltà di raccoglierli e inserirli nei sistemi. Potere invece caricare tutti i dati in modalità grezza e iterare rapidamente è un vantaggio innegabile. […] La capacità di ingerire dati e reagire istantaneamente significa che le applicazioni possono interagire direttamente con il data lake. Questo va oltre l'aspetto di Business Intelligence dei data warehouse: il valore non risiede più unicamente nel mero uso dei dati per la reportistica.

Heuschlin puntualizza anche come i progressi nelle piattaforme di data lake siano vantaggiosi per marketing e vendite: le aziende ora hanno una visione a 360° dei clienti e possono segmentare, predire e anticipare il comportamento del consumatore.

Grazie inoltre alla Internet of Things, i data lake possono facilitare il machine learning su larga scala. Dopo le metriche e le analisi retrospettive dei dati che sono i vantaggi fondamentali di Business Intelligence e data warehouses, i data lake offriranno nuove possibilità di analisi predittiva.

Per approfondire