Autour du stockage et du traitement Big Data, le Data Lake ou lac de données est un nouveau type de plateforme de stockage des données de l’entreprise. Quelle différence avec le data warehouse, quel intérêt ? On fait le point.

data-lake-big-data_une

Stockage de données structurées vs stockage de données hétérogènes, là réside la différence majeure entre le data warehouse et le Data Lake. Les termes Data Lake sont apparus pour la première en octobre 2010 dans le blog de James Dixon, CTO de Pentaho, spécialisée en Business Intelligence. Dans sa première approche du concept, James Dixon a mis en parallèle le datamart (sous-ensemble du data warehouse), « comptoir de bouteilles d’eau nettoyées, emballées et structurées pour en faciliter la consommation » et le Data Lake, « large étendue d’eau à l’état plus naturel, dans lequel on peut plonger pour en prélever des échantillons ».

C’est à cette double notion d’état naturel et d’échantillons relative au Data Lake que s’oppose le principe du data warehouse. Le Data Lake permet en effet de collecter de grands volumes de data hétérogènes, de les stocker en format natif pour ensuite en analyser une partie selon les besoins.

Plus spécifiquement : « là où un entrepôt de données hiérarchisé consigne les données dans des fichiers ou des dossiers, un lac de données, en revanche, présente une architecture à plat. Chaque donnée d'un lac se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'une question métier se présente, il suffit d'interroger le Datalake pour y rechercher des informations pertinentes. Il est alors possible d'analyser l'ensemble de données plus restreint ainsi obtenu pour répondre à la question métier » explique LeMagIT.

datawarehouse-vs-datalake

Data Lake : une architecture pour fusionner les silos de données

Déjà en 2013, le blog Cisco France précisait que « le concept du ‘’lac de données’’ mettait en évidence le besoin de créer une architecture d’entreprise moderne pour organiser, gérer, exploiter de larges volumes de données de manière opérationnelle. [...] Si on en est venu à proposer le concept de lac de données c’est que jusqu’à aujourd’hui les données d’une entreprises étaient placées dans des silos indépendants les uns des autres. Pendant plusieurs dizaines d’années des éditeurs de logiciels ont conçu des solutions spécifiques pour exploiter au mieux les différentes informations renforçant encore cette notion de silo et freinant l’interopérabilité».  Une tendance confirmée récemment par un expert en projet Big Data

 « L’émergence du concept de Data Lake s’est accélérée grâce avec la convergence du besoin de plateformes fédératrices dans les entreprises et de nouveaux moyens techniques apportés par les technologies de Big Data. [...] Les organisations sont motivées par le besoin d’améliorer leur utilisation des données, de centraliser toutes les sources en un seul point et d’accélérer les cycles d’innovation.» Vincent Heuschling, Affini-Tech

Informations en silo, sous-exploitées : c’était le constat en France de l’INA pour « des millions de métadonnées collectées en accompagnement des fonds audiovisuels et du dépôt légal de la radio et de la télévision ». L’Institut a donc basé depuis 2014 la refonte de son S.I. documentaire  sur un Data Lake pour « fusionner les métadonnées issues de l’ensemble des applications métier de l’Ina [...] et l’exploitation interne et externe».

 

Business Intelligence vs data science 

Au rang des atouts du Data Lake, citons de nouveau les précisions de Vincent Heuschling : « les initiatives autour de la data sont très souvent limitées par les difficultés inhérentes aux phases de collecte et d’ingestion dans les systèmes. Sur ce point, le fait de pouvoir charger les données sur une plateforme dans un état quasiment brut, et d’itérer rapidement pour les utiliser est un avantage indéniable. [...] La capacité d’ingestion de flux en temps réel et de réaction aux données autorise des applications à interagir directement dessus. On dépasse ici l’aspect Business Intelligence du datawarehouse, la création de valeur n’étant plus uniquement dans l’utilisation des données à des fins de reporting.»

Marketing, industrie, Internet des objets, côté usages, l’expert trace les avancées des plateformes Data Lake. Elles apportent aux secteurs des médias, de la vente et du marketing la capacité à avoir une « vision à 360° sur les clients, de segmenter, prédire et anticiper les comportements des consommateurs ».

Avec l’Internet des Objets, le Data Lake peut permettre de « systématiser l’utilisation du machine learning à grande échelle ». Après l’analyse rétrospective et les métriques, domaine phare de la Business Intelligence et des data warehouse, le Data Lake ouvre de nouvelles perspectives pour le prédictif et la prospective.

Sources : James Dixon’s Blog, LeMagIT, JDN, Cisco France Blog, KDnuggets, meta/morphoses,  emedia