Le concept du Data Lake ou « lac de données » en français est apparu avec le Big Data. Le principe ? Un lieu de stockage d’une grande quantité de données brutes (structurées, semi structurées ou non structurées).
Qu’est ce qu’un Data Lake ?
Un Data Lake absorbe les flux de données quelles que soient leur nature et leur origine et les transforme afin de les rendre utilisables pour les besoins d’analyse. Au sein d’un Data Lake, il est possible de charger des données brutes, et de leur conférer une forme et une structure uniquement quand le moment est venu d’utiliser ces données.
Avec un Data-Lake, vous pouvez stocker n’importe quel format de données, sans limite de quantité. L’architecture d’un Data Lake est plate sans structure d’organisation. L’inconvénient ? Le désordre peut s’installer rapidement car il n’y a de catégorie, pas de hiérarchisation et pas de priorisation.
Il faut être vigilant car avec un data lake, il est possible de stocker sans compter, mais il peut être difficile d’analyser ces données ultérieurement.
Les principales différences avec un Data Warehouse
Un Data Warehouse ou entrepôt de données est plus structurant, il permet d’entreposer des données dans des fichiers ou des dossiers. On y trouve uniquement des données traitées et structurées puisque avant de stocker les données décisionnelles dans un entrepôt, il faut au préalable nettoyer et modéliser ces données multi-sources. Sa configuration est figée, toute modification de sa structure nécessite du temps.
Un Datawarehouse collecte et redirige la donnée vers les consommateurs de data selon un chemin fixé en amont. Avec le data lake, vous disposez au contraire de plus de flexibilité car vous définissez le traitement uniquement quand vous utilisez la donnée. Vous gardez ainsi plus de détails de la donnée.
Koesio Data Solutions expert SQL Server
Un Data Warehouse est une base de données de stockage, utilisé dans le cas de l’analyse décisionnelle. En tant qu’expert SQL Server, Oléap vous accompagne avec le module SSIS de Microsoft afin de collecter et nettoyer vos données multi-sources et optimiser ainsi le traitement de vos data.