Définition
Un data lake est un dépôt de stockage massif (typiquement S3, Azure Data Lake Storage, GCS) où l'on déverse les données dans leur format d'origine, sans transformation préalable. À la différence d'un entrepôt de données (data warehouse), il n'impose pas de schéma à l'écriture : c'est au moment de l'analyse qu'on structure (« schema-on-read »).
Les architectures modernes parlent de data lakehouse : un data lake doté d'une couche transactionnelle (Delta Lake, Apache Iceberg, Apache Hudi) qui apporte les garanties ACID et les performances d'un data warehouse tout en conservant la souplesse et le coût d'un lac. C'est le standard de fait pour les nouveaux projets data en 2025-2026.
Pourquoi c'est important
Un data lake permet de découpler la collecte des données — qu'on capture par défaut, au cas où — de leur exploitation, qui peut survenir mois ou années plus tard, sur des cas d'usage non anticipés. C'est l'inverse de l'approche « data warehouse » qui exige de modéliser à l'avance ce qu'on va analyser.
C'est le socle indispensable des projets d'analytics avancés et d'IA : sans données, pas de modèle. Un projet IA qui démarre par « il faut d'abord construire le data lake » est un projet bien cadré.
Technology Services
Vous avez un projet lié à ce sujet ? Nos équipes vous accompagnent du cadrage à l'exploitation.