Non ce n’est pas la suite de l’Amour est dans le Pré, mais plutôt la suite de nos articles liés aux buzz words navigant dans le monde de la Data…

Donc à présent que la mise en place de Datalakes est terminée – ou bien est en cours, voire commence… –  qu’est-ce que l’on va bien pouvoir trouver pour succéder à ce concept et le faire évoluer ???  Notez que j’ai parlé d’évoluer, pas forcément de s’améliorer, car comme tout nouveau concept, il faut savoir dans quelle mesure il est réellement nécessaire, ou a minima applicable.

Et bien voici venu le temps… Non pas des rires et des chants, mais du DataLakeHouse (ou DatalakeHouse ou Datalakehouse ou Data Lake House… La maturité du concept faisant que son nom n’est pas encore bien défini ou normalisé)

Et là vous allez me dire… « Comment ? J’ai à peine fini de mettre en place mon Datalake, je commence tout juste à plugger mon DataHub (cf. notre article précédent) et il faut que je jette tout pour à présent mettre en œuvre un Datalakehouse, alors que je n’ai même pas encore valorisé les précédentes initiatives auprès des directions métiers ??? »

Comme pour la fois précédente, essayons donc de « débunker » ce concept (oui, nous aussi, nous sommes capables d‘utiliser des buzz words…).

Recentrons d’abord le sujet, encore une fois, sur l’attendu de ce que serait un « Datalakehouse » et du point de vue architecture, de recenser les différentes fonctionnalités et les briques applicatives en découlant (il n’y a pas de jeu de mots cette fois, malgré le lac…).

Dans ce qui est entendu et communément accepté et partagé, nous allons retrouver certaines notions dont :

  • la persistance des données (révolutionnaire…)
  • la traçabilité voire l’auditabilité (ouh le gros mot…) des données
  • l’ACIDité des transactions (là on en arrive à du moins évident)
  • servir l’ensemble des besoins métiers liés à la Data : reporting opérationnel, reporting analytique, prototypage, Machine Learning, Data Stewardship et reférentiels / Master Data… (bref ce doit être magique non ?)
  • pouvoir accéder à tout type de données

 

Hum…

Ça vous rappelle quelque chose ??? Oui nous sommes globalement sur les briques applicatives et les fonctions d’un Datawarehouse (d’Entreprise, idéalement, cela va de soi), qu’il soit assis sur un Datalake ou non…

Une fois les fonctionnalités recensées, il n’est au final question que de déport technologique de la stack DWH/analytique au plus près des technologies « Big Data » et de leurs progrès, en fonction des solutions choisies.

Il est donc évident que notre DWH bien connu émergera du DLH (oui, autant vous habituer à ce nouvel acronyme !), tel un bon vieux serpent de mer…

Nous nous retrouvons au final dans le même paradigme soulevé avec le Datahub / Datalake à savoir une transition de notions applicatives n’ayant absolument rien de nouveau sur une stack technologique Big Data de plus en plus mature et se rapprochant des exigences technologiques industrielles classiques, le tout sur une architecture technique plus ouverte, moins propriétaire (suivant les choix…) et entièrement « scalable » (incluant une projection de coût davantage maîtrisée).

Il en résulte au final que les compétences nécessaires et les méthodologies afférentes ne devraient pas subir une quelconque révolution du fait d’un simple changement d’outils (à la maîtrise près de ces nouveaux outils, comme toute autre solution technique) …

Oui il sera toujours nécessaire de constituer un vrai DWH (qu’il soit inclus dans la couche Datalake en architecture hybride Big Data ou non…). Et donc de revenir notamment à des modélisations d’Entreprise pérennes (comme Data Vault, d’ailleurs cité comme par hasard sur https://datalakehouse.org/) pour qui voudrait investir dans ce pas si nouveau type de solution.

À notre époque, il n’est pas rare de constater que l’actualité contient une part de réchauffé et que l’on peut présenter sous un prisme « nouveau » des concepts déjà existants ou comme nouveau type de solution un assemblage de solutions existantes. On revient bien toujours au final sur des concepts fondamentaux et centraux comme le Datawarehousing d’Entreprise et la meilleure façon de les mettre en œuvre (voir notre série d’articles sur le sujet).