
Points clés
En bref : Un lac de données stocke des données brutes dans n'importe quel format avec un schéma appliqué au moment de la lecture. Un entrepôt de données stocke des données structurées et organisées avec un schéma appliqué à l'écriture. L'industrie manufacturière a généralement besoin des deux : une base de séries temporelles pour les données opérationnelles OEE, un entrepôt pour le reporting, et un lac pour l'entraînement ML et l'analyse exploratoire. Tenter de tout faire dans l'un ou l'autre produit soit des rapports lents, soit un stockage coûteux. Voir aussi Audit de la qualité des données de fabrication.
Un lac de données est un stockage massif pour données brutes — flux de capteurs, journaux, images, vidéos, tables structurées, documents JSON. Le schéma est appliqué à la lecture. Exemples :
Les lacs sont peu coûteux par To et flexibles. Ils ne sont pas optimisés pour les requêtes SQL sur données structurées.
Un entrepôt de données stocke des données structurées avec un schéma appliqué à l'écriture. Données soignées, modélisées, indexées pour la performance des requêtes. Exemples :
Les entrepôts sont optimisés pour l'analytique SQL. Ils sont plus coûteux par To et nécessitent une discipline de schéma.
| Propriété | Lac | Entrepôt |
|---|---|---|
| Schéma | À la lecture | À l'écriture |
| Types de données | Tout | Structurées |
| Coût par To | Faible | Plus élevé |
| Vitesse des requêtes (structurées) | Lente sans optimisation | Rapide |
| Idéal pour | ML, exploration | BI, reporting |
La plupart des opérations manufacturières nécessitent trois niveaux :
1. Niveau opérationnel (base de séries temporelles). Tags PLC, données de capteurs, calcul OEE en temps réel. Latence inférieure à la seconde. InfluxDB, TimescaleDB, AVEVA PI.
2. Niveau reporting (entrepôt de données). OEE agrégé, MTBF, MTTR par ligne, par SKU, par poste. Tableaux de bord BI. Snowflake, BigQuery, Redshift.
3. Niveau analytique (lac de données). Flux bruts de capteurs, images, vidéos, données contextuelles. Entraînement ML, analyses exploratoires. S3, ADLS.
Les données circulent du niveau opérationnel vers le reporting (données agrégées) et du niveau opérationnel vers le lac (brut, pour usage ultérieur).
1. Une seule couche pour tout. Les bases de séries temporelles peinent comme entrepôts ; les entrepôts peinent comme stores de séries temporelles ; les lacs peinent à faire les deux.
2. Lac sans gouvernance. Il devient un marécage de données — personne ne sait ce qu'il contient ni comment l'utiliser.
3. Entrepôt sans archive des données brutes. Une fois agrégées, le contexte brut est perdu. Un entraînement ML futur ne peut pas reconstruire les données d'origine.
4. Stratégie « lac d'abord ». Tout déverser dans un lac sans couche opérationnelle empêche le reporting OEE en temps réel.
Les lakehouses (Databricks, hybrid Snowflake, Iceberg / Delta Lake sur stockage d'objets) tentent de combiner la flexibilité du lac et la performance de l'entrepôt. Pour des déploiements matures, ils deviennent de plus en plus attractifs — une couche de moins à gérer.
Pour la plupart des usines, une configuration propre en trois couches reste toutefois plus facile à exploiter qu'un seul lakehouse essayant de tout faire.
1. Omettre le niveau analytique. Pas d'archive brute signifie pas de données pour l'entraînement ML futur.
2. Omettre le niveau reporting. Interroger les séries temporelles pour des rapports BI est lent et coûteux.
3. Couplage étroit entre les couches. Les pipelines doivent être faiblement couplés pour que chaque couche puisse évoluer indépendamment.
4. Pas de responsable des données. Sans ownership, le lac et l'entrepôt se dégradent tous deux.
Une plateforme OEE moderne prend en charge le niveau opérationnel et s'intègre à l'entrepôt et au lac aux points de jonction. La plateforme stocke les séries temporelles pour le TRG/OEE en temps réel, exporte des agrégats vers l'entrepôt et archive les données brutes dans le lac.
Le module OEE de Fabrico gère le niveau opérationnel avec un stockage natif de séries temporelles, exporte des agrégats vers des entrepôts standards (Snowflake, BigQuery) et archive les données brutes sur stockage d'objets pour ML et usage exploratoire.
Découvrez comment Fabrico capture cela automatiquement — explorez le TRG pour la fabrication ou réservez une démo.
La plupart des usines de production bénéficient des deux. Les petites structures peuvent se débrouiller avec juste un entrepôt et une base de séries temporelles.
En principe oui, en pratique la technologie est encore en maturation. Les architectures en trois couches sont plus éprouvées.
L'historien correspond au niveau opérationnel (base de séries temporelles). Le lac et l'entrepôt se situent au‑dessus.
Pour des données agrégées, oui. Pour des flux bruts de capteurs ou des images, le lac est plus pratique.
Autant que financièrement possible. Les lacs sont peu coûteux ; les usages futurs des anciennes données sont imprévisibles.