
Wichtigste Erkenntnisse
Kurzantwort: Ein Data Lake speichert rohe Daten in beliebigen Formaten, das Schema wird beim Lesen angewandt. Ein Data Warehouse speichert kuratierte, strukturierte Daten, das Schema wird beim Schreiben angewandt. Die Fertigung benötigt typischerweise beides: eine Zeitreihendatenbank für operative OEE‑Daten, ein Warehouse für Reporting und einen Lake für ML‑Training und explorative Analysen. Der Versuch, alles in nur einem der beiden zu erledigen, führt zu entweder langsamen Berichten oder teurem Speicher. Siehe auch Audit zur Datenqualität in der Fertigung.
Ein Data Lake ist Massenspeicher für rohe Daten — Sensordatenströme, Logs, Bilder, Video, strukturierte Tabellen, JSON‑Dokumente. Das Schema wird beim Lesen angewandt. Beispiele:
Lakes sind pro TB günstig und flexibel. Sie sind nicht für SQL‑Abfragen auf strukturierten Daten optimiert.
Ein Data Warehouse speichert strukturierte Daten, das Schema wird beim Schreiben angewandt. Kuratiert, modelliert, indexiert für Abfrageperformance. Beispiele:
Warehouses sind für analytisches SQL optimiert. Sie sind pro TB teurer und erfordern Schema‑Disziplin.
| Eigenschaft | Data Lake | Data Warehouse |
|---|---|---|
| Schema | Beim Lesen | Beim Schreiben |
| Datentypen | Beliebig | Strukturiert |
| Kosten pro TB | Niedrig | Höher |
| Abfragegeschwindigkeit (strukturiert) | Langsam ohne Unterstützung | Schnell |
| Am besten für | Maschinelles Lernen, explorative Analyse | Business Intelligence, Reporting |
Die meisten Fertigungsbetriebe benötigen drei Ebenen:
1. Operative Ebene (Zeitreihendatenbank). PLC‑Tags, Sensordaten, Echtzeit‑OEE‑Berechnung. Sub‑sekundäre Latenz. InfluxDB, TimescaleDB, AVEVA PI.
2. Reporting‑Ebene (Data Warehouse). Aggregierte OEE, MTBF, MTTR nach Linie, nach SKU, nach Schicht. BI‑Dashboards. Snowflake, BigQuery, Redshift.
3. Analytics‑Ebene (Data Lake). Rohe Sensordatenströme, Bilder, Video, Kontextdaten. ML‑Training, explorative Analysen. S3, ADLS.
Daten fließen von der operativen Ebene in die Reporting‑Ebene (aggregiert) und von der operativen Ebene in den Lake (roh, zur späteren Verwendung).
1. Eine einzige Ebene für alles. Zeitreihendatenbanken tun sich als Warehouses schwer; Warehouses tun sich als Zeitreihenspeicher schwer; Lakes tun sich schwer als beides.
2. Lake ohne Governance. Wird zum Data Swamp — niemand weiß, was dort ist oder wie es zu nutzen ist.
3. Warehouse ohne Rohdatenarchiv. Einmal aggregiert, geht der rohe Kontext verloren. Künftiges ML‑Training lässt sich nicht rekonstruieren.
4. Lake‑first‑Strategie. Alles in einen Lake zu kippen ohne operative Ebene bedeutet, dass OEE‑Reporting nicht in Echtzeit funktioniert.
Lakehouses (Databricks, Snowflake‑Hybrid, Iceberg / Delta Lake auf Objektspeicher) versuchen, die Flexibilität des Lakes mit der Performance des Warehouses zu verbinden. Für reifere Deployments sind diese zunehmend attraktiv — eine Ebene weniger, die zu betreiben ist.
Für die meisten Anlagen ist ein sauberes Dreischicht‑Setup jedoch weiterhin einfacher zu betreiben als ein einzelnes Lakehouse, das versucht, alles zu leisten.
1. Die Analytics‑Ebene überspringen. Kein Roharchiv bedeutet später keine ML‑Trainingsdaten.
2. Die Reporting‑Ebene überspringen. Abfragen von Zeitreihen für BI‑Reports sind langsam und teuer.
3. Enge Kopplung zwischen den Ebenen. Pipelines sollten lose gekoppelt sein, damit jede Ebene unabhängig weiterentwickelt werden kann.
4. Kein Data Steward. Ohne Verantwortlichkeit verfallen sowohl Lake als auch Warehouse.
Eine moderne OEE‑Plattform übernimmt die operative Ebene und integriert sich an der Nahtstelle mit Warehouse und Lake. Die Plattform speichert Zeitreihendaten für Echtzeit‑OEE, exportiert Aggregate ins Warehouse und archiviert rohe Daten im Lake.
Das OEE‑Modul von Fabrico übernimmt die operative Ebene mit nativer Zeitreihenspeicherung, exportiert Aggregate in Standard‑Warehouses (Snowflake, BigQuery) und archiviert Rohdaten in Objektspeicher für ML‑ und explorative Nutzung.
Sehen Sie, wie Fabrico dies automatisch erfasst — OEE für die Fertigung erkunden oder eine Demo buchen.
Die meisten Produktionsanlagen profitieren von beidem. Kleine Betriebe kommen möglicherweise mit nur einem Warehouse und einer Zeitreihendatenbank aus.
Grundsätzlich ja, in der Praxis reift die Technologie noch. Dreischicht‑Setups sind erprobter.
Der Historian ist die operative Ebene (Zeitreihendatenbank). Lake und Warehouse liegen darüber.
Für aggregierte Daten: ja. Für rohe Sensordatenströme oder Bilddaten ist der Lake praktischer.
So viel wie bezahlbar ist. Lakes sind günstig; zukünftige Anwendungsfälle für alte Daten sind unvorhersehbar.