Blog

Manufacturing Data Lake vs. Data Warehouse: Wo Produktionsdaten eigentlich hingehören

26 Jun `26

6 minuten

Data Lakes speichern alles roh. Data Warehouses speichern kuratierte, strukturierte Daten. Warum die meisten Hersteller beides brauchen und wo jeweils welches hingehört.

Manufacturing Data Lake vs Data Warehouse: Wo Produktionsdaten eigentlich gespeichert sein sollten

Wichtigste Erkenntnisse

Data Lake = rohe, schema-on-read Speicherung für beliebige Datentypen. Konzipiert für Breite und Flexibilität.
Data Warehouse = strukturierte, schema-on-write Speicherung für kuratierte Business-Daten. Konzipiert für Abfrageperformance.
OEE‑Plattformen verwenden typischerweise eine Zeitreihendatenbank auf der operativen Ebene plus ein Warehouse für Reporting und einen Lake für ML‑Training.
Lake vs. Warehouse ist die falsche Frage; die richtige Frage ist, wofür jeweils optimiert wird.
Anlagen, die versuchen, alles in das eine oder das andere zu packen, landen entweder mit langsamen Reports oder teurem Speicher.

Kurzantwort: Ein Data Lake speichert rohe Daten in beliebigen Formaten, das Schema wird beim Lesen angewandt. Ein Data Warehouse speichert kuratierte, strukturierte Daten, das Schema wird beim Schreiben angewandt. Die Fertigung benötigt typischerweise beides: eine Zeitreihendatenbank für operative OEE‑Daten, ein Warehouse für Reporting und einen Lake für ML‑Training und explorative Analysen. Der Versuch, alles in nur einem der beiden zu erledigen, führt zu entweder langsamen Berichten oder teurem Speicher. Siehe auch Audit zur Datenqualität in der Fertigung.

Was ein Data Lake ist

Ein Data Lake ist Massenspeicher für rohe Daten — Sensordatenströme, Logs, Bilder, Video, strukturierte Tabellen, JSON‑Dokumente. Das Schema wird beim Lesen angewandt. Beispiele:

Cloud‑Objektspeicher: AWS S3, Azure Data Lake Storage, Google Cloud Storage.
On‑Premises: HDFS, MinIO.

Lakes sind pro TB günstig und flexibel. Sie sind nicht für SQL‑Abfragen auf strukturierten Daten optimiert.

Was ein Data Warehouse ist

Ein Data Warehouse speichert strukturierte Daten, das Schema wird beim Schreiben angewandt. Kuratiert, modelliert, indexiert für Abfrageperformance. Beispiele:

Cloud: Snowflake, BigQuery, Redshift, Databricks SQL.
On‑Premises: Teradata, Vertica, Postgres im großen Maßstab.

Warehouses sind für analytisches SQL optimiert. Sie sind pro TB teurer und erfordern Schema‑Disziplin.

Worin sie sich unterscheiden

Eigenschaft	Data Lake	Data Warehouse
Schema	Beim Lesen	Beim Schreiben
Datentypen	Beliebig	Strukturiert
Kosten pro TB	Niedrig	Höher
Abfragegeschwindigkeit (strukturiert)	Langsam ohne Unterstützung	Schnell
Am besten für	Maschinelles Lernen, explorative Analyse	Business Intelligence, Reporting

Die dreischichtige Fertigungsdaten‑Architektur

Die meisten Fertigungsbetriebe benötigen drei Ebenen:

1. Operative Ebene (Zeitreihendatenbank). PLC‑Tags, Sensordaten, Echtzeit‑OEE‑Berechnung. Sub‑sekundäre Latenz. InfluxDB, TimescaleDB, AVEVA PI.

2. Reporting‑Ebene (Data Warehouse). Aggregierte OEE, MTBF, MTTR nach Linie, nach SKU, nach Schicht. BI‑Dashboards. Snowflake, BigQuery, Redshift.

3. Analytics‑Ebene (Data Lake). Rohe Sensordatenströme, Bilder, Video, Kontextdaten. ML‑Training, explorative Analysen. S3, ADLS.

Daten fließen von der operativen Ebene in die Reporting‑Ebene (aggregiert) und von der operativen Ebene in den Lake (roh, zur späteren Verwendung).

Häufige Architekturfehler

1. Eine einzige Ebene für alles. Zeitreihendatenbanken tun sich als Warehouses schwer; Warehouses tun sich als Zeitreihenspeicher schwer; Lakes tun sich schwer als beides.

2. Lake ohne Governance. Wird zum Data Swamp — niemand weiß, was dort ist oder wie es zu nutzen ist.

3. Warehouse ohne Rohdatenarchiv. Einmal aggregiert, geht der rohe Kontext verloren. Künftiges ML‑Training lässt sich nicht rekonstruieren.

4. Lake‑first‑Strategie. Alles in einen Lake zu kippen ohne operative Ebene bedeutet, dass OEE‑Reporting nicht in Echtzeit funktioniert.

Lakehouse: der jüngere Mittelweg

Lakehouses (Databricks, Snowflake‑Hybrid, Iceberg / Delta Lake auf Objektspeicher) versuchen, die Flexibilität des Lakes mit der Performance des Warehouses zu verbinden. Für reifere Deployments sind diese zunehmend attraktiv — eine Ebene weniger, die zu betreiben ist.

Für die meisten Anlagen ist ein sauberes Dreischicht‑Setup jedoch weiterhin einfacher zu betreiben als ein einzelnes Lakehouse, das versucht, alles zu leisten.

Wie OEE‑Daten fließen sollten

PLC/Sensordaten → Zeitreihendatenbank (operative Ebene). OEE live berechnet.
Aggregierte OEE → Warehouse (Reporting‑Ebene). BI‑Dashboards laufen hier.
Rohe Zeitreihen → Lake (Analytics‑Ebene). Zur Aufbewahrung für ML‑Training und explorative Analysen.
Ausgaben von ML‑Modellen → Zeitreihendatenbank (füttert die operative Sicht zurück).

Häufige Fehler

1. Die Analytics‑Ebene überspringen. Kein Roharchiv bedeutet später keine ML‑Trainingsdaten.

2. Die Reporting‑Ebene überspringen. Abfragen von Zeitreihen für BI‑Reports sind langsam und teuer.

3. Enge Kopplung zwischen den Ebenen. Pipelines sollten lose gekoppelt sein, damit jede Ebene unabhängig weiterentwickelt werden kann.

4. Kein Data Steward. Ohne Verantwortlichkeit verfallen sowohl Lake als auch Warehouse.

Wie eine moderne OEE‑Plattform passt

Eine moderne OEE‑Plattform übernimmt die operative Ebene und integriert sich an der Nahtstelle mit Warehouse und Lake. Die Plattform speichert Zeitreihendaten für Echtzeit‑OEE, exportiert Aggregate ins Warehouse und archiviert rohe Daten im Lake.

Das OEE‑Modul von Fabrico übernimmt die operative Ebene mit nativer Zeitreihenspeicherung, exportiert Aggregate in Standard‑Warehouses (Snowflake, BigQuery) und archiviert Rohdaten in Objektspeicher für ML‑ und explorative Nutzung.

Sehen Sie, wie Fabrico dies automatisch erfasst — OEE für die Fertigung erkunden oder eine Demo buchen.

Weiterführende Lektüre

Häufig gestellte Fragen

Brauche ich sowohl einen Lake als auch ein Warehouse?

Die meisten Produktionsanlagen profitieren von beidem. Kleine Betriebe kommen möglicherweise mit nur einem Warehouse und einer Zeitreihendatenbank aus.

Ist ein Lakehouse dasselbe wie beides zu haben?

Grundsätzlich ja, in der Praxis reift die Technologie noch. Dreischicht‑Setups sind erprobter.

Wo passt der Historian hin?

Der Historian ist die operative Ebene (Zeitreihendatenbank). Lake und Warehouse liegen darüber.

Kann ich ML im Warehouse durchführen?

Für aggregierte Daten: ja. Für rohe Sensordatenströme oder Bilddaten ist der Lake praktischer.

Wie viel Daten sollte der Lake aufbewahren?

So viel wie bezahlbar ist. Lakes sind günstig; zukünftige Anwendungsfälle für alte Daten sind unvorhersehbar.

Verwandte Artikel:

Digitalisierung

Weitere Informationen finden Sie unter:

Fertigungskennzahlen Operative Exzellenz

Das Neueste aus unserem Blog

Alle Artikel Digitalisierung OEE computergestütztes Instandhaltungsmanagementsystem Veranstaltungen Newsletter

Engineering Change vs Production Change: Two Change-Management Workflows That Cannot Be Swapped

26 Jun `26

5 minuten

Engineering Change vs Production Change: Two Change-Management Workflows That Cannot Be Swapped

Jetzt lesen

OEE vs Quality: Why Scrap and Rework Quietly Halve Your OEE

26 Jun `26

6 minuten

OEE vs Quality: Why Scrap and Rework Quietly Halve Your OEE

Jetzt lesen

Multi-Site OEE Rollup: How Corporate Operations Compares Plants Without Lying With Averages

26 Jun `26

5 minuten

Multi-Site OEE Rollup: How Corporate Operations Compares Plants Without Lying With Averages

Jetzt lesen

Work Order vs Purchase Order: The Difference Every CMMS User Should Know

26 Jun `26

6 minuten

Work Order vs Purchase Order: The Difference Every CMMS User Should Know

Jetzt lesen

MTBF vs Availability: How Often It Fails vs How Much It Is Up

26 Jun `26

5 minuten

MTBF vs Availability: How Often It Fails vs How Much It Is Up

Jetzt lesen

OEE vs Performance: Why Performance Is Usually the Hidden Loss

26 Jun `26

6 minuten

OEE vs Performance: Why Performance Is Usually the Hidden Loss

Jetzt lesen

Overall Process Effectiveness (OPE): When OEE Is Not Enough

26 Jun `26

6 minuten

Overall Process Effectiveness (OPE): When OEE Is Not Enough

Jetzt lesen

Maintenance Backlog vs Deferred Maintenance: Work Waiting vs Work Postponed

26 Jun `26

5 minuten

Maintenance Backlog vs Deferred Maintenance: Work Waiting vs Work Postponed

Jetzt lesen

Digital Thread vs Digital Twin: Two Terms the Industry Mixes Up Constantly

26 Jun `26

5 minuten

Digital Thread vs Digital Twin: Two Terms the Industry Mixes Up Constantly

Jetzt lesen

CMMS Mobile App vs Desktop: Why Plant CMMS Has Become Mobile-First

26 Jun `26

5 minuten

CMMS Mobile App vs Desktop: Why Plant CMMS Has Become Mobile-First

Jetzt lesen

Scrap vs Rework: Two Quality Losses With Very Different Costs

26 Jun `26

5 minuten

Scrap vs Rework: Two Quality Losses With Very Different Costs

Jetzt lesen

Torque Monitoring vs Cycle Monitoring: Two Process Signals That Detect Different Failures

26 Jun `26

5 minuten

Torque Monitoring vs Cycle Monitoring: Two Process Signals That Detect Different Failures

Jetzt lesen

Definieren Sie Ihren Zuverlässigkeitsfahrplan

Überzeugen Sie sich selbst!

Vereinbaren Sie eine Demo

Indem Sie auf die Schaltfläche „Akzeptieren“ klicken, erklären Sie sich mit der Nutzung einverstanden.Cookies beim Zugriff auf diese Website und bei der Nutzung unserer Dienste. Erfahren Sie mehrWeitere Informationen zur Verwendung und Verwaltung von Cookies finden Sie in unserem Datenschutzrichtlinie und Cookie-Erklärung

Anpassen Akzeptieren

MES & OEE

CMMS

AI add-ons

Selbsteinschätzungstest

ROI-Rechner

OEE-Rechner

Wissenszentrum

Blog

Glossar

Manufacturing Data Lake vs. Data Warehouse: Wo Produktionsdaten eigentlich hingehören

Was ein Data Lake ist

Was ein Data Warehouse ist

Worin sie sich unterscheiden

Die dreischichtige Fertigungsdaten‑Architektur

Häufige Architekturfehler

Lakehouse: der jüngere Mittelweg

Wie OEE‑Daten fließen sollten

Häufige Fehler

Wie eine moderne OEE‑Plattform passt

Weiterführende Lektüre

Häufig gestellte Fragen

Brauche ich sowohl einen Lake als auch ein Warehouse?

Ist ein Lakehouse dasselbe wie beides zu haben?

Wo passt der Historian hin?

Kann ich ML im Warehouse durchführen?

Wie viel Daten sollte der Lake aufbewahren?

Das Neueste aus unserem Blog

Manufacturing Data Lake vs. Data Warehouse: Wo Produktionsdaten eigentlich hingehören

Was ein Data Lake ist

Was ein Data Warehouse ist

Worin sie sich unterscheiden

Die dreischichtige Fertigungsdaten‑Architektur

Häufige Architekturfehler

Lakehouse: der jüngere Mittelweg

Wie OEE‑Daten fließen sollten

Häufige Fehler

Wie eine moderne OEE‑Plattform passt

Weiterführende Lektüre

Häufig gestellte Fragen

Brauche ich sowohl einen Lake als auch ein Warehouse?

Ist ein Lakehouse dasselbe wie beides zu haben?

Wo passt der Historian hin?

Kann ich ML im Warehouse durchführen?

Wie viel Daten sollte der Lake aufbewahren?

Das Neueste aus unserem Blog

Diese Website verwendet Cookies