
Najważniejsze wnioski
Krótka odpowiedź: Jezioro danych przechowuje surowe dane w dowolnym formacie, stosując schemat podczas odczytu. Hurtownia danych przechowuje przetworzone, ustrukturyzowane dane ze schematem stosowanym przy zapisie. Produkcja zwykle potrzebuje obu: sklepu szeregów czasowych dla operacyjnych danych OEE, hurtowni do raportowania i jeziora do trenowania modeli ML i analiz eksploracyjnych. Próba robienia wszystkiego w jednym lub drugim prowadzi do wolnych raportów albo drogich kosztów przechowywania. Zobacz także Audyt jakości danych produkcyjnych.
Jezioro danych to magazyn masowy dla surowych danych — strumienie sensorów, logi, obrazy, wideo, złożone tabele, dokumenty JSON. Schemat stosowany jest przy odczycie. Przykłady:
Jeziora są tanie za TB i elastyczne. Nie są zoptymalizowane pod zapytania SQL na danych ustrukturyzowanych.
Hurtownia danych przechowuje dane ustrukturyzowane ze schematem stosowanym przy zapisie. Dane są wyselekcjonowane, wymodelowane i zaindeksowane pod kątem wydajności zapytań. Przykłady:
Hurtownie są zoptymalizowane pod analityczne zapytania SQL. Są droższe za TB i wymagają dyscypliny w zakresie schematu.
| Właściwość | Jezioro danych | Hurtownia danych |
|---|---|---|
| Schemat | Przy odczycie | Przy zapisie |
| Rodzaje danych | Dowolne | Ustrukturyzowane |
| Koszt za TB | Niski | Wyższy |
| Szybkość zapytań (dla danych ustrukturyzowanych) | Wolna bez optymalizacji | Szybka |
| Najlepsze do | Uczenie maszynowe, eksploracja | BI, raportowanie |
Większość operacji produkcyjnych potrzebuje trzech warstw:
1. Warstwa operacyjna (baza danych szeregów czasowych). Tagi PLC, dane z czujników, obliczanie OEE w czasie rzeczywistym. Opóźnienia poniżej sekundy. InfluxDB, TimescaleDB, AVEVA PI.
2. Warstwa raportowa (hurtownia danych). Agregowane OEE, MTBF, MTTR według linii, SKU, zmiany. Pulpity BI. Snowflake, BigQuery, Redshift.
3. Warstwa analityczna (jezioro danych). Surowe strumienie sensorów, obrazy, wideo, dane kontekstowe. Trenowanie modeli ML, analizy eksploracyjne. S3, ADLS.
Dane przepływają z warstwy operacyjnej do raportowej (w formie agregowanej) oraz z warstwy operacyjnej do jeziora (surowe, do późniejszego wykorzystania).
1. Jedna warstwa dla wszystkiego. Bazy szeregów czasowych słabo radzą sobie jako hurtownie; hurtownie jako magazyny szeregów czasowych; jeziora jako oba — też mają problemy.
2. Jezioro bez zarządzania. Zmienia się w „bagno danych” — nikt nie wie, co tam jest ani jak z tego korzystać.
3. Hurtownia bez archiwum surowych danych. Po agregacji kontekst surowy jest tracony. Przyszłe trenowanie modeli ML nie da się odtworzyć.
4. Strategia „najpierw jezioro”. Wrzucanie wszystkiego do jeziora bez warstwy operacyjnej oznacza, że raportowanie OEE nie może działać w czasie rzeczywistym.
Lakehouse’y (Databricks, hybryda Snowflake, Iceberg / Delta Lake na magazynach obiektów) próbują połączyć elastyczność jeziora z wydajnością hurtowni. Dla dojrzałych wdrożeń są coraz bardziej atrakcyjne — jedna warstwa mniej do utrzymania.
Dla większości zakładów czysta, trójwarstwowa konfiguracja nadal jest łatwiejsza w eksploatacji niż pojedynczy lakehouse próbujący zrobić wszystko naraz.
1. Pomijanie warstwy analitycznej. Brak archiwum surowych danych oznacza brak danych do trenowania ML w przyszłości.
2. Pomijanie warstwy raportowej. Zapytania do bazy szeregów czasowych w celu raportowania BI są wolne i kosztowne.
3. Silne sprzężenie między warstwami. Potoki danych powinny być luźno powiązane, aby każda warstwa mogła rozwijać się niezależnie.
4. Brak opiekuna danych. Bez właściciela zarówno jezioro, jak i hurtownia degraduje się.
Nowoczesna platforma OEE obejmuje warstwę operacyjną i integruje się z hurtownią oraz jeziorem na styku. Platforma przechowuje dane szeregów czasowych dla OEE w czasie rzeczywistym, eksportuje agregaty do hurtowni i archiwizuje surowe dane do jeziora.
Moduł OEE Fabrico obsługuje warstwę operacyjną z natywnym magazynem szeregów czasowych, eksportuje agregaty do standardowych hurtowni (Snowflake, BigQuery) i archiwizuje surowe dane w magazynach obiektów dla potrzeb ML i analiz eksploracyjnych.
Zobacz, jak Fabrico robi to automatycznie — poznaj OEE dla produkcji lub umów się na demo.
Większość zakładów produkcyjnych korzysta z obu rozwiązań. Małe operacje mogą poradzić sobie mając tylko hurtownię i magazyn szeregów czasowych.
Z zasady tak, w praktyce technologia wciąż dojrzewa. Trójwarstwowe konfiguracje są bardziej przetestowane w boju.
Historian to warstwa operacyjna (baza szeregów czasowych). Jezioro i hurtownia znajdują się nad nią.
Dla danych agregowanych — tak. Dla surowych strumieni sensorów lub danych obrazowych praktyczniejsze jest jezioro danych.
Tak dużo, ile stać firmę. Jeziora są tanie; przyszłe przypadki użycia starych danych są nieprzewidywalne.