Menu
Jezioro danych produkcyjnych kontra hurtownia danych: gdzie naprawdę powinny się znajdować dane produkcyjne

Jezioro danych produkcyjnych kontra hurtownia danych: gdzie naprawdę powinny się znajdować dane produkcyjne

Jeziora danych przechowują wszystkie dane w stanie surowym. Hurtownie danych przechowują wyselekcjonowane, ustrukturyzowane dane. Dlaczego większość producentów potrzebuje obu rozwiązań i gdzie każde z nich ma zastosowanie.
Jezioro danych produkcyjnych kontra hurtownia danych: gdzie naprawdę powinny się znajdować dane produkcyjne
Jezioro danych vs hurtownia danych w produkcji: gdzie faktycznie powinny przechowywać się dane produkcyjne

Najważniejsze wnioski

  • Jezioro danych = surowe przechowywanie typu schema-on-read dla dowolnego typu danych. Zbudowane z myślą o szerokości i elastyczności.
  • Hurtownia danych = uporządkowane przechowywanie typu schema-on-write dla wyselekcjonowanych danych biznesowych. Zbudowane z myślą o wydajności zapytań.
  • Platformy OEE zwykle używają sklepu szeregów czasowych na warstwie operacyjnej, hurtowni do raportowania i jeziora do trenowania modeli ML.
  • Pytanie „jezioro czy hurtownia” jest niewłaściwe; właściwe pytanie brzmi, do czego każda z nich jest optymalizowana.
  • Zakłady, które próbują umieścić wszystko w jednym lub drugim, kończą z wolnymi raportami albo drogim magazynowaniem.

Krótka odpowiedź: Jezioro danych przechowuje surowe dane w dowolnym formacie, stosując schemat podczas odczytu. Hurtownia danych przechowuje przetworzone, ustrukturyzowane dane ze schematem stosowanym przy zapisie. Produkcja zwykle potrzebuje obu: sklepu szeregów czasowych dla operacyjnych danych OEE, hurtowni do raportowania i jeziora do trenowania modeli ML i analiz eksploracyjnych. Próba robienia wszystkiego w jednym lub drugim prowadzi do wolnych raportów albo drogich kosztów przechowywania. Zobacz także Audyt jakości danych produkcyjnych.

Czym jest jezioro danych

Jezioro danych to magazyn masowy dla surowych danych — strumienie sensorów, logi, obrazy, wideo, złożone tabele, dokumenty JSON. Schemat stosowany jest przy odczycie. Przykłady:

  • Chmurowe magazyny obiektów: AWS S3, Azure Data Lake Storage, Google Cloud Storage.
  • On-premises: HDFS, MinIO.

Jeziora są tanie za TB i elastyczne. Nie są zoptymalizowane pod zapytania SQL na danych ustrukturyzowanych.

Czym jest hurtownia danych

Hurtownia danych przechowuje dane ustrukturyzowane ze schematem stosowanym przy zapisie. Dane są wyselekcjonowane, wymodelowane i zaindeksowane pod kątem wydajności zapytań. Przykłady:

  • Chmura: Snowflake, BigQuery, Redshift, Databricks SQL.
  • On-premises: Teradata, Vertica, Postgres w skali.

Hurtownie są zoptymalizowane pod analityczne zapytania SQL. Są droższe za TB i wymagają dyscypliny w zakresie schematu.

Jak się różnią

WłaściwośćJezioro danychHurtownia danych
SchematPrzy odczyciePrzy zapisie
Rodzaje danychDowolneUstrukturyzowane
Koszt za TBNiskiWyższy
Szybkość zapytań (dla danych ustrukturyzowanych)Wolna bez optymalizacjiSzybka
Najlepsze doUczenie maszynowe, eksploracjaBI, raportowanie

Trójwarstwowa architektura danych w produkcji

Większość operacji produkcyjnych potrzebuje trzech warstw:

1. Warstwa operacyjna (baza danych szeregów czasowych). Tagi PLC, dane z czujników, obliczanie OEE w czasie rzeczywistym. Opóźnienia poniżej sekundy. InfluxDB, TimescaleDB, AVEVA PI.

2. Warstwa raportowa (hurtownia danych). Agregowane OEE, MTBF, MTTR według linii, SKU, zmiany. Pulpity BI. Snowflake, BigQuery, Redshift.

3. Warstwa analityczna (jezioro danych). Surowe strumienie sensorów, obrazy, wideo, dane kontekstowe. Trenowanie modeli ML, analizy eksploracyjne. S3, ADLS.

Dane przepływają z warstwy operacyjnej do raportowej (w formie agregowanej) oraz z warstwy operacyjnej do jeziora (surowe, do późniejszego wykorzystania).

Typowe błędy architektoniczne

1. Jedna warstwa dla wszystkiego. Bazy szeregów czasowych słabo radzą sobie jako hurtownie; hurtownie jako magazyny szeregów czasowych; jeziora jako oba — też mają problemy.

2. Jezioro bez zarządzania. Zmienia się w „bagno danych” — nikt nie wie, co tam jest ani jak z tego korzystać.

3. Hurtownia bez archiwum surowych danych. Po agregacji kontekst surowy jest tracony. Przyszłe trenowanie modeli ML nie da się odtworzyć.

4. Strategia „najpierw jezioro”. Wrzucanie wszystkiego do jeziora bez warstwy operacyjnej oznacza, że raportowanie OEE nie może działać w czasie rzeczywistym.

Lakehouse: niedawny kompromis

Lakehouse’y (Databricks, hybryda Snowflake, Iceberg / Delta Lake na magazynach obiektów) próbują połączyć elastyczność jeziora z wydajnością hurtowni. Dla dojrzałych wdrożeń są coraz bardziej atrakcyjne — jedna warstwa mniej do utrzymania.

Dla większości zakładów czysta, trójwarstwowa konfiguracja nadal jest łatwiejsza w eksploatacji niż pojedynczy lakehouse próbujący zrobić wszystko naraz.

Jak dane OEE powinny przepływać

  1. Dane PLC/czujników → baza szeregów czasowych (warstwa operacyjna). OEE obliczane na żywo.
  2. Agregowane OEE → hurtownia (warstwa raportowa). Tutaj działają pulpity BI.
  3. Surowe szeregi czasowe → jezioro (warstwa analityczna). Przechowywane do trenowania modeli ML i analiz eksploracyjnych.
  4. Wyniki modeli ML → baza szeregów czasowych (zwracane do widoku operacyjnego).

Typowe pomyłki

1. Pomijanie warstwy analitycznej. Brak archiwum surowych danych oznacza brak danych do trenowania ML w przyszłości.

2. Pomijanie warstwy raportowej. Zapytania do bazy szeregów czasowych w celu raportowania BI są wolne i kosztowne.

3. Silne sprzężenie między warstwami. Potoki danych powinny być luźno powiązane, aby każda warstwa mogła rozwijać się niezależnie.

4. Brak opiekuna danych. Bez właściciela zarówno jezioro, jak i hurtownia degraduje się.

Jak pasuje nowoczesna platforma OEE

Nowoczesna platforma OEE obejmuje warstwę operacyjną i integruje się z hurtownią oraz jeziorem na styku. Platforma przechowuje dane szeregów czasowych dla OEE w czasie rzeczywistym, eksportuje agregaty do hurtowni i archiwizuje surowe dane do jeziora.

Moduł OEE Fabrico obsługuje warstwę operacyjną z natywnym magazynem szeregów czasowych, eksportuje agregaty do standardowych hurtowni (Snowflake, BigQuery) i archiwizuje surowe dane w magazynach obiektów dla potrzeb ML i analiz eksploracyjnych.

Zobacz, jak Fabrico robi to automatycznie — poznaj OEE dla produkcji lub umów się na demo.

Polecane lektury

Najczęściej zadawane pytania

Czy potrzebuję zarówno jeziora, jak i hurtowni?

Większość zakładów produkcyjnych korzysta z obu rozwiązań. Małe operacje mogą poradzić sobie mając tylko hurtownię i magazyn szeregów czasowych.

Czy lakehouse to to samo, co posiadanie obu?

Z zasady tak, w praktyce technologia wciąż dojrzewa. Trójwarstwowe konfiguracje są bardziej przetestowane w boju.

Gdzie pasuje historian?

Historian to warstwa operacyjna (baza szeregów czasowych). Jezioro i hurtownia znajdują się nad nią.

Czy mogę robić ML w hurtowni?

Dla danych agregowanych — tak. Dla surowych strumieni sensorów lub danych obrazowych praktyczniejsze jest jezioro danych.

Ile danych powinno przechowywać jezioro?

Tak dużo, ile stać firmę. Jeziora są tanie; przyszłe przypadki użycia starych danych są nieprzewidywalne.

Najnowsze wiadomości z naszego bloga

Zdefiniuj swoją mapę drogową niezawodności
Sprawdź swój potencjalny zwrot z inwestycji: zarezerwuj prezentację na żywo
Zdefiniuj swoją mapę drogową niezawodności
Klikając przycisk Akceptuj, wyrażasz zgodę na korzystanie z plików cookie podczas uzyskiwania dostępu do tej witryny i korzystania z naszych usług. Aby dowiedzieć się więcej o tym, jak pliki cookie są używane i zarządzane, zapoznaj się z naszą Polityką prywatności Polityka prywatności i Deklaracja plików cookie