
Ключови изводи
Кратък отговор: Езерото за данни съхранява необработени данни в какъвто и да е формат, като схемата се налага при четене. Хранилището за данни съхранява курирани структурирани данни със схема, приложена при запис. Производството обикновено се нуждае и от двете: база данни за времеви серии за оперативни OEE данни, хранилище за отчети и езеро за обучение на ML модели и изследователски анализ. Опитът да се направи всичко в едно или в другото води или до бавни отчети, или до скъпо съхранение. Вижте също Аудит на качеството на производствените данни.
Езерото за данни е масово съхранение за необработени данни — потоци от сензори, логове, изображения, видео, структурирани таблици, JSON документи. Схемата се налага при четене. Примери:
Езерото е евтино на терабайт и гъвкаво. То не е оптимизирано за SQL заявки върху структурирани данни.
Хранилището за данни съхранява структурирани данни със схема, приложена при запис. Кутирано, моделирано, индексирано за бързина на заявките. Примери:
Хранилищата са оптимизирани за аналитични SQL заявки. Те са по-скъпи на терабайт и изискват дисциплина при схемите.
| Свойство | Езеро за данни | Хранилище за данни |
|---|---|---|
| Схема | При четене | При запис |
| Типове данни | Какъвто и да е | Структурирани |
| Цена на TB | Ниска | По-висока |
| Скорост на заявка (структурирани) | Бавна без оптимизации | Бърза |
| Най-подходящо за | Машинно обучение, изследване | BI, отчетност |
Повечето производствени операции се нуждаят от три нива:
1. Оперативен слой (база данни за времеви серии). PLC тагове, данни от сензори, изчисляване на OEE в реално време. Закъснение под секунда. InfluxDB, TimescaleDB, AVEVA PI.
2. Слой за отчети (хранилище за данни). Агрегирано OEE, MTBF, MTTR по линия, по SKU, по смяна. BI табла. Snowflake, BigQuery, Redshift.
3. Аналитичен слой (езеро за данни). Необработени потоци от сензори, изображения, видео, контекстни данни. Обучение на ML модели, изследователски анализ. S3, ADLS.
Данните текат от оперативния към отчетния слой (агрегирани) и от оперативния към езерото (необработени, за по-късна употреба).
1. Едно ниво за всичко. Бази за времеви серии се затрудняват като хранилища; хранилищата се затрудняват като time-series решения; езерата се затрудняват и като двете.
2. Езеро без управление. Превръща се в блато от данни — никой не знае какво има или как да го използва.
3. Хранилище без архив на суровите данни. След като данните са агрегирани, суровият контекст се губи. Бъдещото обучение на ML модели не може да бъде възстановено.
4. Стратегия „първо езерото“. Изсипването на всичко в езеро без оперативен слой означава, че OEE отчетите не могат да работят в реално време.
Lakehouse решенията (Databricks, хибрид на Snowflake, Iceberg / Delta Lake върху обектно хранилище) се опитват да комбинират гъвкавостта на езерото с производителността на хранилището. За зрели внедрявания те стават все по-привлекателни — един слой по-малко за поддръжка.
За повечето заводи чистата трислойна конфигурация все още е по-лесна за експлоатация отколкото единствен lakehouse, който се опитва да прави всичко.
1. Пропускане на аналитичния слой. Липсата на архива на суровите данни означава липса на данни за бъдещо обучение на ML модели.
2. Пропускане на слой за отчети. Запитванията към бази за времеви серии за BI отчети са бавни и скъпи.
3. Тясно свързване между слоевете. Пайплайни трябва да са слабо свързани, за да може всеки слой да се развива независимо.
4. Липса на отговорник за данните. Без собственик, както езерото, така и хранилището се влошават.
Модерна OEE платформа управлява оперативния слой и се интегрира с хранилището и езерото на техния ръб. Платформата съхранява временни серии за OEE в реално време, експортира агрегати към хранилището и архивира суровите данни в езерото.
OEE модулът на Fabrico управлява оперативния слой с родно съхранение на времеви серии, експортира агрегати към стандартни хранилища (Snowflake, BigQuery) и архивира сурови данни в обектно хранилище за ML и изследователска употреба.
Вижте как Fabrico улавя това автоматично — разгледайте OEE за производството или заявете демонстрация.
Повечето производствени обекти се възползват от и двете. Малки операции могат да се справят само с хранилище за данни и база за времеви серии.
Принципно — да, но на практика технологията все още зрее. Трислойните конфигурации са по-изпитани в практиката.
Historian представлява оперативния слой (база данни за времеви серии). Езерото и хранилището стоят над него.
За агрегирани данни — да. За необработени потоци от сензори или изображения — езерото е по-практично.
Колкото можете да си позволите. Езерото е евтино; бъдещите случаи на използване на стари данни са непредсказуеми.