ГИБРИДНОЕ ХРАНИЛИЩЕ ДАННЫХ КАК АРХИТЕКТУРНАЯ ОСНОВА АНАЛИЗА БОЛЬШИХ ДАННЫХ

ГИБРИДНОЕ ХРАНИЛИЩЕ ДАННЫХ КАК АРХИТЕКТУРНАЯ ОСНОВА АНАЛИЗА БОЛЬШИХ ДАННЫХ

Авторы публикации

Рубрика

Информационные технологии

Просмотры

17

Журнал

Журнал «Научный лидер» выпуск # 21 (274), Май ‘26

Поделиться

В статье рассматривается выбор между хранилищем данных, озером данных и озёрным хранилищем как тремя архитектурными подходами к анализу больших данных. Показано, что эти подходы различаются не только технологически, но и по логике управления качеством, стоимости, многоформатности и аналитической воспроизводимости. Научная новизна работы состоит в предложении авторской матрицы выбора архитектуры по семи критериям: тип данных, скорость обновления, требования к качеству, стоимость хранения, BI-нагрузка, ML-нагрузка и governance. Обоснованы три зоны рациональности: каноническая аналитика для Data Warehouse, исследовательская аналитика для Data Lake и конвергенция аналитических нагрузок для Data Lakehouse.

Введение

Аналитическая инфраструктура организаций усложняется под влиянием сразу нескольких факторов: растут объёмы данных, увеличивается доля полуструктурированных и неструктурированных источников, ускоряется обновление событийных потоков, а требования к контролю качества и происхождения данных становятся жёстче. В современной литературе Data Warehouse и Data Lake рассматриваются как разные ответы на эти изменения: первое решение опирается на заранее заданную структуру и управляемую отчётность, второе — на сохранение сырых данных и гибкость поздней интерпретации [1]. Классические работы по Data Warehouse связывают эту архитектуру с ETL-процессами, OLAP и устойчивой моделью показателей [2], тогда как исследования Data Lake подчёркивают роль дешёвого масштабируемого хранения и работы с гетерогенными источниками [3], [4], [5].

Однако практическая проблема выбора не сводится к вопросу о том, какая технология новее. Хранилище данных может быть рациональнее, если организация опирается на регламентную BI-отчётность и стабильную семантику показателей. Озеро данных оправдано там, где важнее быстро принять разнородный поток данных и сохранить максимум исходного сигнала. Озёрное хранилище возникает как попытка соединить обе логики: использовать гибкость озера, но при этом приблизиться к управляемости, транзакционности и воспроизводимости хранилища данных [6], [7], [8], [9], [10].

В существующих исследованиях хорошо описаны риски озёр данных: слабые метаданные, сложность поиска, угроза превращения в data swamp и недостаточная дисциплина управления качеством [11], [12], [13], [14], [15]. Отдельно изучены преимущества классического Data Warehouse для качественной управленческой аналитики [2], [16], а также развитие lakehouse как архитектуры, которая снижает разрыв между BI, машинным обучением и потоковыми нагрузками [8], [9], [10]. При этом сравнительная рамка, позволяющая объяснить, когда каждая архитектура действительно рациональна, остаётся недостаточно формализованной.

Цель статьи — предложить теоретическую сравнительную модель выбора между Data Warehouse, Data Lake и Data Lakehouse. В работе под гибридным хранилищем данных понимается не конкретный программный продукт, а архитектурный принцип сочетания управляемости, масштабируемости и многоформатной аналитики. В узком смысле наиболее цельным выражением этого принципа выступает Data Lakehouse; в широком смысле речь идёт о континууме решений между классическим хранилищем и озером данных.

Теоретические основания архитектур данных

Хранилище данных исторически формировалось как специализированная аналитическая среда для поддержки управленческих решений. Его сильная сторона — не просто хранение таблиц, а наличие устойчивой предметной модели, согласованных измерений, контролируемых процедур загрузки и понятной ответственности за качество данных. Именно поэтому Data Warehouse особенно хорошо работает там, где организация заранее знает, какие показатели, факты и разрезы анализа будут использоваться регулярно [1], [2], [16].

Data Lake строится на другой логике. В него данные могут поступать в исходном виде: таблицы, логи, документы, события, мультимедиа и иные слабоструктурированные объекты. Это снижает порог первичной интеграции и даёт исследователям больше свободы, но переносит значительную часть смысловой работы на более поздний этап. Вместо схемы при записи начинает доминировать схема при чтении, а значит, качество результата всё сильнее зависит от каталогизации, описания источников, правил доступа и зрелости метаданных [4], [5], [12], [13], [14], [15].

Эта особенность делает озеро данных полезным, но не безусловно безопасным архитектурным решением. Если в системе отсутствуют метаданные, нет понятных правил владения данными и не фиксируется история преобразований, то гибкость быстро превращается в хаотичность. В таких условиях аналитик может иметь доступ к большому объёму данных, но не понимать их происхождение, точность, актуальность и допустимые сценарии использования. Поэтому современные исследования всё чаще рассматривают управление метаданными как обязательное условие жизнеспособности Data Lake, а не как вспомогательную функцию [11], [13]–[15], [17].

Lakehouse появился как ответ на это напряжение. Его идея состоит в том, чтобы сохранить экономичность и форматную свободу Data Lake, но добавить слой таблицизации, транзакционности, журналирования изменений и единого доступа для разных типов аналитики. В литературе подчёркивается, что общепринятого определения lakehouse пока нет, однако его устойчивое ядро связано с поддержкой BI, машинного обучения и потоковых сценариев поверх единого хранилищного контура [6], [7], [8], [9], [10].

В теоретическом плане можно говорить о трёх разных архитектурных режимах. Data Warehouse максимизирует контроль и семантическую устойчивость. Data Lake максимизирует гибкость и сохранение исходного сигнала. Data Lakehouse пытается максимизировать унификацию аналитических нагрузок, чтобы отчётность, исследовательская аналитика и промышленное машинное обучение не жили в полностью разорванных контурах [8], [9], [10].

Сравнительная модель хранилища данных, озера данных и озёрного хранилища

Первый критерий сравнения — тип данных и устойчивость их семантики. Хранилище данных предпочтительно, когда предметная область хорошо описывается заранее: известны сущности, метрики, справочники и правила расчёта показателей. Озеро данных сильнее там, где источники неоднородны, а будущие аналитические вопросы заранее не определены. Озёрное хранилище занимает промежуточную, но не компромиссную позицию: оно допускает гетерогенность, но стремится дать ей единый логический слой доступа [1], [4], [6], [10].

Второй критерий — скорость обновления и характер поступления данных. Для Data Warehouse естественны пакетные или квазипакетные циклы, в которых данные проходят предварительную очистку и согласование. Data Lake лучше подходит для append-first логики, когда важнее быстро принять поток данных, чем сразу встроить его в строгую модель. Lakehouse рационален в смешанной ситуации: организация сохраняет потребность в отчётности, но одновременно должна работать с потоковыми источниками, событиями и экспериментальными аналитическими задачами [8], [9], [10], [18].

Третий критерий — качество данных. В классическом хранилище качество является условием входа: данные должны быть нормализованы до включения в отчётный контур. В озере данных качество чаще становится отложенной задачей, решаемой в момент поиска, подготовки и использования набора. Lakehouse предлагает более гибкий режим: в одной платформе могут сосуществовать сырой, очищенный и доверенный слои, а переход между ними должен фиксироваться через метаданные, версии и журналы изменений [8], [9], [10], [17].

Четвёртый критерий — стоимость хранения и масштабируемость. Хранилище данных обычно дороже там, где требуется специализированная производительность, строгая модель и предварительная трансформация. Озеро данных выигрывает за счёт дешёвого масштабируемого хранения больших массивов. Lakehouse наследует экономику озера, но добавляет сервисный слой управления, поэтому его стоимость нельзя считать минимальной: она оправдана только тогда, когда снижение дублирования и унификация нагрузок дают организационный выигрыш [4], [6], [8], [9].

Пятый и шестой критерии — BI- и ML-нагрузка. Data Warehouse остаётся естественной средой для повторяемых отчётов, KPI и SQL-центричной аналитики. Data Lake, напротив, удобен для data science, поиска признаков и работы с сырыми данными. Но при промышленном использовании ML возникает проблема расхождения версий: модель может обучаться на одном контуре данных, а отчётность строиться на другом. Именно здесь lakehouse получает сильный аргумент, поскольку стремится обслуживать BI, ML и streaming-сценарии поверх общего основания [7], [8], [9], [10], [19].

Седьмой критерий — governance, то есть совокупность правил владения, качества, доступа, безопасности, lineage и жизненного цикла данных. У Data Warehouse governance традиционно сильнее благодаря устойчивой модели и централизованному контролю. В Data Lake governance сложнее, потому что данные разнородны, схема отложена, а источники могут быть плохо описаны. Lakehouse не отменяет эту сложность, но пытается распространить управляемость на гетерогенную среду без полного разделения BI- и ML-контуров [10], [11], [15], [20], [21].

Обобщённая сравнительная характеристика представлена в таблице 1.

Таблица 1.

Сравнительная характеристика архитектур анализа больших данных

Критерий

Хранилище данных

Озеро данных

Озёрное хранилище

Тип данных

Структурированные и семантически устойчивые данные

Любые данные, включая сырые и слабоструктурированные

Разные типы данных при едином логическом доступе

Скорость обновления

Пакетные или квазипакетные циклы

Быстрая инжекция, append-first, потоковые источники

Смешанный режим batch + stream

Качество данных

Качество как условие загрузки

Качество преимущественно на этапе использования

Переход от raw-слоя к trusted-слою

Стоимость хранения

Выше при строгой модели и высокой производительности

Ниже при приоритете дешёвого масштаба

Сбалансированная: дешёвое хранение и управляющий слой

BI-нагрузка

Сильная повторяемая отчётность и OLAP

Вспомогательная или экспериментальная BI

Сильная BI без отдельной копии данных

ML-нагрузка

Ограниченная, часто через выгрузки

Исследовательская аналитика и feature discovery

Исследовательская и промышленная ML-аналитика

Governance

Зрелый централизованный контроль

Базовый или развивающийся контроль

Управляемость для гетерогенной среды

Главный риск

Жёсткость модели и стоимость изменений

Потеря управляемости и data swamp

Сложность внедрения и незрелость стека

 

Таблица 1 показывает, что архитектуры нельзя расположить по простой шкале «хуже — лучше». Каждая из них рациональна при своём сочетании требований. Ошибка выбора возникает не тогда, когда организация использует устаревшую технологию, а тогда, когда архитектура не соответствует фактическому профилю данных, нагрузки и управления.

Авторская матрица выбора архитектуры

Для перехода от описательного сравнения к более воспроизводимой процедуре предлагается авторская матрица выбора. Она не претендует на точный расчёт совокупной стоимости владения или производительности, но задаёт прозрачный способ сопоставления архитектур по ключевым признакам. В модели используются две величины: вес критерия w, отражающий его значимость для организации, и коэффициент архитектурного соответствия k, показывающий, насколько конкретная архитектура отвечает данному критерию.

Интегральная оценка пригодности архитектуры может быть представлена формулой 1.

Sa = ∑i=17 wi · kai, (1)

где Sₐ — суммарная пригодность архитектуры a; i — номер критерия; wᵢ — вес критерия; k — коэффициент соответствия архитектуры a критерию i. В упрощённой версии коэффициент принимает значения от 0 до 2: 0 — слабое соответствие, 1 — частичное соответствие, 2 — сильное соответствие.

Базовые коэффициенты соответствия приведены в таблице 2. Они отражают не абсолютное качество архитектур, а их теоретическую пригодность при высоком приоритете соответствующего критерия.

Таблица 2.

Базовые коэффициенты соответствия архитектур критериям выбора

Критерий

Хранилище данных

Озеро данных

Озёрное хранилище

Тип данных и степень гетерогенности

0

2

2

Скорость обновления и потоковость

1

2

2

Требования к качеству данных

2

0

2

Стоимость хранения

0

2

2

BI-нагрузка

2

0

2

ML-нагрузка

0

2

2

Требования к governance

2

0

2

 

Первая зона рациональности — каноническая аналитика. Она возникает, когда для организации важнее всего формализованное качество, повторяемые показатели, централизованный контроль и регламентная отчётность. Если веса критериев качества, BI и governance выше весов гетерогенности, скорости и ML-нагрузки, то преимущество получает Data Warehouse [1], [2], [16].

Вторая зона — исследовательская аналитика. Она характерна для сред, где много разнородных источников, будущие вопросы к данным заранее не известны, а главным требованием становится сохранение полного сигнала при разумной стоимости хранения. В таком случае Data Lake оказывается более естественным решением, поскольку позволяет быстро собирать и переиспользовать данные без преждевременной нормализации [4], [5], [12], [18].

Третья зона — конвергенция аналитических нагрузок. Она появляется тогда, когда одновременно высоки требования к BI, ML, многоформатности, качеству и governance, а организация не готова оплачивать постоянное дублирование данных между несколькими платформами. В этой ситуации lakehouse выступает не как модное название, а как ответ на специфическую конфигурацию требований: единое хранение, таблицизация, транзакционные гарантии, технические метаданные и единый источник истины [6], [7], [8], [9], [10].

В содержательном виде правило выбора можно сформулировать так. Если организации нужна заранее определённая и проверяемая аналитическая «истина», она движется к хранилищу данных. Если ей важнее сохранить аналитическую свободу и не потерять потенциально ценный сырой сигнал, она движется к озеру данных. Если же обе потребности высоки одновременно, и их раздельное обслуживание становится слишком дорогим или рискованным, возникает основание для озёрного хранилища.

Ограничения модели и открытые вопросы

Первое ограничение связано с самим понятием lakehouse. В литературе нет единого определения этой архитектуры: одни авторы описывают её как полноценную интегрированную платформу, другие — как более широкую идею соединения озера и хранилища данных [8], [9], [10]. Поэтому предложенная матрица применима прежде всего как концептуальная рамка, а не как универсальная инструкция по выбору конкретного продукта.

Второе ограничение относится к governance. Систематические обзоры показывают, что управление данными включает разные компоненты: роли, политики, качество, безопасность, жизненный цикл, соответствие требованиям и lineage [20], [21]. В данной статье governance рассматривается как укрупнённый критерий. В последующих исследованиях его следует разложить на отдельные подизмерения, поскольку выбор между строгим Data Warehouse и Lakehouse может зависеть именно от того, что организация понимает под управляемостью.

Третье ограничение методологическое. Статья предлагает теоретическую модель и не проверяет её на выборке организаций, отраслевых кейсов или нагрузочных профилей. Следовательно, матрица не должна использоваться как точный инструмент расчёта TCO, latency или SLA. Её назначение — помочь сформулировать архитектурный выбор в виде набора явных критериев и сделать дискуссию менее зависимой от технологической моды.

Заключение

Проведённый анализ показывает, что выбор между хранилищем данных, озером данных и озёрным хранилищем нельзя свести к противопоставлению «старое против нового» или «SQL против не-SQL». На теоретическом уровне речь идёт о трёх разных способах согласовать стандартизацию, гибкость, стоимость и управляемость в среде больших данных.

Хранилище данных остаётся рациональным там, где доминируют семантическая устойчивость, предварительное качество, повторяемая BI-нагрузка и централизованный governance. Озеро данных оправдано там, где важны многоформатность, быстрый захват данных, низкая стоимость масштаба и исследовательская работа с исходным сигналом. Озёрное хранилище становится предпочтительным только тогда, когда организация одновременно нуждается в управляемости warehouse-уровня и гибкости lake-уровня, но не хочет поддерживать разорванные контуры для отчётности, машинного обучения и потоковой аналитики.

Главный вывод состоит в том, что гибридное хранилище данных следует понимать как архитектурный принцип согласования противоположных требований, а не как отдельный бренд или универсально лучшую технологию. Предложенная матрица выбора переводит архитектурное решение из области общих рассуждений в плоскость многокритериального сопоставления и показывает, почему lakehouse оправдан не всегда, а только при высокой одновременной нагрузке на качество, гибкость, BI, ML и governance.

Список литературы

  1. Nambiar A., Mundra D. An Overview of Data Warehouse and Data Lake in Modern Enterprise Data Management // Big Data and Cognitive Computing. 2022. Vol. 6, No. 4. Art. 132. doi:10.3390/bdcc6040132
  2. Chaudhuri S., Dayal U. An Overview of Data Warehousing and OLAP Technology // SIGMOD Record. 1997. Vol. 26, No. 1. P. 65–74. doi:10.1145/248603.248616
  3. Azzabi S., Alfughi Z., Ouda A. Data Lakes: A Survey of Concepts and Architectures // Computers. 2024. Vol. 13, No. 7. Art. 183. doi:10.3390/computers13070183
  4. Khine P.P., Wang Z.S. Data Lake: A New Ideology in Big Data Era // ITM Web of Conferences. 2018. Vol. 17. Art. 03025. doi:10.1051/itmconf/20181703025
  5. Madera C., Laurent A. The Next Information Architecture Evolution: The Data Lake Wave // Proceedings of the 8th International Conference on Management of Digital EcoSystems. 2016. P. 174–180. doi:10.1145/3012071.3012077
  6. Ait Errami S., Hajji H., Ait El Kadi K., Badir H. Spatial Big Data Architecture: From Data Warehouses and Data Lakes to the LakeHouse // Journal of Parallel and Distributed Computing. 2023. Vol. 176. P. 70–79. doi:10.1016/j.jpdc.2023.02.007
  7. Harby A.A., Zulkernine F. From Data Warehouse to Lakehouse: A Comparative Review // 2022 IEEE International Conference on Big Data (Big Data). 2022. P. 389–395. doi:10.1109/BigData55660.2022.10020719
  8. Harby A.A., Zulkernine F. Data Lakehouse: A Survey and Experimental Study // Information Systems. 2025. Vol. 127. Art. 102460. doi:10.1016/j.is.2024.102460
  9. Janssen N., Ilayperuma T., Jayasinghe J., Bukhsh F., Daneva M. The Evolution of Data Storage Architectures: Examining the Secure Value of the Data Lakehouse // Journal of Data, Information and Management. 2024. Vol. 6, No. 4. P. 309–334. doi:10.1007/s42488-024-00132-1
  10. Schneider J., Gröger C., Lutsch A., Schwarz H., Mitschang B. The Lakehouse: State of the Art on Concepts and Technologies // SN Computer Science. 2024. Vol. 5. Art. 449. doi:10.1007/s42979-024-02737-0
  11. Boukraa D., Bala M., Rizzi S. Metadata Management in Data Lake Environments: A Survey // Journal of Library Metadata. 2024. Vol. 24, No. 4. P. 215–274. doi:10.1080/19386389.2024.2359310
  12. Nargesian F., Zhu E., Miller R.J., Pu K.Q., Arocena P.C. Data Lake Management: Challenges and Opportunities // Proceedings of the VLDB Endowment. 2019. Vol. 12, No. 12. P. 1986–1989. doi:10.14778/3352063.3352116
  13. Quix C., Hai R., Vatov I. Metadata Extraction and Management in Data Lakes with GEMMS // Complex Systems Informatics and Modeling Quarterly. 2016. No. 9. P. 67–83. doi:10.7250/csimq.2016-9.04
  14. Ravat F., Zhao Y. Metadata Management for Data Lakes // New Trends in Databases and Information Systems. Cham: Springer, 2019. P. 37–44. doi:10.1007/978-3-030-30278-8_5
  15. Sawadogo P.N., Darmont J. On Data Lake Architectures and Metadata Management // Journal of Intelligent Information Systems. 2021. Vol. 56. P. 97–120. doi:10.1007/s10844-020-00608-7
  16. Jarke M., Jeusfeld M.A., Quix C.J., Vassiliadis P., Vassiliou Y. Data Warehouse Architecture and Quality: Impact and Open Challenges // Seminal Contributions to Information Systems Engineering. Berlin; Heidelberg: Springer, 2013. P. 183–189. doi:10.1007/978-3-642-36926-1_14
  17. Farid M.H., Roatis A., Ilyas I.F., Hoffmann H.-F., Chu X. CLAMS: Bringing Quality to Data Lakes // Proceedings of the 2016 International Conference on Management of Data. 2016. P. 2089–2092. doi:10.1145/2882903.2899391
  18. Hai R., Koutras C., Quix C., Jarke M. Data Lakes: A Survey of Functions and Systems // IEEE Transactions on Knowledge and Data Engineering. 2023. Vol. 35, No. 12. P. 12571–12590. doi:10.1109/TKDE.2023.3270101
  19. Llave M.R. Data Lakes in Business Intelligence: Reporting from the Trenches // Procedia Computer Science. 2018. Vol. 138. P. 516–524. doi:10.1016/j.procs.2018.10.071
  20. Al-Ruithe M., Benkhelifa E., Hameed K. A Systematic Literature Review of Data Governance and Cloud Data Governance // Personal and Ubiquitous Computing. 2019. Vol. 23. P. 839–859. doi:10.1007/s00779-017-1104-3
  21. Bližnák K., Munk M., Pilková A. A Systematic Review of Recent Literature on Data Governance 2017–2023 // IEEE Access. 2024. Vol. 12. P. 149875–149888. doi:10.1109/ACCESS.2024.3476373
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 4 дня до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее