Введение
Аналитическая инфраструктура организаций усложняется под влиянием сразу нескольких факторов: растут объёмы данных, увеличивается доля полуструктурированных и неструктурированных источников, ускоряется обновление событийных потоков, а требования к контролю качества и происхождения данных становятся жёстче. В современной литературе Data Warehouse и Data Lake рассматриваются как разные ответы на эти изменения: первое решение опирается на заранее заданную структуру и управляемую отчётность, второе — на сохранение сырых данных и гибкость поздней интерпретации [1]. Классические работы по Data Warehouse связывают эту архитектуру с ETL-процессами, OLAP и устойчивой моделью показателей [2], тогда как исследования Data Lake подчёркивают роль дешёвого масштабируемого хранения и работы с гетерогенными источниками [3], [4], [5].
Однако практическая проблема выбора не сводится к вопросу о том, какая технология новее. Хранилище данных может быть рациональнее, если организация опирается на регламентную BI-отчётность и стабильную семантику показателей. Озеро данных оправдано там, где важнее быстро принять разнородный поток данных и сохранить максимум исходного сигнала. Озёрное хранилище возникает как попытка соединить обе логики: использовать гибкость озера, но при этом приблизиться к управляемости, транзакционности и воспроизводимости хранилища данных [6], [7], [8], [9], [10].
В существующих исследованиях хорошо описаны риски озёр данных: слабые метаданные, сложность поиска, угроза превращения в data swamp и недостаточная дисциплина управления качеством [11], [12], [13], [14], [15]. Отдельно изучены преимущества классического Data Warehouse для качественной управленческой аналитики [2], [16], а также развитие lakehouse как архитектуры, которая снижает разрыв между BI, машинным обучением и потоковыми нагрузками [8], [9], [10]. При этом сравнительная рамка, позволяющая объяснить, когда каждая архитектура действительно рациональна, остаётся недостаточно формализованной.
Цель статьи — предложить теоретическую сравнительную модель выбора между Data Warehouse, Data Lake и Data Lakehouse. В работе под гибридным хранилищем данных понимается не конкретный программный продукт, а архитектурный принцип сочетания управляемости, масштабируемости и многоформатной аналитики. В узком смысле наиболее цельным выражением этого принципа выступает Data Lakehouse; в широком смысле речь идёт о континууме решений между классическим хранилищем и озером данных.
Теоретические основания архитектур данных
Хранилище данных исторически формировалось как специализированная аналитическая среда для поддержки управленческих решений. Его сильная сторона — не просто хранение таблиц, а наличие устойчивой предметной модели, согласованных измерений, контролируемых процедур загрузки и понятной ответственности за качество данных. Именно поэтому Data Warehouse особенно хорошо работает там, где организация заранее знает, какие показатели, факты и разрезы анализа будут использоваться регулярно [1], [2], [16].
Data Lake строится на другой логике. В него данные могут поступать в исходном виде: таблицы, логи, документы, события, мультимедиа и иные слабоструктурированные объекты. Это снижает порог первичной интеграции и даёт исследователям больше свободы, но переносит значительную часть смысловой работы на более поздний этап. Вместо схемы при записи начинает доминировать схема при чтении, а значит, качество результата всё сильнее зависит от каталогизации, описания источников, правил доступа и зрелости метаданных [4], [5], [12], [13], [14], [15].
Эта особенность делает озеро данных полезным, но не безусловно безопасным архитектурным решением. Если в системе отсутствуют метаданные, нет понятных правил владения данными и не фиксируется история преобразований, то гибкость быстро превращается в хаотичность. В таких условиях аналитик может иметь доступ к большому объёму данных, но не понимать их происхождение, точность, актуальность и допустимые сценарии использования. Поэтому современные исследования всё чаще рассматривают управление метаданными как обязательное условие жизнеспособности Data Lake, а не как вспомогательную функцию [11], [13]–[15], [17].
Lakehouse появился как ответ на это напряжение. Его идея состоит в том, чтобы сохранить экономичность и форматную свободу Data Lake, но добавить слой таблицизации, транзакционности, журналирования изменений и единого доступа для разных типов аналитики. В литературе подчёркивается, что общепринятого определения lakehouse пока нет, однако его устойчивое ядро связано с поддержкой BI, машинного обучения и потоковых сценариев поверх единого хранилищного контура [6], [7], [8], [9], [10].
В теоретическом плане можно говорить о трёх разных архитектурных режимах. Data Warehouse максимизирует контроль и семантическую устойчивость. Data Lake максимизирует гибкость и сохранение исходного сигнала. Data Lakehouse пытается максимизировать унификацию аналитических нагрузок, чтобы отчётность, исследовательская аналитика и промышленное машинное обучение не жили в полностью разорванных контурах [8], [9], [10].
Сравнительная модель хранилища данных, озера данных и озёрного хранилища
Первый критерий сравнения — тип данных и устойчивость их семантики. Хранилище данных предпочтительно, когда предметная область хорошо описывается заранее: известны сущности, метрики, справочники и правила расчёта показателей. Озеро данных сильнее там, где источники неоднородны, а будущие аналитические вопросы заранее не определены. Озёрное хранилище занимает промежуточную, но не компромиссную позицию: оно допускает гетерогенность, но стремится дать ей единый логический слой доступа [1], [4], [6], [10].
Второй критерий — скорость обновления и характер поступления данных. Для Data Warehouse естественны пакетные или квазипакетные циклы, в которых данные проходят предварительную очистку и согласование. Data Lake лучше подходит для append-first логики, когда важнее быстро принять поток данных, чем сразу встроить его в строгую модель. Lakehouse рационален в смешанной ситуации: организация сохраняет потребность в отчётности, но одновременно должна работать с потоковыми источниками, событиями и экспериментальными аналитическими задачами [8], [9], [10], [18].
Третий критерий — качество данных. В классическом хранилище качество является условием входа: данные должны быть нормализованы до включения в отчётный контур. В озере данных качество чаще становится отложенной задачей, решаемой в момент поиска, подготовки и использования набора. Lakehouse предлагает более гибкий режим: в одной платформе могут сосуществовать сырой, очищенный и доверенный слои, а переход между ними должен фиксироваться через метаданные, версии и журналы изменений [8], [9], [10], [17].
Четвёртый критерий — стоимость хранения и масштабируемость. Хранилище данных обычно дороже там, где требуется специализированная производительность, строгая модель и предварительная трансформация. Озеро данных выигрывает за счёт дешёвого масштабируемого хранения больших массивов. Lakehouse наследует экономику озера, но добавляет сервисный слой управления, поэтому его стоимость нельзя считать минимальной: она оправдана только тогда, когда снижение дублирования и унификация нагрузок дают организационный выигрыш [4], [6], [8], [9].
Пятый и шестой критерии — BI- и ML-нагрузка. Data Warehouse остаётся естественной средой для повторяемых отчётов, KPI и SQL-центричной аналитики. Data Lake, напротив, удобен для data science, поиска признаков и работы с сырыми данными. Но при промышленном использовании ML возникает проблема расхождения версий: модель может обучаться на одном контуре данных, а отчётность строиться на другом. Именно здесь lakehouse получает сильный аргумент, поскольку стремится обслуживать BI, ML и streaming-сценарии поверх общего основания [7], [8], [9], [10], [19].
Седьмой критерий — governance, то есть совокупность правил владения, качества, доступа, безопасности, lineage и жизненного цикла данных. У Data Warehouse governance традиционно сильнее благодаря устойчивой модели и централизованному контролю. В Data Lake governance сложнее, потому что данные разнородны, схема отложена, а источники могут быть плохо описаны. Lakehouse не отменяет эту сложность, но пытается распространить управляемость на гетерогенную среду без полного разделения BI- и ML-контуров [10], [11], [15], [20], [21].
Обобщённая сравнительная характеристика представлена в таблице 1.
Таблица 1.
Сравнительная характеристика архитектур анализа больших данных
|
Критерий |
Хранилище данных |
Озеро данных |
Озёрное хранилище |
|
Тип данных |
Структурированные и семантически устойчивые данные |
Любые данные, включая сырые и слабоструктурированные |
Разные типы данных при едином логическом доступе |
|
Скорость обновления |
Пакетные или квазипакетные циклы |
Быстрая инжекция, append-first, потоковые источники |
Смешанный режим batch + stream |
|
Качество данных |
Качество как условие загрузки |
Качество преимущественно на этапе использования |
Переход от raw-слоя к trusted-слою |
|
Стоимость хранения |
Выше при строгой модели и высокой производительности |
Ниже при приоритете дешёвого масштаба |
Сбалансированная: дешёвое хранение и управляющий слой |
|
BI-нагрузка |
Сильная повторяемая отчётность и OLAP |
Вспомогательная или экспериментальная BI |
Сильная BI без отдельной копии данных |
|
ML-нагрузка |
Ограниченная, часто через выгрузки |
Исследовательская аналитика и feature discovery |
Исследовательская и промышленная ML-аналитика |
|
Governance |
Зрелый централизованный контроль |
Базовый или развивающийся контроль |
Управляемость для гетерогенной среды |
|
Главный риск |
Жёсткость модели и стоимость изменений |
Потеря управляемости и data swamp |
Сложность внедрения и незрелость стека |
Таблица 1 показывает, что архитектуры нельзя расположить по простой шкале «хуже — лучше». Каждая из них рациональна при своём сочетании требований. Ошибка выбора возникает не тогда, когда организация использует устаревшую технологию, а тогда, когда архитектура не соответствует фактическому профилю данных, нагрузки и управления.
Авторская матрица выбора архитектуры
Для перехода от описательного сравнения к более воспроизводимой процедуре предлагается авторская матрица выбора. Она не претендует на точный расчёт совокупной стоимости владения или производительности, но задаёт прозрачный способ сопоставления архитектур по ключевым признакам. В модели используются две величины: вес критерия w, отражающий его значимость для организации, и коэффициент архитектурного соответствия k, показывающий, насколько конкретная архитектура отвечает данному критерию.
Интегральная оценка пригодности архитектуры может быть представлена формулой 1.
Sa = ∑i=17 wi · kai, (1)
где Sₐ — суммарная пригодность архитектуры a; i — номер критерия; wᵢ — вес критерия; kₐᵢ — коэффициент соответствия архитектуры a критерию i. В упрощённой версии коэффициент принимает значения от 0 до 2: 0 — слабое соответствие, 1 — частичное соответствие, 2 — сильное соответствие.
Базовые коэффициенты соответствия приведены в таблице 2. Они отражают не абсолютное качество архитектур, а их теоретическую пригодность при высоком приоритете соответствующего критерия.
Таблица 2.
Базовые коэффициенты соответствия архитектур критериям выбора
|
Критерий |
Хранилище данных |
Озеро данных |
Озёрное хранилище |
|
Тип данных и степень гетерогенности |
0 |
2 |
2 |
|
Скорость обновления и потоковость |
1 |
2 |
2 |
|
Требования к качеству данных |
2 |
0 |
2 |
|
Стоимость хранения |
0 |
2 |
2 |
|
BI-нагрузка |
2 |
0 |
2 |
|
ML-нагрузка |
0 |
2 |
2 |
|
Требования к governance |
2 |
0 |
2 |
Первая зона рациональности — каноническая аналитика. Она возникает, когда для организации важнее всего формализованное качество, повторяемые показатели, централизованный контроль и регламентная отчётность. Если веса критериев качества, BI и governance выше весов гетерогенности, скорости и ML-нагрузки, то преимущество получает Data Warehouse [1], [2], [16].
Вторая зона — исследовательская аналитика. Она характерна для сред, где много разнородных источников, будущие вопросы к данным заранее не известны, а главным требованием становится сохранение полного сигнала при разумной стоимости хранения. В таком случае Data Lake оказывается более естественным решением, поскольку позволяет быстро собирать и переиспользовать данные без преждевременной нормализации [4], [5], [12], [18].
Третья зона — конвергенция аналитических нагрузок. Она появляется тогда, когда одновременно высоки требования к BI, ML, многоформатности, качеству и governance, а организация не готова оплачивать постоянное дублирование данных между несколькими платформами. В этой ситуации lakehouse выступает не как модное название, а как ответ на специфическую конфигурацию требований: единое хранение, таблицизация, транзакционные гарантии, технические метаданные и единый источник истины [6], [7], [8], [9], [10].
В содержательном виде правило выбора можно сформулировать так. Если организации нужна заранее определённая и проверяемая аналитическая «истина», она движется к хранилищу данных. Если ей важнее сохранить аналитическую свободу и не потерять потенциально ценный сырой сигнал, она движется к озеру данных. Если же обе потребности высоки одновременно, и их раздельное обслуживание становится слишком дорогим или рискованным, возникает основание для озёрного хранилища.
Ограничения модели и открытые вопросы
Первое ограничение связано с самим понятием lakehouse. В литературе нет единого определения этой архитектуры: одни авторы описывают её как полноценную интегрированную платформу, другие — как более широкую идею соединения озера и хранилища данных [8], [9], [10]. Поэтому предложенная матрица применима прежде всего как концептуальная рамка, а не как универсальная инструкция по выбору конкретного продукта.
Второе ограничение относится к governance. Систематические обзоры показывают, что управление данными включает разные компоненты: роли, политики, качество, безопасность, жизненный цикл, соответствие требованиям и lineage [20], [21]. В данной статье governance рассматривается как укрупнённый критерий. В последующих исследованиях его следует разложить на отдельные подизмерения, поскольку выбор между строгим Data Warehouse и Lakehouse может зависеть именно от того, что организация понимает под управляемостью.
Третье ограничение методологическое. Статья предлагает теоретическую модель и не проверяет её на выборке организаций, отраслевых кейсов или нагрузочных профилей. Следовательно, матрица не должна использоваться как точный инструмент расчёта TCO, latency или SLA. Её назначение — помочь сформулировать архитектурный выбор в виде набора явных критериев и сделать дискуссию менее зависимой от технологической моды.
Заключение
Проведённый анализ показывает, что выбор между хранилищем данных, озером данных и озёрным хранилищем нельзя свести к противопоставлению «старое против нового» или «SQL против не-SQL». На теоретическом уровне речь идёт о трёх разных способах согласовать стандартизацию, гибкость, стоимость и управляемость в среде больших данных.
Хранилище данных остаётся рациональным там, где доминируют семантическая устойчивость, предварительное качество, повторяемая BI-нагрузка и централизованный governance. Озеро данных оправдано там, где важны многоформатность, быстрый захват данных, низкая стоимость масштаба и исследовательская работа с исходным сигналом. Озёрное хранилище становится предпочтительным только тогда, когда организация одновременно нуждается в управляемости warehouse-уровня и гибкости lake-уровня, но не хочет поддерживать разорванные контуры для отчётности, машинного обучения и потоковой аналитики.
Главный вывод состоит в том, что гибридное хранилище данных следует понимать как архитектурный принцип согласования противоположных требований, а не как отдельный бренд или универсально лучшую технологию. Предложенная матрица выбора переводит архитектурное решение из области общих рассуждений в плоскость многокритериального сопоставления и показывает, почему lakehouse оправдан не всегда, а только при высокой одновременной нагрузке на качество, гибкость, BI, ML и governance.
Список литературы
- Nambiar A., Mundra D. An Overview of Data Warehouse and Data Lake in Modern Enterprise Data Management // Big Data and Cognitive Computing. 2022. Vol. 6, No. 4. Art. 132. doi:10.3390/bdcc6040132
- Chaudhuri S., Dayal U. An Overview of Data Warehousing and OLAP Technology // SIGMOD Record. 1997. Vol. 26, No. 1. P. 65–74. doi:10.1145/248603.248616
- Azzabi S., Alfughi Z., Ouda A. Data Lakes: A Survey of Concepts and Architectures // Computers. 2024. Vol. 13, No. 7. Art. 183. doi:10.3390/computers13070183
- Khine P.P., Wang Z.S. Data Lake: A New Ideology in Big Data Era // ITM Web of Conferences. 2018. Vol. 17. Art. 03025. doi:10.1051/itmconf/20181703025
- Madera C., Laurent A. The Next Information Architecture Evolution: The Data Lake Wave // Proceedings of the 8th International Conference on Management of Digital EcoSystems. 2016. P. 174–180. doi:10.1145/3012071.3012077
- Ait Errami S., Hajji H., Ait El Kadi K., Badir H. Spatial Big Data Architecture: From Data Warehouses and Data Lakes to the LakeHouse // Journal of Parallel and Distributed Computing. 2023. Vol. 176. P. 70–79. doi:10.1016/j.jpdc.2023.02.007
- Harby A.A., Zulkernine F. From Data Warehouse to Lakehouse: A Comparative Review // 2022 IEEE International Conference on Big Data (Big Data). 2022. P. 389–395. doi:10.1109/BigData55660.2022.10020719
- Harby A.A., Zulkernine F. Data Lakehouse: A Survey and Experimental Study // Information Systems. 2025. Vol. 127. Art. 102460. doi:10.1016/j.is.2024.102460
- Janssen N., Ilayperuma T., Jayasinghe J., Bukhsh F., Daneva M. The Evolution of Data Storage Architectures: Examining the Secure Value of the Data Lakehouse // Journal of Data, Information and Management. 2024. Vol. 6, No. 4. P. 309–334. doi:10.1007/s42488-024-00132-1
- Schneider J., Gröger C., Lutsch A., Schwarz H., Mitschang B. The Lakehouse: State of the Art on Concepts and Technologies // SN Computer Science. 2024. Vol. 5. Art. 449. doi:10.1007/s42979-024-02737-0
- Boukraa D., Bala M., Rizzi S. Metadata Management in Data Lake Environments: A Survey // Journal of Library Metadata. 2024. Vol. 24, No. 4. P. 215–274. doi:10.1080/19386389.2024.2359310
- Nargesian F., Zhu E., Miller R.J., Pu K.Q., Arocena P.C. Data Lake Management: Challenges and Opportunities // Proceedings of the VLDB Endowment. 2019. Vol. 12, No. 12. P. 1986–1989. doi:10.14778/3352063.3352116
- Quix C., Hai R., Vatov I. Metadata Extraction and Management in Data Lakes with GEMMS // Complex Systems Informatics and Modeling Quarterly. 2016. No. 9. P. 67–83. doi:10.7250/csimq.2016-9.04
- Ravat F., Zhao Y. Metadata Management for Data Lakes // New Trends in Databases and Information Systems. Cham: Springer, 2019. P. 37–44. doi:10.1007/978-3-030-30278-8_5
- Sawadogo P.N., Darmont J. On Data Lake Architectures and Metadata Management // Journal of Intelligent Information Systems. 2021. Vol. 56. P. 97–120. doi:10.1007/s10844-020-00608-7
- Jarke M., Jeusfeld M.A., Quix C.J., Vassiliadis P., Vassiliou Y. Data Warehouse Architecture and Quality: Impact and Open Challenges // Seminal Contributions to Information Systems Engineering. Berlin; Heidelberg: Springer, 2013. P. 183–189. doi:10.1007/978-3-642-36926-1_14
- Farid M.H., Roatis A., Ilyas I.F., Hoffmann H.-F., Chu X. CLAMS: Bringing Quality to Data Lakes // Proceedings of the 2016 International Conference on Management of Data. 2016. P. 2089–2092. doi:10.1145/2882903.2899391
- Hai R., Koutras C., Quix C., Jarke M. Data Lakes: A Survey of Functions and Systems // IEEE Transactions on Knowledge and Data Engineering. 2023. Vol. 35, No. 12. P. 12571–12590. doi:10.1109/TKDE.2023.3270101
- Llave M.R. Data Lakes in Business Intelligence: Reporting from the Trenches // Procedia Computer Science. 2018. Vol. 138. P. 516–524. doi:10.1016/j.procs.2018.10.071
- Al-Ruithe M., Benkhelifa E., Hameed K. A Systematic Literature Review of Data Governance and Cloud Data Governance // Personal and Ubiquitous Computing. 2019. Vol. 23. P. 839–859. doi:10.1007/s00779-017-1104-3
- Bližnák K., Munk M., Pilková A. A Systematic Review of Recent Literature on Data Governance 2017–2023 // IEEE Access. 2024. Vol. 12. P. 149875–149888. doi:10.1109/ACCESS.2024.3476373


