Введение
Современные интеллектуальные сервисы на базе больших языковых моделей (LLM) в значительной степени предоставляются ограниченным кругом зарубежных компаний (OpenAI, Anthropic, Google), что создаёт риски для национального технологического суверенитета [7, 9]. В условиях санкционного давления и ограничений доступа к иностранным облачным платформам [4] проблема технологической зависимости приобретает особую остроту для российского рынка.
На законодательном уровне данный вопрос получил закрепление в ряде нормативных актов. Указ Президента РФ от 10.10.2019 № 490 «О развитии искусственного интеллекта в Российской Федерации» [7] определил приоритетность развития отечественных технологий ИИ. Федеральный закон от 31.12.2017 № 187-ФЗ «О безопасности критической информационной инфраструктуры» [9] устанавливает требования к защите объектов КИИ, включая ограничения на использование иностранного программного обеспечения. Постановлением Правительства РФ от 16.11.2015 № 1236 утверждены правила создания Реестра отечественного программного обеспечения [5], предусматривающего преференции для российских разработок при государственных закупках. Кроме того, в 2024 году вступили в силу дополнительные ограничения на использование иностранного ПО на объектах КИИ, что существенно повышает востребованность решений с открытым исходным кодом, допускающих локальное развёртывание [1].
Актуальной задачей становится обеспечение технологической независимости за счёт использования решений с открытым исходным кодом (open-source) и локально развёртываемых языковых моделей [4, 12]. При этом готовые open-source решения, как правило, уступают проприетарным аналогам по функциональности, что требует их целенаправленной доработки [6].
Цель исследования — разработать и обосновать комплекс доработок платформы с открытым исходным кодом, обеспечивающих функциональность на уровне проприетарных сервисов при полном контроле над данными и возможности развёртывания в национальном контуре.
Для достижения поставленной цели сформулированы следующие задачи: 1) провести анализ существующих open-source LLM-платформ и выявить их ограничения; 2) разработать подсистему интеллектуального управления контекстом диалога на основе гибридного подхода «суммаризация + RAG»; 3) обеспечить локализацию критически важных компонентов (эмбеддинги, обработка документов, вспомогательные модели); 4) провести сравнительную оценку доработанной платформы с существующими аналогами.
Научная новизна заключается в предложении и экспериментальной оценке комбинированной схемы управления контекстом для Open WebUI, включающей защищённое окно последних сообщений, суммаризацию предыстории, поиск по базе исторических пар «запрос-ответ» и трёхуровневую дедупликацию извлечённых фрагментов.
Постановка задачи
В качестве базовой платформы выбран Open WebUI — веб-интерфейс с открытым исходным кодом для работы с языковыми моделями. Несмотря на широкие возможности, в исходном виде платформа имеет ряд ограничений:
1. деградация качества ответов в длинных диалогах из-за переполнения контекстного окна;
2. зависимость вспомогательных функций (эмбеддинги, извлечение текста из документов, синтез речи) от внешних иностранных провайдеров;
Задача исследования — устранить указанные ограничения путём программной доработки платформы, обеспечив при этом возможность размещения всех компонентов в управляемом национальном контуре.
Архитектура и реализованные доработки
Мультимодальность и инструменты генерации
Реализована поддержка ввода изображений для моделей, подключаемых через адаптер. Разработаны отдельные инструменты генерации изображений с возможностью выбора конкретной модели (включая использование изображения-референса напрямую в чате) и генерации аудио (синтез речи). Для озвучивания ответов интегрированы как облачные, так и локальные решения с механизмом выбора по критерию «скорость/качество».
Подсистема визуализации
Добавлен набор инструментов визуализации (создание диаграмм, графиков, таблиц, сложных интерактивных визуальных представлений). Отдельно реализована поддержка декларативного описания диаграмм (PlantUML) с автоматической компиляцией и итеративным исправлением ошибок самой моделью. Эффективным признан конвейерный сценарий: исследовательская модель собирает информацию, а модель с поддержкой вызова инструментов формирует на её основе визуальное представление.
Интеллектуальное управление контекстом — ключевой результат
Наиболее значимой доработкой стала система управления контекстом длинных диалогов. Проблема деградации качества ответов в длинных диалогах хорошо известна [10]: при заполнении контекстного окна модель теряет способность учитывать ранние сообщения, что приводит к противоречивым и неполным ответам. Предложен гибридный алгоритм, формально описываемый следующей последовательностью шагов.
Шаг 1. Определение текущего размера контекста C (в токенах) как суммы токенов всех сообщений в текущем диалоге.
Шаг 2. Проверка условия C > T, где T = 8000 токенов — порог суммаризации. Порог выбран исходя из ограничения эмбеддинг-модели Qwen3 0.6B (эффективный диапазон до 8192 токенов) и баланса качества: при меньшем значении происходит неоправданная потеря информации в диалогах средней длины, при большем — чрезмерное заполнение контекстного окна модели.
Шаг 3. При выполнении условия — выделение защищённого окна: последние N = 6 сообщений пользователя и модели помечаются как защищённые и передаются без изменений. Размер защищённого окна определён эмпирически и обеспечивает сохранение непосредственного контекста диалога (обычно 3 пары «вопрос—ответ»).
Шаг 4. Суммаризация предыстории: все сообщения, предшествующие защищённому окну, подаются на вспомогательную модель, которая формирует сжатое резюме диалога с сохранением ключевых фактов и решений.
Шаг 5. RAG-поиск: формируется векторный запрос из текущего сообщения пользователя; из базы исторических пар «запрос—ответ» извлекаются K = 5 наиболее релевантных пар. Значение K = 5 выбрано для баланса: большее число результатов приводит к перегрузке контекстного окна и размыванию релевантности, меньшее — недостаточно для покрытия различных аспектов запроса.
Шаг 6. Трёхуровневая дедупликация: (а) исключение сообщений, уже входящих в защищённое окно; (б) исключение результатов RAG-поиска, пересекающихся с сообщениями в защищённом окне; (в) исключение дубликатов среди самих результатов RAG-поиска.
Шаг 7. Формирование итогового контекста: резюме + защищённые сообщения + дедуплицированные результаты RAG-поиска подаются на вход генеративной модели.
Реализованы режимы ручного управления контекстом через ключевые слова (полное отключение умного контекста, отключение только «воспоминаний», задание произвольного числа передаваемых сообщений), а также команда формирования детального отчёта о ходе диалога для переноса в новую сессию. Исходный код расширения доступен в открытом репозитории [13].
Локализация компонентов (импортозамещение)
Для снижения зависимости от внешних провайдеров:
1. модель эмбеддингов переведена на локальную модель Qwen3 0.6B [2], что полностью устранило зависимость от внешнего поставщика при сопоставимом качестве и увеличенном контексте; база данных пересобрана с сохранением работоспособности на исторических данных;
2. развёрнута локальная модель GigaChat 3.1 Lightning [2] для вспомогательных задач (генерация заголовков, анализ изображений);
Производительность и отказоустойчивость
Проведена оптимизация адаптера моделей: кэширование списка моделей с фоновым обновлением и замена линейного поиска на хэш-таблицы. В результате время до начала ответа сокращено в три раза (с 15 до 5 секунд для тестового запроса), а в длинных диалогах — с 47 до 27 секунд. Дополнительно реализована автобалансировка прокси-серверов, отказоустойчивость через резервные конфигурации (swap) и корректная обработка обрыва генерации.
Условия эксперимента. В качестве основной модели использовалась Qwen3 32B (квантование AWQ 4-bit). Для оценки эффективности алгоритма был сформирован набор из 30 тестовых диалогов длиной от 10 до 50 сообщений. В каждом диалоге в ранних сообщениях фиксировались контрольные факты: имена сущностей, числовые параметры, ранее принятые решения, пользовательские ограничения. После превышения порога контекста модели задавались контрольные вопросы, требующие обращения к ранним частям диалога. Ответ считался корректным, если содержал не менее 80% контрольных фактов и не противоречил ранее заданным условиям. Сравнивались два режима: базовый режим Open WebUI без интеллектуального управления контекстом и предложенный гибридный алгоритм.
Результаты: замеры качества управления контекстом показали, что при длине диалога от 40 сообщений предложенный алгоритм сохраняет полноту релевантной информации в 89 % тестовых сценариев (по сравнению с 52 % без управления контекстом).
Сравнительный анализ
Сравнительный анализ с аналогами. Для оценки функциональности доработанной платформы проведён сравнительный анализ с существующими решениями (табл. 1). Критерии сравнения выбраны на основе анализа научных источников [1, 6] и требований к LLM-платформам, сформулированных в [12, 6].
Таблица 1.
Сравнительный анализ LLM-платформ
|
Критерий |
Open WebUI |
ChatGPT |
Claude |
GigaChat |
YandexGPT |
|
Локальное развёртывание |
Да |
Нет |
Нет |
Да |
Нет модели в open source |
|
Полный контроль над данными |
Да |
Нет |
Нет |
Частично / в корпоративном контуре |
Частично / в корпоративном контуре |
|
Управление контекстом |
Алгоритм |
Автоматическое |
Автоматическое |
Не раскрыто публично |
Не раскрыто публично |
|
Мультимодальность |
Зависит от подключенной модели |
Да |
Да |
Да |
Да |
|
Генерация изображений |
Можно подключить |
Да |
Нет |
Да |
Да |
|
Синтез речи (TTS) |
Можно подключить |
Да |
Нет |
Да |
Да |
|
Визуализация данных |
Да |
Да |
Да |
Нет |
Нет |
|
RAG по документам |
Да |
Да |
Да |
Да |
Да |
|
Кастомизация моделей |
Поддерживается подключение произвольных моделей |
Нет |
Нет |
Нет |
Нет |
|
Развёртывание в нац. контуре |
Да |
Нет |
Нет |
Да |
Да |
Результаты
В ходе эксперимента подтверждено, что:
1. Проведённый сравнительный анализ показал, что доработанная версия Open WebUI по набору поддерживаемых функциональных возможностей сопоставима с рядом проприетарных LLM-сервисов. При этом ключевыми преимуществами предложенного решения являются возможность локального развёртывания, контроль над пользовательскими данными и подключение произвольных языковых моделей.
2. Критически важные компоненты (эмбеддинги, обработка документов, вспомогательные модели) переведены на локальные модели, что исключает передачу данных за пределы информационного контура организации [9, 5];
3. Разработанный алгоритм управления контекстом сохраняет полноту релевантной информации в 89% тестовых сценариев при длине диалога от 40 сообщений.
Заключение
Проведённое исследование показывает, что обеспечение независимости от иностранных поставщиков ИИ достижимо не только за счёт разработки собственных моделей, но и путём целевой доработки существующих решений с открытым исходным кодом. Разработанный гибридный алгоритм управления контекстом (суммаризация + RAG с трёхуровневой дедупликацией) позволяет эффективно работать с диалогами произвольной длины, сохраняя полноту информации в 89 % тестовых сценариев. Сравнительный анализ (табл. 1) подтверждает, что доработанная платформа по набору поддерживаемых функциональных возможностей сопоставима с рядом проприетарных сервисов, при этом превосходит их по критериям локального развёртывания, контроля данных и кастомизации моделей. Практическая значимость работы состоит в том, что все компоненты системы могут быть развёрнуты на территории Российской Федерации без зависимости от иностранных облачных провайдеров, что соответствует требованиям законодательства о защите КИИ [9, 1].
Список литературы
- Агафонов Н.Ю. Процесс импортозамещения в критической информационной инфраструктуре // Актуальные исследования. – 2024. – № 30 (212). – С. 18–21
- Документация моделей Qwen и GigaChat [Электронный ресурс] // Источники разработчиков. – URL: https://qwen.readthedocs.io, https://developers.sber.ru (дата обращения: 01.05.2025)
- Документация проекта Open WebUI [Электронный ресурс]. – URL: https://docs.openwebui.com (дата обращения: 01.05.2025)
- Курбатова А.С. Перспективы импортозамещения в российском секторе информационных технологий в условиях санкционного давления // Современная мировая экономика. – 2023. – Т. 1. – № 4. – URL: https://doi.org/10.17323/2949-5776-2023-1-4-108-128 (дата обращения: 01.05.2025)
- Постановление Правительства РФ от 16.11.2015 № 1236 «Об утверждении Правил создания и ведения единого реестра российских программ для электронных вычислительных машин и баз данных» // Собрание законодательства РФ. – 2015. – № 47. – Ст. 6606
- Ражнов П. Импортозамещение как составляющая безопасности критической информационной инфраструктуры // Молодой учёный. – 2024. – № 4 (511). – С. 195–198
- Указ Президента Российской Федерации от 10.10.2019 № 490 «О развитии искусственного интеллекта в Российской Федерации» // Собрание законодательства РФ. – 2019. – № 41. – Ст. 4704
- Указ Президента Российской Федерации от 30.03.2022 № 166 «О мерах по обеспечению технологической независимости и безопасности критической информационной инфраструктуры Российской Федерации» // Собрание законодательства РФ. – 2022. – № 14. – Ст. 2225
- Федеральный закон от 31.12.2017 № 187-ФЗ «О безопасности критической информационной инфраструктуры Российской Федерации» // Собрание законодательства РФ. – 2018. – № 1. – Ст. 8
- Lewis P., Perez E., Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. – 2020. – Vol. 33. – P. 9459–9474
- Wolf T., Debut L., Sanh V. et al. Transformers: State-of-the-Art Natural Language Processing // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. – 2020. – P. 38–45
- Zhao W.X., Zhou K., Li J. et al. A Survey of Large Language Models // arXiv preprint arXiv:2303.18223. – 2023
- Комолов Т.В. Модуль интеллектуального управления контекстом для Open WebUI [Электронный ресурс] / Т.В. Комолов, И.Ф. Горшков, М.С. Пеньков. — URL: https://gitverse.ru/Timik232/openwebui-improvement (дата обращения: 09.06.2026)


