ПОСТРОЕНИЕ НЕЗАВИСИМОЙ ПЛАТФОРМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА НА БАЗЕ ОТКРЫТЫХ ИНСТРУМЕНТОВ

ПОСТРОЕНИЕ НЕЗАВИСИМОЙ ПЛАТФОРМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА НА БАЗЕ ОТКРЫТЫХ ИНСТРУМЕНТОВ

Авторы публикации

Рубрика

Информационные технологии

Просмотры

52

Журнал

Журнал «Научный лидер» выпуск # 24 (277), Июнь ‘26

Поделиться

В статье рассматривается практический подход к снижению зависимости от зарубежных поставщиков сервисов искусственного интеллекта на основе доработки платформы Open WebUI — веб-интерфейса с открытым исходным кодом для работы с большими языковыми моделями. Обоснован выбор базовой платформы, выявлены ограничения, препятствующие её использованию в корпоративном и государственном секторах. Предложен гибридный алгоритм управления контекстом длинных диалогов, сочетающий пересказ с защищённым окном и поисково-расширенную генерацию (RAG) с трёхуровневой дедупликацией. Проведён сравнительный анализ с проприетарными аналогами (ChatGPT, Claude, GigaChat, YandexGPT) по 10 критериям, подтверждающий сопоставимый уровень функциональности при полном контроле над данными. Показано, что доработанная платформа может быть полностью развёрнута в национальном контуре на российских серверах.

Введение

Современные интеллектуальные сервисы на базе больших языковых моделей (LLM) в значительной степени предоставляются ограниченным кругом зарубежных компаний (OpenAI, Anthropic, Google), что создаёт риски для национального технологического суверенитета [7, 9]. В условиях санкционного давления и ограничений доступа к иностранным облачным платформам [4] проблема технологической зависимости приобретает особую остроту для российского рынка.

На законодательном уровне данный вопрос получил закрепление в ряде нормативных актов. Указ Президента РФ от 10.10.2019 № 490 «О развитии искусственного интеллекта в Российской Федерации» [7] определил приоритетность развития отечественных технологий ИИ. Федеральный закон от 31.12.2017 № 187-ФЗ «О безопасности критической информационной инфраструктуры» [9] устанавливает требования к защите объектов КИИ, включая ограничения на использование иностранного программного обеспечения. Постановлением Правительства РФ от 16.11.2015 № 1236 утверждены правила создания Реестра отечественного программного обеспечения [5], предусматривающего преференции для российских разработок при государственных закупках. Кроме того, в 2024 году вступили в силу дополнительные ограничения на использование иностранного ПО на объектах КИИ, что существенно повышает востребованность решений с открытым исходным кодом, допускающих локальное развёртывание [1].

Актуальной задачей становится обеспечение технологической независимости за счёт использования решений с открытым исходным кодом (open-source) и локально развёртываемых языковых моделей [4, 12]. При этом готовые open-source решения, как правило, уступают проприетарным аналогам по функциональности, что требует их целенаправленной доработки [6].

Цель исследования — разработать и обосновать комплекс доработок платформы с открытым исходным кодом, обеспечивающих функциональность на уровне проприетарных сервисов при полном контроле над данными и возможности развёртывания в национальном контуре.

Для достижения поставленной цели сформулированы следующие задачи: 1) провести анализ существующих open-source LLM-платформ и выявить их ограничения; 2) разработать подсистему интеллектуального управления контекстом диалога на основе гибридного подхода «суммаризация + RAG»; 3) обеспечить локализацию критически важных компонентов (эмбеддинги, обработка документов, вспомогательные модели); 4) провести сравнительную оценку доработанной платформы с существующими аналогами.

Научная новизна заключается в предложении и экспериментальной оценке комбинированной схемы управления контекстом для Open WebUI, включающей защищённое окно последних сообщений, суммаризацию предыстории, поиск по базе исторических пар «запрос-ответ» и трёхуровневую дедупликацию извлечённых фрагментов.

Постановка задачи

В качестве базовой платформы выбран Open WebUI — веб-интерфейс с открытым исходным кодом для работы с языковыми моделями. Несмотря на широкие возможности, в исходном виде платформа имеет ряд ограничений:

1. деградация качества ответов в длинных диалогах из-за переполнения контекстного окна;

2. зависимость вспомогательных функций (эмбеддинги, извлечение текста из документов, синтез речи) от внешних иностранных провайдеров;

Задача исследования — устранить указанные ограничения путём программной доработки платформы, обеспечив при этом возможность размещения всех компонентов в управляемом национальном контуре.

Архитектура и реализованные доработки

Мультимодальность и инструменты генерации

Реализована поддержка ввода изображений для моделей, подключаемых через адаптер. Разработаны отдельные инструменты генерации изображений с возможностью выбора конкретной модели (включая использование изображения-референса напрямую в чате) и генерации аудио (синтез речи). Для озвучивания ответов интегрированы как облачные, так и локальные решения с механизмом выбора по критерию «скорость/качество».

Подсистема визуализации

Добавлен набор инструментов визуализации (создание диаграмм, графиков, таблиц, сложных интерактивных визуальных представлений). Отдельно реализована поддержка декларативного описания диаграмм (PlantUML) с автоматической компиляцией и итеративным исправлением ошибок самой моделью. Эффективным признан конвейерный сценарий: исследовательская модель собирает информацию, а модель с поддержкой вызова инструментов формирует на её основе визуальное представление.

Интеллектуальное управление контекстом — ключевой результат

Наиболее значимой доработкой стала система управления контекстом длинных диалогов. Проблема деградации качества ответов в длинных диалогах хорошо известна [10]: при заполнении контекстного окна модель теряет способность учитывать ранние сообщения, что приводит к противоречивым и неполным ответам. Предложен гибридный алгоритм, формально описываемый следующей последовательностью шагов.

Шаг 1. Определение текущего размера контекста C (в токенах) как суммы токенов всех сообщений в текущем диалоге.

Шаг 2. Проверка условия C > T, где T = 8000 токенов — порог суммаризации. Порог выбран исходя из ограничения эмбеддинг-модели Qwen3 0.6B (эффективный диапазон до 8192 токенов) и баланса качества: при меньшем значении происходит неоправданная потеря информации в диалогах средней длины, при большем — чрезмерное заполнение контекстного окна модели.

Шаг 3. При выполнении условия — выделение защищённого окна: последние N = 6 сообщений пользователя и модели помечаются как защищённые и передаются без изменений. Размер защищённого окна определён эмпирически и обеспечивает сохранение непосредственного контекста диалога (обычно 3 пары «вопрос—ответ»).

Шаг 4. Суммаризация предыстории: все сообщения, предшествующие защищённому окну, подаются на вспомогательную модель, которая формирует сжатое резюме диалога с сохранением ключевых фактов и решений.

Шаг 5. RAG-поиск: формируется векторный запрос из текущего сообщения пользователя; из базы исторических пар «запрос—ответ» извлекаются K = 5 наиболее релевантных пар. Значение K = 5 выбрано для баланса: большее число результатов приводит к перегрузке контекстного окна и размыванию релевантности, меньшее — недостаточно для покрытия различных аспектов запроса.

Шаг 6. Трёхуровневая дедупликация: (а) исключение сообщений, уже входящих в защищённое окно; (б) исключение результатов RAG-поиска, пересекающихся с сообщениями в защищённом окне; (в) исключение дубликатов среди самих результатов RAG-поиска.

Шаг 7. Формирование итогового контекста: резюме + защищённые сообщения + дедуплицированные результаты RAG-поиска подаются на вход генеративной модели.

Реализованы режимы ручного управления контекстом через ключевые слова (полное отключение умного контекста, отключение только «воспоминаний», задание произвольного числа передаваемых сообщений), а также команда формирования детального отчёта о ходе диалога для переноса в новую сессию. Исходный код расширения доступен в открытом репозитории [13].

Локализация компонентов (импортозамещение)

Для снижения зависимости от внешних провайдеров:

1. модель эмбеддингов переведена на локальную модель Qwen3 0.6B [2], что полностью устранило зависимость от внешнего поставщика при сопоставимом качестве и увеличенном контексте; база данных пересобрана с сохранением работоспособности на исторических данных;

2. развёрнута локальная модель GigaChat 3.1 Lightning [2] для вспомогательных задач (генерация заголовков, анализ изображений);

Производительность и отказоустойчивость

Проведена оптимизация адаптера моделей: кэширование списка моделей с фоновым обновлением и замена линейного поиска на хэш-таблицы. В результате время до начала ответа сокращено в три раза (с 15 до 5 секунд для тестового запроса), а в длинных диалогах — с 47 до 27 секунд. Дополнительно реализована автобалансировка прокси-серверов, отказоустойчивость через резервные конфигурации (swap) и корректная обработка обрыва генерации.

Условия эксперимента. В качестве основной модели использовалась Qwen3 32B (квантование AWQ 4-bit). Для оценки эффективности алгоритма был сформирован набор из 30 тестовых диалогов длиной от 10 до 50 сообщений. В каждом диалоге в ранних сообщениях фиксировались контрольные факты: имена сущностей, числовые параметры, ранее принятые решения, пользовательские ограничения. После превышения порога контекста модели задавались контрольные вопросы, требующие обращения к ранним частям диалога. Ответ считался корректным, если содержал не менее 80% контрольных фактов и не противоречил ранее заданным условиям. Сравнивались два режима: базовый режим Open WebUI без интеллектуального управления контекстом и предложенный гибридный алгоритм.

Результаты: замеры качества управления контекстом показали, что при длине диалога от 40 сообщений предложенный алгоритм сохраняет полноту релевантной информации в 89 % тестовых сценариев (по сравнению с 52 % без управления контекстом).

Сравнительный анализ

Сравнительный анализ с аналогами. Для оценки функциональности доработанной платформы проведён сравнительный анализ с существующими решениями (табл. 1). Критерии сравнения выбраны на основе анализа научных источников [1, 6] и требований к LLM-платформам, сформулированных в [12, 6].

Таблица 1.

Сравнительный анализ LLM-платформ

Критерий

Open WebUI
(доработанный)

ChatGPT
(OpenAI)

Claude
(Anthropic)

GigaChat
(Сбер)

YandexGPT
(Яндекс)

Локальное развёртывание

Да

Нет

Нет

Да

Нет модели в open source

Полный контроль над данными

Да

Нет

Нет

Частично / в корпоративном контуре

Частично / в корпоративном контуре

Управление контекстом

Алгоритм
(суммаризация + RAG)

Автоматическое

Автоматическое

Не раскрыто публично

Не раскрыто публично

Мультимодальность

Зависит от подключенной модели

Да

Да

Да

Да

Генерация изображений

Можно подключить

Да

Нет

Да

Да

Синтез речи (TTS)

Можно подключить

Да

Нет

Да

Да

Визуализация данных

Да

Да

Да

Нет

Нет

RAG по документам

Да

Да

Да

Да

Да

Кастомизация моделей

Поддерживается подключение произвольных моделей

Нет

Нет

Нет

Нет

Развёртывание в нац. контуре

Да

Нет

Нет

Да

Да

 

Результаты

В ходе эксперимента подтверждено, что:

1. Проведённый сравнительный анализ показал, что доработанная версия Open WebUI по набору поддерживаемых функциональных возможностей сопоставима с рядом проприетарных LLM-сервисов. При этом ключевыми преимуществами предложенного решения являются возможность локального развёртывания, контроль над пользовательскими данными и подключение произвольных языковых моделей.

2. Критически важные компоненты (эмбеддинги, обработка документов, вспомогательные модели) переведены на локальные модели, что исключает передачу данных за пределы информационного контура организации [9, 5];

3. Разработанный алгоритм управления контекстом сохраняет полноту релевантной информации в 89% тестовых сценариев при длине диалога от 40 сообщений.

Заключение

Проведённое исследование показывает, что обеспечение независимости от иностранных поставщиков ИИ достижимо не только за счёт разработки собственных моделей, но и путём целевой доработки существующих решений с открытым исходным кодом. Разработанный гибридный алгоритм управления контекстом (суммаризация + RAG с трёхуровневой дедупликацией) позволяет эффективно работать с диалогами произвольной длины, сохраняя полноту информации в 89 % тестовых сценариев. Сравнительный анализ (табл. 1) подтверждает, что доработанная платформа по набору поддерживаемых функциональных возможностей сопоставима с рядом проприетарных сервисов, при этом превосходит их по критериям локального развёртывания, контроля данных и кастомизации моделей. Практическая значимость работы состоит в том, что все компоненты системы могут быть развёрнуты на территории Российской Федерации без зависимости от иностранных облачных провайдеров, что соответствует требованиям законодательства о защите КИИ [9, 1].

Список литературы

  1. Агафонов Н.Ю. Процесс импортозамещения в критической информационной инфраструктуре // Актуальные исследования. – 2024. – № 30 (212). – С. 18–21
  2. Документация моделей Qwen и GigaChat [Электронный ресурс] // Источники разработчиков. – URL: https://qwen.readthedocs.io, https://developers.sber.ru (дата обращения: 01.05.2025)
  3. Документация проекта Open WebUI [Электронный ресурс]. – URL: https://docs.openwebui.com (дата обращения: 01.05.2025)
  4. Курбатова А.С. Перспективы импортозамещения в российском секторе информационных технологий в условиях санкционного давления // Современная мировая экономика. – 2023. – Т. 1. – № 4. – URL: https://doi.org/10.17323/2949-5776-2023-1-4-108-128 (дата обращения: 01.05.2025)
  5. Постановление Правительства РФ от 16.11.2015 № 1236 «Об утверждении Правил создания и ведения единого реестра российских программ для электронных вычислительных машин и баз данных» // Собрание законодательства РФ. – 2015. – № 47. – Ст. 6606
  6. Ражнов П. Импортозамещение как составляющая безопасности критической информационной инфраструктуры // Молодой учёный. – 2024. – № 4 (511). – С. 195–198
  7. Указ Президента Российской Федерации от 10.10.2019 № 490 «О развитии искусственного интеллекта в Российской Федерации» // Собрание законодательства РФ. – 2019. – № 41. – Ст. 4704
  8. Указ Президента Российской Федерации от 30.03.2022 № 166 «О мерах по обеспечению технологической независимости и безопасности критической информационной инфраструктуры Российской Федерации» // Собрание законодательства РФ. – 2022. – № 14. – Ст. 2225
  9. Федеральный закон от 31.12.2017 № 187-ФЗ «О безопасности критической информационной инфраструктуры Российской Федерации» // Собрание законодательства РФ. – 2018. – № 1. – Ст. 8
  10. Lewis P., Perez E., Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. – 2020. – Vol. 33. – P. 9459–9474
  11. Wolf T., Debut L., Sanh V. et al. Transformers: State-of-the-Art Natural Language Processing // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. – 2020. – P. 38–45
  12. Zhao W.X., Zhou K., Li J. et al. A Survey of Large Language Models // arXiv preprint arXiv:2303.18223. – 2023
  13. Комолов Т.В. Модуль интеллектуального управления контекстом для Open WebUI [Электронный ресурс] / Т.В. Комолов, И.Ф. Горшков, М.С. Пеньков. — URL: https://gitverse.ru/Timik232/openwebui-improvement (дата обращения: 09.06.2026)
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 3 дня до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее