РАЗРАБОТКА СЕРВИСА «АНАЛИЗ ОТЗЫВОВ КЛИЕНТОВ МАРКЕТПЛЕЙСА WILDBERRIES»

РАЗРАБОТКА СЕРВИСА «АНАЛИЗ ОТЗЫВОВ КЛИЕНТОВ МАРКЕТПЛЕЙСА WILDBERRIES»

Авторы публикации

Рубрика

Информационные технологии

Просмотры

90

Журнал

Журнал «Научный лидер» выпуск # 19 (220), Май ‘25

Поделиться

В условиях стремительного роста объёмов электронной коммерции пользователи всё чаще сталкиваются с проблемой недостоверных или неинформативных отзывов о товарах. В данной работе представлена интеллектуальная система, позволяющая автоматически определять информативность пользовательских отзывов и пересчитывать среднюю оценку товара с учётом качества обратной связи. Предложенный подход основан на применении модели машинного обучения, обученной на размеченных данных с использованием TF-IDF векторизации и морфологической нормализации текста. Для корректного взвешивания отзывов реализован алгоритм перерасчёта средней оценки, в котором информативным отзывам присваивается больший вес. Разработанный веб-сервис включает backend на Python/Flask и frontend на React, обеспечивая удобный пользовательский интерфейс и наглядную визуализацию результатов. Эксперименты показали, что предложенная методика повышает точность оценки товара и может быть полезна для платформ электронной торговли.

ВВЕДЕНИЕ

В последние годы сфера электронной коммерции стремительно развивается и становится неотъемлемой частью глобальной экономики. С ростом объёмов онлайн-покупок возрастает и значение пользовательских отзывов как основного источника информации для потенциальных покупателей. Согласно многочисленным исследованиям, отзывы потребителей существенно влияют на процесс принятия решений и уровень доверия к товару.

Тем не менее, не все отзывы оказываются одинаково полезными. Некоторые из них являются излишне краткими, недостаточно информативными или содержат лишь эмоциональные суждения без конкретики. Подобные отклики могут искажать восприятие товара и влиять на среднюю оценку, снижая её объективность. Традиционные методы подсчёта средней оценки не учитывают качество содержания отзывов, что создаёт необходимость в более интеллектуальных подходах к анализу пользовательских мнений.

В данной работе представлен веб-сервис, предназначенный для анализа отзывов на маркетплейсе Wildberries, который автоматически классифицирует отзывы на информативные и неинформативные с использованием методов машинного обучения [4]. На основе этой классификации система выполняет взвешенный пересчёт средней оценки товара, уделяя больший вес более содержательным отзывам. Также реализована визуализация данных, позволяющая отслеживать распределение оценок и динамику изменения средней оценки со временем.

Научная новизна заключается в интеграции классификации качества отзывов в вычисление итоговой оценки товара и построении полнофункционального веб-приложения, способного работать в реальном времени с данными маркетплейса. В отличие от типичных решений, ориентированных лишь на общее количество звёзд, предложенный подход позволяет формировать более точную, адаптивную и объективную оценку, полезную как для покупателей (при принятии решения о покупке), так и для продавцов (при анализе качества товара и работы с репутацией) [3].

АРХИТЕКТУРА СИСТЕМЫ И СРЕДСТВА РАЗРАБОТКИ

Разработанный веб-сервис представляет собой систему, состоящую из нескольких компонентов, каждый из которых отвечает за выполнение специфических задач в процессе сбора, обработки и анализа отзывов пользователей. Архитектура системы спроектирована таким образом, чтобы обеспечить гибкость, масштабируемость и производительность при работе с большими объёмами данных. Рассмотрим ключевые элементы архитектуры и средства разработки, изображенные на рисунке 1.

Рисунок 1. Архитектура веб-сервиса

Система разделена на четыре основные части.

1. Сбор данных:

  • для сбора отзывов используется серверная часть с применением Playwright [2], библиотеки для автоматизации браузера, которая позволяет получать данные с сайтов. Сервер запускает браузер в безголовом режиме, имитируя поведение пользователя, и парсит необходимые данные (отзывы, оценки, авторы, даты);
  • собранные данные о товарах и их отзывах сохраняются в базе данных MySQL, что позволяет в дальнейшем осуществлять быстрые запросы и анализ.

2. Обработка данных:

  • вторая часть системы занимается обработкой собранных отзывов с использованием модели машинного обучения. Отзывы проходят через предобработку текста, которая включает в себя лемматизацию, токенизацию и очистку от лишних символов. После этого данные подаются на модель, обученную для классификации отзывов на информативные и неинформативные.

3. Анализ данных:

  • модель использует подход TF-IDF (term frequency-inverse document frequency) для векторизации текста и обучена с помощью алгоритма, который показал наилучшие результаты точности при создании модели (логистическая регрессия, случайный лес, наивный байесовский классификатор, SVM, XGBoost);
  • для вычисления обновленной средней оценки используется взвешенная средняя, где более информативным отзывам присваивается больший вес.

4. Представление данных (графический интерфейс):

  • пользовательский интерфейс реализован с использованием React [1], что обеспечивает интерактивность и быстрое обновление данных на странице. Взаимодействие с сервером происходит через API-запросы с использованием Axios;
  • на фронтенде пользователю предоставляются результаты поиска товаров по артикулу, отображение средней оценки с учётом классификации отзывов, а также визуализация статистики с помощью графиков.

ПРАКТИЧЕСКАЯ ЧАСТЬ

Разработанный веб-сервис представляет собой полнофункциональную систему анализа отзывов на товары по их артикулу с Wildberries. Он включает в себя фронтенд-интерфейс для взаимодействия с пользователем, серверную часть (API) для получения и обработки данных, а также обученную модель машинного обучения, которая классифицирует отзывы как информативные и неинформативные.

Интерфейс пользователя.

На главной странице пользователь может ввести артикул интересующего товара. После ввода доступны две основные функции:

  1. поиск товара – выводит сохранённые данные по артикулу;
  2. скрапинг (загрузка) – инициирует повторное получение отзывов с источника.

В результате пользователь получает:

  • количество найденных отзывов;
  • первичную среднюю оценку товара (averageRating);
  • перерасчёт средней оценки с учётом веса информативности (wAverageRating – взвешенная оценка);
  • графическое представление распределения оценок и изменение средней оценки в зависимости от даты.

 

Рисунок 2. Интерфейс веб-сервиса

Серверная логика и машинное обучение.

Серверная часть веб-сервиса выполняет роль посредника между пользовательским интерфейсом, базой данных и моделью машинного обучения. Вся логика условно делится на два варианта обработки запроса.

1. Поиск по базе данных (режим «search»)

Если данные по запрашиваемому товару уже были загружены ранее, система выполняет быстрый поиск и обработку:

  1.  отправляется GET-запрос GET /product/<article>;
  2.  сервер обращается к базе данных MySQL и извлекает отзывы по артикулу;
  3.  если отзывы найдены, они направляются в модуль определения информативности;
  4.  выполняется классификация и перерасчёт оценки;
  5.  возвращается JSON-объект с обновлённой информацией.

Преимущество этого пути — высокая скорость отклика и отсутствие нагрузки на парсинг.

2. Скрапинг отзывов (режим «scrape») [5]

Если пользователь инициирует сбор свежих отзывов или данные отсутствуют, задействуется второй сценарий:

  1. отправляется POST-запрос POST /scrape с артикулом;
  2. сервер вызывает скрипт парсинга, который извлекает отзывы с внешнего источника (например, с сайта магазина);
  3. новые отзывы сохраняются в базу данных;
  4. далее происходит та же процедура классификации и обновления оценки, как и в первом варианте.

3. Согласование данных

После обработки отзывов оба сценария используют общий эндпоинт POST /informative_review, который:

  1. Обрабатывает текст (приведение к нижнему регистру, очистка, лемматизация);
  2. Векторизует с помощью TF-IDF;
  3. Выполняет классификацию с помощью модели (например, XGBoost);
  4. Записывает результат (поле is_informative) обратно в базу;
  5. Пересчитывает усреднённую оценку с учётом весов.

ЗАКЛЮЧЕНИЕ

Разработка и внедрение предложенного веб-сервиса демонстрируют возможность перехода от количественного к качественно обоснованному анализу пользовательских отзывов на маркетплейсах. Вместо слепого доверия к усреднённой оценке, система предлагает механизмы, учитывающие содержательность мнений, что позволяет выявлять реальные тенденции в восприятии товара и динамике его качества.

Интеграция машинного обучения в обработку отзывов и визуализация метрик в виде динамических графиков превращают простой просмотр отзывов в инструмент принятия осознанных решений. Такой подход особенно актуален в условиях информационного шума и увеличения доли недостоверной или бессодержательной обратной связи в онлайн-торговле.

Полученные результаты демонстрируют, что даже при использовании доступных алгоритмов и стандартных библиотек возможно построение надёжного интеллектуального решения, которое может быть внедрено в реальные коммерческие процессы. Перспективы дальнейшего развития включают масштабирование на другие платформы, расширение языковой поддержки и подключение дополнительных источников метаданных о товарах.

Список литературы

  1. React dev [Электронный ресурс]. Режим доступа: https://react.dev – (Дата обращения: 08.05.2025)
  2. Веб-скрейпинг с помощью JavaScript и Node.js – исчерпывающее руководство [Электронный ресурс]. – Режим доступа: https://habr.com/ru/companies/otus/articles/722300 (дата обращения: 06.05.2025)
  3. Громова А. А. Парсинг сайтов как инструмент анализа рынка / А. А. Громова // Фундаментальные и прикладные исследования в области управления, экономики и торговли: Сборник трудов Всероссийской научно-практической и учебно-методической конференции, Санкт-Петербург, 15–19 мая 2023 года. – Санкт-Петербург: ПОЛИТЕХ-ПРЕСС, 2023. – С. 529-533
  4. Лымарева Е. М. Развитие подходов к парсингу данных с маркетплейсов / Е. М. Лымарева // Научная статья года 2024: сборник статей XIV Международного научно-исследовательского конкурса, Пенза, 25 июня 2024 года. – Пенза: Наука и Просвещение (ИП Гуляев Г.Ю.), 2024. – С. 19-21
  5. Парсинг веб-сайтов: взгляд изнутри [Электронный ресурс]. – Режим доступа: https://habr.com/ru/articles/803869 (дата обращения: 17.04.2025)
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 3 дня до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее