РАЗРАБОТКА ПАРСЕРА ОТЗЫВОВ С WILDBERRIES

РАЗРАБОТКА ПАРСЕРА ОТЗЫВОВ С WILDBERRIES

Авторы публикации

Рубрика

Информационные технологии

Просмотры

76

Журнал

Журнал «Научный лидер» выпуск # 19 (220), Май ‘25

Поделиться

В данной статье рассматривается разработка и использование парсера для автоматического извлечения отзывов с веб-сайта Wildberries с последующим сохранением данных в формате Excel. Парсер реализован с использованием библиотек Puppeteer и ExcelJS на языке JavaScript. Основное внимание уделено процессу автоматизации сбора данных, обработке веб-страниц, и удобству сохранения полученной информации в структурированном виде для дальнейшего анализа.

ВВЕДЕНИЕ

В современном мире интернет-магазины играют ключевую роль в торговле, предоставляя пользователям удобные и доступные платформы для приобретения товаров и услуг, что способствует росту популярности онлайн-шопинга. Отзывы клиентов являются важным источником информации, позволяя потенциальным покупателям принимать обоснованные решения о покупке и влияя на репутацию товаров и продавцов [1]. В данной статье представлена разработка парсера для автоматического извлечения отзывов с веб-сайта Wildberries, одного из крупнейших маркетплейсов, с использованием современных технологий для эффективного сбора и анализа данных.

Парсинг – это процесс синтаксического анализа текста с целью извлечения определенной информации [2].

Сбор информации, которая размещена в открытых источниках и является публичной, не запрещен. Но есть некоторые ограничения, наложенные государством.  В законодательстве Российской Федерации прописаны следующие ограничения [3]:

  • не допускается нарушение Авторских и смежных прав;
  • не допускается неправомерный доступ к охраняемой законом компьютерной информации;
  • не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом;
  • не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом);
  • не допускается использование гражданских прав в целях ограничения конкуренции.

Такие технологии извлечения данных уже активно используются и применяются в самых различных областях. Например, был разработан модуль для сбора и анализа тональности комментариев, оставленных в социальной сети, описанный в научной статье Полюшина Д. В. [5]. В данном решении собираются отзывы, оставленные в социальной сети Вконтакте. Метод, который использует автор при парсинге данных, достаточно эффективный, но все данные извлекаются из запроса, направленного к API Вконтакте [6]. Поэтому работа данного модуля полностью зависит от API разработанного не самим автором, а разработчиками из Вконтакте. На такие технологии очень часто накладывается ограничение на количество запросов и когда запросов станет слишком много данный модуль перестанет функционировать. При парсинге через HTML-страницу таких ограничений нет, и с использованием эффективных методов, таких как автопрокрутка, можно загружать данные без существенных задержек. Поэтому в разработанном модуле применяется именно такой подход.

Средства разработки

Для реализации парсера были выбраны следующие инструменты [4]:

  • Node.js – среда выполнения JavaScript, которая позволяет создавать серверные приложения и управлять асинхронными операциями;
  • Puppeteer – библиотека для управления браузером через протокол DevTools. Она позволяет программно взаимодействовать с веб-страницами, эмулируя действия пользователя;
  • ExcelJS – библиотека для работы с файлами Excel, предоставляющая возможность создания и редактирования документов;
  • readline-sync – библиотека для синхронного ввода данных с клавиатуры.

Реализация

В данной статье мы сконцентрировались на разработке и реализации парсера для автоматического извлечения отзывов с маркетплейса Wildberries, а также на последующем сохранении данных в формате Excel для дальнейшего анализа.

Проект начинается с инициализации необходимых библиотек и создания основной функции main, в которую передается идентификатор товара (рисунок 1).

Рисунок 1. Инициализация

После загрузки страницы парсер ожидает появления кнопки для принятия куки и кликает по ней, чтобы продолжить загрузку страницы. Ниже на рисунке 2 представлен фрагмент кода.

Рисунок 2. Автонажатие на кнопку

Для загрузки всех отзывов используется функция автопрокрутки страницы (рисунок 3). Эта функция продолжает прокручивать страницу до тех пор, пока не будут загружены все динамически подгружаемые отзывы. Это необходимо, так как Wildberries использует LazyLoading для подгрузки всех отзывов.

Рисунок 3. Функция автопрокрутки страницы

Парсер извлекает данные о каждом отзыве, включая рейтинг, текст, автора и дату, и сохраняет их в виде массива объектов (рисунок 4).

Рисунок 4. Парсинг отзывов

Собранные данные сохраняются в файл Excel с использованием библиотеки ExcelJS (рисунок 5). Создается новая рабочая книга, добавляется лист и настраиваются столбцы для хранения данных отзывов. Каждому отзыву соответствует одна строка в таблице, что позволяет легко анализировать и сортировать данные.

Рисунок 5. Сохранение данных в Excel-файл

Для запуска парсера пользователь вводит идентификатор товара, и парсер выполняет все описанные этапы, включая навигацию, автопрокрутку, извлечение данных и сохранение в файл. В результате работы парсера формируется файл Excel, содержащий данные о собранных отзывах. На рисунке 6 приведен пример структуры данных, сохраненных в файле Excel.

Рисунок 6. Результат

Заключение

Представленный парсер демонстрирует возможности современных инструментов автоматизации для сбора и обработки данных, что является ключевым фактором в современных аналитических задачах. Реализация парсера с использованием Node.js, Puppeteer и ExcelJS позволяет эффективно извлекать и структурировать информацию из отзывов на Wildberries. Этот подход не только упрощает процесс сбора отзывов, но и обеспечивает высокую точность и скорость получения данных, что особенно важно в условиях постоянно растущего объема информации.

Дальнейшие улучшения могут включать использование методов обработки естественного языка (NLP) для более глубокого анализа текстов отзывов. Это позволит выявлять тональность и основные темы отзывов, что может значительно улучшить качество и полезность собранных данных. Кроме того, можно интегрировать алгоритмы машинного обучения для автоматической классификации отзывов и предсказания тенденций потребительского поведения.

В целом, разработанный парсер не только предоставляет эффективное решение для сбора отзывов, но и открывает широкие возможности для последующего анализа и применения данных в различных областях, таких как маркетинг, исследования потребительских предпочтений и улучшение качества обслуживания клиентов.

Список литературы

  1. Веб-скрейпинг с помощью JavaScript и Node.js – исчерпывающее руководство [Электронный ресурс]. – Режим доступа: https://habr.com/ru/companies/otus/articles/722300 (дата обращения: 17.04.2025)
  2. Громова А. А. Парсинг сайтов как инструмент анализа рынка / А. А. Громова // Фундаментальные и прикладные исследования в области управления, экономики и торговли: Сборник трудов Всероссийской научно-практической и учебно-методической конференции, Санкт-Петербург, 15-19 мая 2023 года. – Санкт-Петербург: ПОЛИТЕХ-ПРЕСС, 2023. – С. 529-533
  3. Лымарева Е. М. Развитие подходов к парсингу данных с маркетплейсов / Е. М. Лымарева // Научная статья года 2024: сборник статей XIV Международного научно-исследовательского конкурса, Пенза, 25 июня 2024 года. – Пенза: Наука и Просвещение (ИП Гуляев Г.Ю.), 2024. – С. 19-21
  4. Парсинг веб-сайтов: взгляд изнутри [Электронный ресурс]. – Режим доступа: https://habr.com/ru/articles/803869 (дата обращения: 17.04.2025)
  5. Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России) [Электронный ресурс]. – Режим доступа: https://habr.com/ru/articles/340302 (дата обращения: 17.04.2025)
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Осталось 4 дня до окончания
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее