Журнал «Научный лидер» выпуск #21 (119), Июнь ‘23

ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ ТЕКСТОВЫХ ЭМБЕДДИНГОВ С ИСПОЛЬЗОВАНИЕМ СИАМСКИХ НЕЙРОННЫХ СЕТЕЙ

Авторы публикации

Юрлов Павел Павлович

Рубрика

IT-Технологии

Просмотры

588

Журнал

Журнал «Научный лидер» выпуск # 21 (119), Июнь ‘23

В данной статье рассматривается практическое применение текстовых эмбеддингов полученных с использованием сиамских нейронных сетей.

текстовые эмбеддинги

глубинное обучение для текстовых данных

анализ данных

В эпоху информационной перегрузки способность извлекать ценную информацию из огромных объемов данных стала критически важным навыком, как для бизнеса, так и для исследователей. Одним из важнейших направлений анализа данных является анализ текстовых данных. Первые работы в данном направлении начали появляться в 1990-х годах и применяли различные статистические методы, но традиционные подходы к анализу текста часто не справлялись с присущей человеческому языку сложностью и нюансами. Поэтому данное направление активно развивалось, и появлялись все более эффективные методы анализа текстов. Относительно недавно появившийся метод текстовых эмбеддингов изменил правила игры, произведя революцию в области обработки естественного языка, и открыл новые границы в анализе текста. Однако изначально ряд моделей данного метода имел свои ограничения, одним из которых является ограниченный размер входного текста. В данной статье будет рассмотрено практическое применение представленного недавно метода текстовых эмбеддингов с использованием сиамских нейронных сетей, который решает проблему длинны входного текста.

Метод построения текстовых эмбедддингов с использованием сиамских нейронных сетей был представлен в статье "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks" [1]. Метод, описанный в статье, использует сиамские и триплетные нейронные сети, построенные над моделью BERT, для обновления весов модели, таким образом, что полученные текстовые эмбеддинги несут семантическую значимость и могут быть сравнены с использованием косинусного расстояния. Используя возможности BERT и применяя контрастивное обучение, этот подход позволяет создавать осмысленные представления больших предложений, которые превосходно справляются с задачами семантического подобия и другими задачами, требующими анализа текстов на уровне предложений. Авторы статьи также разработали фреймворк, который позволяет строить текстовые эмбеддинги с использованием сиамских сетей не только над моделью BERT, но и над другими современными моделями текстовых эмбеддингов.

Для демонстрации практического применения проведен вычислительный эксперимент. В качестве основной задачи эксперимента была выбрана задача кластеризации текстов. В качестве датасета выбран корпус статей архива научных статей Arxiv.org [2], который содержит около 2 миллионов научных статей. Но в рамках вычислительного эксперимента было отобрано случайным образом 50 тысяч аннотаций научных статей.

Перед обучением моделей была проведена пред-обработка текстов, для этого были удалены пунктуация и символы не несущие смысл, такие как: скобки, запятые, двоеточия, математические формулы и другие символы. Также были удалены стоп слова, которые тоже не несут смысл.

Для оценки качества датасет был разделен на два набора данных: обучающий, на котором будут дообучаться модели и алгоритмы кластеризации, и тестовый набор, на котором будет проведено сравнение моделей.

Для сравнения было выбрано три модели эмбеддингов: BERT, RoBERTa и Electra:

BERT – модель разработанная исследователями из Google [3]. BERT использует методы глубокого обучения, называемые трансформирующими сетями, для кодирования текстовых данных на естественном языке в векторные представления фиксированной длины, называемые эмбеддингами.
RoBERTa - когда BERT только появился, было отмечено несколько ограничений, особенно в отношении совместного использования параметров/ переобучения, приводящих к худшим результатам по сравнению с другими подходами. Сообщество разработчиков открытого исходного кода быстро решило эту проблему, разработав RoBERTa [4]. По сути, Роберта обучалась с использованием моделей чуть большего размера, более длинных последовательностей и лучших методов оптимизации, чем те, что используются при обучении BERT.
Electra - в отличие от таких моделей, как BERT, которые используют маскированное языковое моделирование (MLM), Electra [5] использует другую задачу предварительного обучения, известную как "дискриминационное моделирование на замаскированном языке" (DMLM). В DMLM вместо маскировки токенов и их прогнозирования небольшой процент токенов во входном тексте заменяется правдоподобными альтернативами. Затем цель модели состоит в том, чтобы определить различие между исходными и замененными токенами.

В качестве алгоритмов кластеризации были выбраны HDBSCAN и OPTICS, оба алгоритма основаны на подходе плотности кластеров.

Для оценки качества будут использованы две метрики:

Индекс Дэвидса Болдина – говорит о качестве разделении и скомпонованности кластеров между собой. Чем меньше значение, тем лучше кластеры распределены.
Коэффициент силуэта – метрика качества алгоритма кластеризации. Значение близкое к 1 говорит о том, что точка хорошо расположена по отношению к своему кластеру и плохо по отношению к другим, значение -1 – говорит о том, что точка плохо соотносится со своим кластером.

Для достижения наилучшего качества, при обучении алгоритмов кластеризации происходила оптимизация параметров по коэффициенту силуэта.

Сначала были обучены алгоритмы кластеризации на основе стандартных моделей эмбеддингов, а затем были построены алгоритмы кластеризации на основе моделей эмбеддингов с использованием сиамских нейронных сетей.

В таблице 1 представлены полученные результаты без использования сиамских нейронных сетей.

Таблица 1.

Результаты моделей без сиамских нейросетей

Модель + Алгоритм кластеризации	Индекс Дэвидса Болдина	Коэффициент силуэта
Electra и HDBSCAN	1,24	0,46
Electra и OPTICS	Один кластер	Один кластер
RoBERTa и HDBSCAN	1,14	0,29
RoBERTa и OPTICS	1,22	0,18
BERT и HDBSCAN	1,35	0,25
BERT и OPTICS	0,87	0,05

В таблице 2 представлены результаты с использованием сиамских нейронных сетей при построении текстовых эмбеддингов.

Таблица 2.

Результаты моделей с сиамскими нейронными сетями

Модель + Алгоритм кластеризации	Индекс Дэвидса Болдина	Коэффициент силуэта
Electra и HDBSCAN	1,57	0,1
Electra и OPTICS	1,04	0,62
RoBERTa и HDBSCAN	1,54	0,67
RoBERTa и OPTICS	0,98	0,1
BERT и HDBSCAN	0,75	0,98
BERT и OPTICS	1,04	0,45

Как видим, для комбинаций Electra + OPTICS и BERT + HDBSCAN использование сиамских нейронных сетей при построении эмбеддингов улучшило результат для обеих метрик по сравнению со стандартным подходом, а для комбинации RoBERTa + HDBSCAN и BERT + OPTICS улучшение произошло только по коэффициенту силуэта.

Исходя из результатов проведенного вычислительного эксперимента, можно сделать вывод, что использование метода построения текстовых эмбеддингов с использованием сиамских нейронных сетей, может улучшить результаты в ряде задач. Однако стоит отметить, что данный метод требует значительных вычислительных мощностей для дообучения сиамских сетей.

Список литературы

Nils, Reimers Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks / Reimers Nils, Gurevych Iryna. — Текст : непосредственный // EMNLP. 2019.
arXiv Dataset. — Текст : электронный // Kaggle : [сайт]. — URL: https://www.kaggle.com/datasets/Cornell-University/arxiv (дата обращения: 03.06.2023).
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Devlin Jacob, Chang Ming-Wei, Lee Kenton, Toutanova Kristina. — Текст : непосредственный // NAACL. 2019.
RoBERTa: A Robustly Optimized BERT Pretraining Approach / Liu Yinhan. — Текст : электронный // arXiv : [сайт]. — URL: https://arxiv.org/abs/1907.11692 (дата обращения: 03.06.2023).
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators / Clark Kevin, Luong Minh-Thang, V. L. Quoc, D. M. Christopher. — Текст : непосредственный // ICLR. 2020.