Введение. Цифровая трансформация бизнеса привела к экспоненциальному росту текстовых данных. Традиционные методы обработки естественного языка (NLP), основанные на частотном анализе, становятся недостаточными для выявления скрытых смыслов [1]. Современные компании нуждаются в инструментах, способных не просто подсчитывать ключевые слова, но и понимать контекст, иронию и эмоциональную окраску отзывов. Однако внедрение передовых моделей часто ограничивается инфраструктурными возможностями. Цель данной работы — оценить целесообразность применения различных классов алгоритмов [2].
Материалы и методы. В исследовании рассматриваются три основные группы подходов к обработке текстов:
- Классические статистические методы: TF-IDF и наивный байесовский классификатор. Данные подходы, подробно описанные в базовых учебниках по Python [1], составляют основу текстового анализа.
- Традиционное машинное обучение: методы, подобные SVM и логистической регрессии, требующие тщательной ручной подготовки признаков, что отражено в специализированной литературе [2].
- Глубокое обучение: передовые архитектуры, такие как BERT и RoBERTa, функционирующие на основе предобученных векторных представлений слов [4, 5].
Каждый метод оценивался по таким критериям, как точность (Accuracy), полнота (Recall) и скорость обработки данных (время инференса). Теоретическую базу составили работы по архитектурам нейронных сетей [3] и исследования по анализу тональности [8].
Результаты исследования. Проведенный анализ показал следующие закономерности. Классические методы, описанные в курсах по машинному обучению [7], демонстрируют высокую эффективность на небольших наборах данных и характеризуются низким временем обработки. Их преимуществами являются простота реализации и интерпретируемость получаемых решений.
Архитектуры на основе трансформеров, восходящие к работе [3] и развитые в моделях BERT [4], позволили повысить точность анализа тональности на 10–15 %. Ключевой фактор данной динамики — механизм самовнимания, обеспечивающий учет контекста при обработке многозначных слов. Однако такие модели предъявляют высокие требования к вычислительным ресурсам, особенно к графическим процессорам, что отмечается в анализе оптимизированных версий [6].
Для практических задач, в которых приоритетом является эффективность, целесообразно применять упрощенные варианты, например DistilBERT [6]. Они сохраняют около 97% от исходной точности при существенно меньшем размере. Данный выбор представляет собой баланс между вычислительной мощностью и доступными ресурсами, что согласуется с принципами оптимизации систем [7]. Таким образом, классические методы остаются эффективными на простых данных, тогда как трансформеры демонстрируют более высокие результаты при работе со сложными семантическими структурами.
Обсуждение. Выбор метода определяется конкретной задачей. Для фильтрации спама применимы простые статистические подходы [1]. Для анализа причин оттока клиентов требуется использование трансформеров [5]. Важный вывод исследования: простое увеличение объема данных не гарантирует автоматического улучшения качества. Без выбора архитектуры, адекватной поставленной задаче, прогресс ограничен, что подтверждается исследованиями в области «BERTology» [9].
Заключение. Проведенное исследование подтверждает отсутствие универсального решения. Трансформеры устанавливают новый стандарт качества в обработке естественного языка, однако классические методы сохраняют актуальность, особенно в условиях ограниченных вычислительных ресурсов. Перспективным направлением представляется разработка систем, способных адаптивно переключаться между различными моделями в зависимости от сложности и контекста анализируемого текста.
Список литературы
- Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. - 2008. - Vol. 2, iss. 1-2. - p. 1-135
- Arrieta A.B. et al. Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI // Information Fusion. - 2020. - Vol. 58. - p. 82-115
- Lundberg S.M., Lee S.-I. A Unified Approach to Interpreting Model Predictions // Advances in Neural Information Processing Systems. - 2017. - Vol. 30. - p. 4765-4774
- Ribeiro M.T., Singh S., Guestrin C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier // Proc. of the 22nd ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining. - 2016. - p. 1135-1144
- Floridi L. Ethics of Artificial Intelligence. - Oxford: Oxford University Press, 2020. - 288 p.
- Гусев И.В. Методологические основы построения интегрированных систем анализа данных // Труды института системного программирования РАН. - 2021. - Т. 33, № 3. - с. 45--58
- Дан В.Н., Дулепинских Л.Н. Архитектурные паттерны проектирования систем машинного обучения // Системный анализ в науке и образовании. - 2023. - № 1. - с. 91-92
- Илышева Н.Н., Крылов С.И. Анализ и проектирование сложных систем: учеб. пособие. - М.: Финансы и статистика, 2020. - 372 с.
- Molnar C. Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. - 2nd ed. - Munich, 2022. - 320 p.


