Агрегация данных – это сбор и группировка каких-либо данных. Говоря точнее, суть агрегирования сводится к обработке первоначальных данных и их последующим сжатием, при этом сохраняя (и даже обнаруживая новые) полезные знания. Под знаниями подразумевается обработанная информация, которая будет использоваться для принятия решений, решения задач и создания новой информации.
В тоже самое время, агрегация может рассматриваться, как преобразование высокоточных данных в более обобщенное представление. Достигается это путем применения различных операций над данными, например, определением моды – самого часто наблюдаемого значения в ряду. Это помогает определяться общие тренды и тенденции, когда детализирования выборка сильно и часто меняются, под воздействием различных факторов. Однако это имеет и свои последствия, так как упрощение и усреднение может приводить к определенным неточностям, из-за потери важной для исследования информации.
Таким образом, в процессе агрегирования наборы данных суммируются в полезные агрегаты (совокупности) для получения желаемых результатов, а также если говорить с точки зрения веб-сайта или приложения – для улучшения пользовательского опыта или самого приложения.
Процесс агрегирования в современном мире является необходимым, ввиду огромного пласта информации, которую приходится обрабатывать человеку. При этом без автоматизированных средств обработки – данный процесс уже невозможно представить.
Примеры агрегированных данных, которые собираются и используются в различных компаниях сегодня:
· Поиск среднего возраста клиента, покупающего конкретный продукт, который может помочь в поиске целевой возрастной группы для этого конкретного продукта. Вместо того, чтобы иметь дело с отдельным клиентом, рассчитывается средний возраст клиента.
· Поиск количества потребителей по странам. Это может увеличить продажи в стране с большим количеством покупателей и помочь компании улучшить свой маркетинг в стране с низким количеством покупателей. Здесь также вместо отдельного покупателя рассматривается группа покупателей в стране.
· Собирая данные от онлайн-покупателей, компания может анализировать модель поведения потребителей, успех продукта, который помогает отделу маркетинга и финансов находить новые маркетинговые стратегии и планировать бюджет.
Работу агрегаторов данных можно рассмотреть в три этапа:
· Сбор данных из различных наборов из огромной базы данных. Данные могут быть извлечены с помощью методов IoT (Internet of Things), например, через историю просмотров или постов и комментариев в социальных сетях.
· Обработка данных. После сбора данных агрегатор находит атомарные данные и агрегирует их. В технике обработки агрегаторы используют различные алгоритмы из области искусственного интеллекта или техники машинного обучения, а также может включать статистические методы обработки, такой как прогнозный анализ. Таким образом, различные полезные идеи могут быть извлечены из необработанных данных.
· Представление данных. Затем после этапа обработки данные будут представлены в обобщенном формате, который может обеспечить желаемый статистический результат с подробными и точными данными.
Существует несколько различных методов агрегации информации, включая статистические анализы, интеллектуальный анализ данных, анализ текста, а также другие технологии анализа.
Статистические анализы используются для изучения и извлечения закономерностей из больших массивов данных. Например, с помощью статистического наблюдения организовано собирается информация, на основании которой вычисляются абсолютные и относительные показатели, строятся выборки, проводятся корреляционный и регрессионный анализы и другие методы статистического анализа.
Интеллектуальный анализ данных применяется для исследования и анализа данных для получения полезной новой информации с помощью современных информационных технологий, таких, как например, машинное обучение, в которое входят кластеризация, анализ связей, анализ паттернов; искусственный интеллект, нейронные сети и прочего.
Интеллектуальный анализ текста используется для анализа текстов и извлечения структурированной информации. В данный момент данное направление в искусственном интеллекте весьма актуально, и такие крупные компании, как «IBM», «Apple» и «Microsoft» уже ведут исследования для дальнейшей автоматизации извлечения и анализа данных в контексте электронных библиотек.
В зависимости от потребностей конечного пользователя могут быть использованы различные методы агрегации информации. Они помогают пользователям быстрее получать информацию и облегчают процесс принятия решений.
Отдельно стоит подробнее рассмотреть направление интеллектуального анализа данных, а конкретно методы машинного обучения, нейронных сетей и кластеризации.
Машинное обучение подразумевает использование различных методик и алгоритмов для разработки моделей – комплексных алгоритмов, которые используются для предсказания или классификации данных. Такие модели обучаются с помощью базовых входных данных, на основании которых система осуществляет прогнозы на новых данных. Например, одна из самых распространенных задач-примеров обучения моделей – это задача классификации цветка ириса. В данной задаче алгоритм получает на вход первоначальный набор данных в виде файла, содержащий длину и ширину внутренней и наружных долей цветка, и определенный класс цветка. Затем данные разделяются на тренировочные и текстовочные, на основании которых модель «учится» и предсказывает, и в дальнейшем с высокой точностью определяет уже новые данные.
Под нейронными сетями подразумевают математические модели используемые для обработки информации. Концепция нейронной сети заключается в создании системы имитирующую поведение нервной системы животных и человека, чтобы обучить эту систему автоматически выполнять определенные задачи.
Сеть состоит из нескольких слоев, каждый из которых состоит из нейронов. Каждый нейрон принимает входные данные и выдает выходные данные. Входные данные проходят через слои и преобразуются в выходные данные, которые потом используются для решения задачи. Сеть может быть обучена с помощью правильного ответа и алгоритма обратного распространения ошибки. Это позволяет сети принимать более сложные решения и дает ей большую гибкость.
Нейронные сети используются для решения различных задач, включая прогнозирование погоды, анализ изображений, распознавание речи и многое другое. В качестве примера, можно взять нейронную сеть «Dall-E» и ее версии, который на основании текстового описания генерируют изображение.
В заключении хотел бы рассмотреть такой метод анализ данных, как кластеризация. Она используется для группировки объектов по принадлежности к определенной категории и анализа больших объемов данных, и затем представляет их в виде групп или кластеров. Это позволяет быстро и легко исследовать данные и получить ценную информацию.
Процесс кластеризации можно описать в несколько этапов. Сначала необходимо извлечь признаки из данных. Затем используются алгоритмы кластеризации для группировки объектов по признакам. На последнем этапе кластеры анализируются и интерпретируются.
Кластеризация используется в различных областях, таких как маркетинг, финансы, биология и многие другие. Она может быть полезна для поиска паттернов и трендов в данных, а также для понимания и прогнозирования поведения потребителей.
Можно выделить несколько наиболее известных методов кластеризации:
· Вероятностный подход, где каждый объект принадлежит какому-либо k-классу с определенными свойствами, например: метод k-средних, EM-алгоритм, дискриминационный анализ и др.
· Подход на основе ИИ, где организация объектов, происходит на основе функционирования искусственных нейронных сетей и эвристических алгоритмов (Нейронная сеть Кохонена, Генетический алгоритм и др.).
· Логический подход, предполагает построение иерархических деревьев решений – дендрограмм.
· Теоретико-графовый подход, использует алгоритмы упорядочивания данных, для создания древа вложенных кластеров.
Сегодня исследуется и применяется множество методов сбора и обработки информации, которые позволяют получать важные знания и используются в принятии решений в разных областях деятельности человека. Востребованность методологии интеллектуального анализа данных будет только расти, и вследствие этого количество различных программных продуктов, содержащих эти технологии, будет увеличиваться.
Список литературы
- Банки, ретейл, медицина: кто использует Data Mining и для чего – Текст: электронный // РБК: [сайт]. – URL: https://trends.rbc.ru/trends/industry/61b359739a7947c7376ef7ce (дата обращения 04.08.2023).
- Интеллектуальный анализ текста – Текст: электронный // Wikipedia: [сайт]. – URL: https://ru.wikipedia.org/wiki/Интеллектуальный_анализ_текста (дата обращения 04.08.2023).
- Топ-10 data mining-алгоритмов простым языком – Текст: электронный // Хабр: [сайт]. – URL: https://habr.com/ru/companies/iticapital/articles/262155/ (дата обращения 06.08.2023).
- Лекция 3: Методы и стадии Data Mining – Текст: электронный // ИНТУИТ: [сайт]. – URL: https://intuit.ru/studies/courses/6/6/lecture/162?page=2 (дата обращения 06.08.2023).