Применение методов агрегации в информационных системах

Применение методов агрегации в информационных системах

Авторы публикации

Рубрика

Информационные технологии

Просмотры

99

Журнал

Журнал «Научный лидер» выпуск # 30 (128), Август ‘23

Дата публикации 07.08.2023

Поделиться

Данное исследование рассматривает значимость и применение методов агрегации данных в современных информационных системах. Статья посвящена главным современным методам агрегации данных и их применению в информационных системах.

Агрегация данных – это сбор и группировка каких-либо данных. Говоря точнее, суть агрегирования сводится к обработке первоначальных данных и их последующим сжатием, при этом сохраняя (и даже обнаруживая новые) полезные знания. Под знаниями подразумевается обработанная информация, которая будет использоваться для принятия решений, решения задач и создания новой информации.

В тоже самое время, агрегация может рассматриваться, как преобразование высокоточных данных в более обобщенное представление. Достигается это путем применения различных операций над данными, например, определением моды – самого часто наблюдаемого значения в ряду. Это помогает определяться общие тренды и тенденции, когда детализирования выборка сильно и часто меняются, под воздействием различных факторов. Однако это имеет и свои последствия, так как упрощение и усреднение может приводить к определенным неточностям, из-за потери важной для исследования информации.

Таким образом, в процессе агрегирования наборы данных суммируются в полезные агрегаты (совокупности) для получения желаемых результатов, а также если говорить с точки зрения веб-сайта или приложения – для улучшения пользовательского опыта или самого приложения.

Процесс агрегирования в современном мире является необходимым, ввиду огромного пласта информации, которую приходится обрабатывать человеку. При этом без автоматизированных средств обработки – данный процесс уже невозможно представить.

Примеры агрегированных данных, которые собираются и используются в различных компаниях сегодня:

· Поиск среднего возраста клиента, покупающего конкретный продукт, который может помочь в поиске целевой возрастной группы для этого конкретного продукта. Вместо того, чтобы иметь дело с отдельным клиентом, рассчитывается средний возраст клиента.

· Поиск количества потребителей по странам. Это может увеличить продажи в стране с большим количеством покупателей и помочь компании улучшить свой маркетинг в стране с низким количеством покупателей. Здесь также вместо отдельного покупателя рассматривается группа покупателей в стране.

· Собирая данные от онлайн-покупателей, компания может анализировать модель поведения потребителей, успех продукта, который помогает отделу маркетинга и финансов находить новые маркетинговые стратегии и планировать бюджет.

Работу агрегаторов данных можно рассмотреть в три этапа:

· Сбор данных из различных наборов из огромной базы данных. Данные могут быть извлечены с помощью методов IoT (Internet of Things), например, через историю просмотров или постов и комментариев в социальных сетях.

· Обработка данных. После сбора данных агрегатор находит атомарные данные и агрегирует их. В технике обработки агрегаторы используют различные алгоритмы из области искусственного интеллекта или техники машинного обучения, а также может включать статистические методы обработки, такой как прогнозный анализ. Таким образом, различные полезные идеи могут быть извлечены из необработанных данных.

· Представление данных. Затем после этапа обработки данные будут представлены в обобщенном формате, который может обеспечить желаемый статистический результат с подробными и точными данными.

Существует несколько различных методов агрегации информации, включая статистические анализы, интеллектуальный анализ данных, анализ текста, а также другие технологии анализа.

Статистические анализы используются для изучения и извлечения закономерностей из больших массивов данных. Например, с помощью статистического наблюдения организовано собирается информация, на основании которой вычисляются абсолютные и относительные показатели, строятся выборки, проводятся корреляционный и регрессионный анализы и другие методы статистического анализа.

Интеллектуальный анализ данных применяется для исследования и анализа данных для получения полезной новой информации с помощью современных информационных технологий, таких, как например, машинное обучение, в которое входят кластеризация, анализ связей, анализ паттернов; искусственный интеллект, нейронные сети и прочего.

Интеллектуальный анализ текста используется для анализа текстов и извлечения структурированной информации. В данный момент данное направление в искусственном интеллекте весьма актуально, и такие крупные компании, как «IBM», «Apple» и «Microsoft» уже ведут исследования для дальнейшей автоматизации извлечения и анализа данных в контексте электронных библиотек.

В зависимости от потребностей конечного пользователя могут быть использованы различные методы агрегации информации. Они помогают пользователям быстрее получать информацию и облегчают процесс принятия решений.

Отдельно стоит подробнее рассмотреть направление интеллектуального анализа данных, а конкретно методы машинного обучения, нейронных сетей и кластеризации.

Машинное обучение подразумевает использование различных методик и алгоритмов для разработки моделей – комплексных алгоритмов, которые используются для предсказания или классификации данных. Такие модели обучаются с помощью базовых входных данных, на основании которых система осуществляет прогнозы на новых данных. Например, одна из самых распространенных задач-примеров обучения моделей – это задача классификации цветка ириса. В данной задаче алгоритм получает на вход первоначальный набор данных в виде файла, содержащий длину и ширину внутренней и наружных долей цветка, и определенный класс цветка. Затем данные разделяются на тренировочные и текстовочные, на основании которых модель «учится» и предсказывает, и в дальнейшем с высокой точностью определяет уже новые данные.

Под нейронными сетями подразумевают математические модели используемые для обработки информации. Концепция нейронной сети заключается в создании системы имитирующую поведение нервной системы животных и человека, чтобы обучить эту систему автоматически выполнять определенные задачи.

Сеть состоит из нескольких слоев, каждый из которых состоит из нейронов. Каждый нейрон принимает входные данные и выдает выходные данные. Входные данные проходят через слои и преобразуются в выходные данные, которые потом используются для решения задачи. Сеть может быть обучена с помощью правильного ответа и алгоритма обратного распространения ошибки. Это позволяет сети принимать более сложные решения и дает ей большую гибкость.

Нейронные сети используются для решения различных задач, включая прогнозирование погоды, анализ изображений, распознавание речи и многое другое. В качестве примера, можно взять нейронную сеть «Dall-E» и ее версии, который на основании текстового описания генерируют изображение.

В заключении хотел бы рассмотреть такой метод анализ данных, как кластеризация. Она используется для группировки объектов по принадлежности к определенной категории и анализа больших объемов данных, и затем представляет их в виде групп или кластеров. Это позволяет быстро и легко исследовать данные и получить ценную информацию.

Процесс кластеризации можно описать в несколько этапов. Сначала необходимо извлечь признаки из данных. Затем используются алгоритмы кластеризации для группировки объектов по признакам. На последнем этапе кластеры анализируются и интерпретируются.

Кластеризация используется в различных областях, таких как маркетинг, финансы, биология и многие другие. Она может быть полезна для поиска паттернов и трендов в данных, а также для понимания и прогнозирования поведения потребителей.

Можно выделить несколько наиболее известных методов кластеризации:

· Вероятностный подход, где каждый объект принадлежит какому-либо k-классу с определенными свойствами, например: метод k-средних, EM-алгоритм, дискриминационный анализ и др.

· Подход на основе ИИ, где организация объектов, происходит на основе функционирования искусственных нейронных сетей и эвристических алгоритмов (Нейронная сеть Кохонена, Генетический алгоритм и др.).

· Логический подход, предполагает построение иерархических деревьев решений – дендрограмм.

· Теоретико-графовый подход, использует алгоритмы упорядочивания данных, для создания древа вложенных кластеров.

Сегодня исследуется и применяется множество методов сбора и обработки информации, которые позволяют получать важные знания и используются в принятии решений в разных областях деятельности человека. Востребованность методологии интеллектуального анализа данных будет только расти, и вследствие этого количество различных программных продуктов, содержащих эти технологии, будет увеличиваться.

Список литературы

  1. Банки, ретейл, медицина: кто использует Data Mining и для чего – Текст: электронный // РБК: [сайт]. – URL: https://trends.rbc.ru/trends/industry/61b359739a7947c7376ef7ce (дата обращения 04.08.2023).
  2. Интеллектуальный анализ текста – Текст: электронный // Wikipedia: [сайт]. – URL: https://ru.wikipedia.org/wiki/Интеллектуальный_анализ_текста (дата обращения 04.08.2023).
  3. Топ-10 data mining-алгоритмов простым языком – Текст: электронный // Хабр: [сайт]. – URL: https://habr.com/ru/companies/iticapital/articles/262155/ (дата обращения 06.08.2023).
  4. Лекция 3: Методы и стадии Data Mining – Текст: электронный // ИНТУИТ: [сайт]. – URL: https://intuit.ru/studies/courses/6/6/lecture/162?page=2 (дата обращения 06.08.2023).
Справка о публикации и препринт статьи
предоставляется сразу после оплаты
Прием материалов
c по
Остался последний день
Размещение электронной версии
Загрузка материалов в elibrary
Публикация за 24 часа
Узнать подробнее
Акция
Cкидка 20% на размещение статьи, начиная со второй
Бонусная программа
Узнать подробнее