Журнал «Научный лидер» выпуск #21 (171), Июнь ‘24

БОЛЬШИЕ ДАННЫЕ, ОСНОВНЫЕ ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ. ПРИМЕНЕНИЕ БОЛЬШИХ ДАННЫХ В ПРЕДПРИНИМАТЕЛЬСТВЕ

Авторы публикации

Воронцова Александра ДмитриевнаФедотов Михаил Владимирович

Рубрика

Прочее

Просмотры

2296

Журнал

Журнал «Научный лидер» выпуск # 21 (171), Июнь ‘24

В данной статье предоставлены основные базовые понятия и описания терминов в области кластеризации и машинного обучения, рассматривается концепция и основная задача машинного обучения, и алгоритмы, используемые в кластерном анализе больших данных. Рассмотрены основные методы и алгоритмы, применяемые в анализе больших данных, расписаны их нюансы работы, плюсы и минусы при работе в аналитике. Также в статье рассматривается применение анализа больших данных и методов машинного обучения в предпринимательстве. Рассмотрены основные сферы применения анализа больших данных, указаны преимущества внедрения системы анализа больших данных в предприятие, какие нюансы ждут предприятия и какие моменты важны для дальнейшей слаженной работы и что ждет предприятия после внедрения результатов анализа больших данных.

машинное обучение

оптимизация

анализ

предпринимательство

бизнес

аналитика

алгоритмы

большие данные

кластеризация

кластерный анализ

кластер

Введение

Big Data — это структурированные, частично структурированные или неструктурированные большие массивы данных. Также под этим термином понимают обработку, хранение и анализ огромных объемов данных. Необходимость в понимании больших данных является общей для всех областей исследований в нынешнюю информационную эпоху. Учитывая этот огромный объем данных необходимы эффективные и действенные инструменты для анализа и выявления ценных знаний, скрытых в данных. Кластерный анализ является одним из популярных подходов к интеллектуальному анализу данных и широко используется в анализе больших данных. Цель кластеризации включает в себя задачу разделения точек данных на однородные группы таким образом, чтобы точки данных в одной группе были как можно более похожими друг на друга, а точка данных в других группах были максимально отличимы друг от друга. Грубо говоря, кластеризация используется, если есть большое количество массивов данных с разными признаками и характеристиками, но также важно и наличия сходства, иначе кластеризация на данном наборе данных будет неосуществима. Важность кластеризации зафиксирована в распознавании образов, машинном обучении, анализе изображений, поиске информации и т.д.

Основная часть

Машинное обучение является одной из широко распространённой областей в современном мире. Машинное обучение имеет дело с различными видами данных и в основном является наиболее обнадеживающей областью Больших Данных. Несмотря на то, что доступны все виды дисциплин, машинное обучение помогает решить проблемы и помочь достичь наилучших выдающихся результатов. Процесс принятия решений в машинном обучении чаще всего осуществляется алгоритмом оптимизации.

У термина Big Data есть три основных признака:

Volume, Velocity и Variety.

Volume подразумевает под собой физический размер данных, их вес и количество места, которое они занимают. Обычно данные занимают около терабайта, но это граница в больших данных. Бывают ситуации, когда объем данных меньше терабайта, но данные считаются большими из-за их разнородной структуры, из-за чего анализ требует много затрат.

Velocity. Это скорость прироста и обработки данных. Если для обработки данных достаточно одной машины, это не Big Data, число серверов в кластере всегда превышает единицу.

Variety. Разнообразие данных. Это означает, что в массиве данных данные должны быть разнообразными и не иметь четкой структуры, иначе это нельзя будет считать большими данными.

Есть еще два V – это Viability и Value. Это жизнеспособность данных и ценность данных соответственно. Первое – при большом разнообразии данных и переменных, необходимо проверять их значимость при построении модели прогнозирования. Второе – описывает как сложность информации для обработки, так и её степень важности.

Суть машинного обучения (ML) заключается в обучении искусственного интеллекта двумя способами: с учителем и без учителя и применяется в решении многих задач:

выявление угроз безопасности,
поиск месторождения полезных ископаемых,
систематизация управления производством и тд.

В свою очередь и у кластеризации существует большое количество практических применений во множестве областей и сфер. Примерами применения могут служить:

Анализ данных
Извлечение и поиск информации
Группировка и распознавание объектов

Кластерный анализ данных включает в себя следующие этапы:

Выделение характеристик
Определение метрики
Разбиение объектов на группы
Предоставление результатов

При кластеризации больших объемов данных чаще всего используют метод k-means (k-средних) или же его модификации.

Метод k-средних – это метод кластерного анализа, цель которого является разделение m наблюдений (из пространства) на k кластеров, при этом каждое наблюдение относится к тому кластеру, к центру (центроиду) которого оно ближе всего.

Ниже прописаны проблемы и недостатки данного метода:

Не гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов.
Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
Число кластеров надо знать заранее.

Иерархическая кластеризация: строит иерархическую структуру кластеров, где каждый объект начинает как отдельный кластер, а затем объединяется в более крупные кластеры на основе их сходства.

Некоторые из проблем и недостатков метода иерархической кластеризации включают:

Высокая вычислительная сложность: метод иерархической кластеризации требует вычисления расстояний между всеми парами объектов, что может быть очень ресурсоемким для больших наборов данных.
Неустойчивость к шуму и выбросам: метод иерархической кластеризации может быть чувствителен к наличию шума и выбросов в данных, что может привести к неправильному объединению кластеров или разделению одного кластера на несколько.
Проблема выбора оптимального количества кластеров: метод иерархической кластеризации не предоставляет явного способа выбора оптимального количества кластеров, исследователь должен самостоятельно принимать решение на основе визуального анализа дендрограммы или других критериев.
Неэффективность при обработке больших данных: из-за своей вычислительной сложности метод иерархической кластеризации может быть неэффективным при обработке больших наборов данных, особенно если нет возможности использовать параллельные вычисления.
Отсутствие гибкости в выборе метрики и метода связи: метод иерархической кластеризации предоставляет ограниченный выбор метрик и методов связи, что может ограничивать его способность к обнаружению различных типов кластеров.
Проблема интерпретации результатов: поскольку иерархическая кластеризация создает иерархическую структуру кластеров, интерпретация результатов может быть сложной, особенно при наличии большого количества кластеров или сложной иерархии.
Недостаточная гибкость в обработке нечисловых данных: метод иерархической кластеризации обычно применяется для числовых данных, и его применение к нечисловым данным может быть ограничено или требовать дополнительной предобработки данных.

Анализ больших данных (Big Data) стал одним из ключевых инструментов для предпринимателей в современном мире. Благодаря возможности обработки и анализа огромных объемов массивов данных, предприятия могут выявлять новые тенденции, прогнозировать поведение потребителей, оптимизировать процессы и принимать обоснованные стратегические решения.

Сферы применения анализа больших данных

Цифровая трансформация играет ключевую роль в различных отраслях бизнеса, включая маркетинг и рекламу, финансы и банковское дело, производство и логистику, здравоохранение и интернет-магазины. Давайте рассмотрим, как именно аналитика больших данных влияет на эти отрасли.

1. Маркетинг и реклама: Аналитика больших данных позволяет оптимизировать рекламные кампании, персонализировать предложения для клиентов, выявлять потребности аудитории и повышать ее вовлеченность. Эти меры повысят эффективность работы маркетологов, рекламодателей и специалистов по связям с общественностью, что, в свою очередь, приведет к увеличению прибыли предприятий, и работа по цифровизации окупится в кратчайшие сроки.

2. Финансы и банковское дело: Банки и финансовые учреждения используют аналитику данных для выявления мошенничества, прогнозирования рисков, управления портфелем и оптимизации инвестиций. В этой сфере внедренные алгоритмы обеспечат безопасность финансов, предотвратят попытки мошенничества с целью кражи информации, а также смогут анализировать и предсказывать рост или падение акций, бирж и инвестиций в целом.

3. Производство и логистика: Анализ данных помогает оптимизировать производственные процессы, управлять запасами, прогнозировать спрос и улучшать логистику. Под улучшением логистики подразумевается нахождение оптимального кротчайшего пути для улучшения маршрута, также могут учитываться нюансы безопасного перевозки груза и моменты менее травматичного производства товаров.

4. Здравоохранение: В медицине анализ больших данных используется для диагностики заболеваний, прогнозирования эпидемий, разработки персонализированных методов лечения. Если говорить о каждом перечисленном пункте конкретнее, то:

Диагностика заболеваний с внедрением машинного обучения будет осуществляться точнее и быстрее за счет результатов кластерного анализа, потенциально уменьшится вероятность постановки неверного диагноза;
Прогнозирование эпидемий. Анализ больших данных позволяет сделать прогноз и выявить тенденции и возможные причины возникновения эпидемии заболеваний;
Разработки персонализированных методов лечения также возможно с внедрением машинного обучения. Таким образом, пациенты получат более качественное обслуживание и выздоровление наступит значительно быстрее.

5. Интернет-торговля: Крупные онлайн-магазины анализируют данные о поведении покупателей, предлагают персонализированные рекомендации, оптимизируют ценообразование. За счет этого покупатели будут меньше времени тратить на поиск конкретного интересующего их товара, в следствии чего у покупателей останется больше времени на спонтанные просмотры товаров, что приведет в последующем к заказам.

6. Рекрутинг. Алгоритмы машинного обучения могут фильтровать резюме, что приведет к значительному уменьшению временных затрат работников отдела кадров. В следствии чего работа отдела будет более продуктивной.

7. Автомобилестроение и дорожное движение. Анализ больших данных позволяет спрогнозировать вероятность дорожно-транспортных происшествий в каком-то определенном участке дороги, что позволит принять меры по обеспечению безопасности на выбранном участке.

8. Госструктуры. Для государственных структур необходимо машинное обучение. Оно обеспечит не только правильный сбор статистики, но и позволит повысить безопасность граждан за счет улучшения сбора данных, что в свою очередь позволит предотвратить криминальные ситуации.

9. Аренда недвижимости. При помощи машинного обучения можно детально проанализировать поведение пользователей и, например, заметить определенные закономерности в действиях пользователь и улучшить сервис, опираясь на данных результаты.

Плюсы и минусы использования анализа больших данных

Аналитика больших данных, или использование Big Data, имеет как преимущества, так и недостатки, которые необходимо учитывать при принятии решения о внедрении этой технологии в ваши бизнес-процессы.

Преимущества использования аналитики больших данных заключаются в следующем:

1. Улучшение процесса принятия решений: аналитика больших данных помогает компаниям глубже понять своих клиентов, рынки и конкурентов, что помогает им принимать решения, основанные на фактах и данных.

2. Повышение эффективности: аналитика данных может помочь оптимизировать бизнес-процессы, улучшить качество продукции или услуг, снизить затраты и повысить производительность.

3. Персонализация: анализ больших данных позволяет компаниям создавать персонализированные предложения для клиентов, чтобы улучшить пользовательский опыт и повысить лояльность.

4. Прогнозирование и предсказание: анализ данных помогает предсказать будущие тенденции, спрос на продукты и услуги, помогая компаниям адаптироваться к изменениям на рынке.

5. Инновации: Аналитика больших данных способствует разработке новых идей, инноваций, новых продуктов или услуг.

К недостаткам аналитики больших данных относятся:

1. Конфиденциальность и безопасность: Сбор и хранение больших данных могут создавать уязвимость для кибератак и утечек информации, что требует дополнительных мер безопасности.

2. Сложность обработки: Обработка больших данных требует специализированных инструментов и навыков, что может быть затруднительно для некоторых компаний.

3. Недостаточное качество данных: некачественные данные могут привести к неправильным выводам и принятию неверных решений, поэтому важно убедиться в качестве данных перед их анализом.

4. Стоимость: Внедрение системы анализа больших данных требует значительных инвестиций в оборудование, программное обеспечение и обучение персонала.

5. Нормативные ограничения: Сбор и использование больших данных регулируется законами о защите информации, что может создать дополнительные проблемы для организаций.

В целом, использование аналитики больших данных имеет большой потенциал для улучшения бизнес-процессов и принятия решений, но перед внедрением необходимо тщательно взвесить все "за" и "против".

Реализация анализа больших данных в предприятии

1. Выбор подходящих инструментов и технологий: Предприятие должно выбрать соответствующие инструменты для сбора, хранения, обработки и визуализации данных (например, Hadoop, Spark, Tableau) для обеспечения полноценных условий для правильной работы аналитиков.

2. Обучение персонала: Необходимо обучить сотрудников работе с инструментами анализа данных или привлечь специалистов по аналитике данных.

3. Определение целей и задач: Предприятие должно четко определить цели использования анализа данных и задачи, которые необходимо решить. Возможно предприятие будет вынуждено потратить какое-то неопределенное время для реализации данного пункта.

4. Постоянное обновление и оптимизация системы: Важно постоянно обновлять данные, алгоритмы и методы анализа для достижения наилучших результатов.

Должности, работающие с большими данными.

Для продуктивной работы предприятий необходимо обучение, а лучше внедрение новых сотрудников, умеющих работать с большими данным. Среди таких должностей есть:

Дата-сайентисты. Это такие сотрудники, которые занимаются непосредственно анализом больших данных. Они ищут закономерности, занимаются построением модели, на базе чего и будет составлен прогноз.
Аналитики данных. Данный вид сотрудников необходим для интерпретаций моделей, созданных дата-сайентистами, в более простой вид, для того чтобы другие члены компании, не занимающиеся большими данными, поняли результаты прогноза.
Дата-инженер. Этот сотрудник занимается техническими вопросами анализа больших данных и машинного обучения. Он занимается созданием программного обеспечения и написанием алгоритмов автоматизации. Без таких инструментов большие данные были бы бесполезны, так как их объемы невозможно обработать.

Таким образом, понимание термина Big Data и умение работать с такими данными становятся все более важными для специалистов в различных областях. Развитие технологий Big Data открывает новые возможности для улучшения бизнес-процессов, научных исследований и повышения качества жизни.

Заключение

Таким образом можно сделать вывод, что классификация является неотъемлемой составляющей грамотного анализа данных, работы над ними, структуризации и дает возможность делать необходимые выводы, которые помогу улучшить информационный поток данных на предприятии. Также данный обзор дает достаточно хорошее понимание о сущности классификации, где и как применяется и какие могут быть положительные стороны использования рассмотренного метода, а также представлены возможные сложности и проблемы в работе с рассматриваемым методам анализа больших данных.

Плюсы применения больших данных:

- Повышение эффективности бизнес-процессов

- Увеличение конкурентоспособности предприятия

- Принятие обоснованных стратегических решений

- Повышение уровня обслуживания клиентов

- Выявление скрытых тенденций и возможностей

Минусы применения больших данных:

- Сложность обработки и анализа огромных объемов данных

- Необходимость специализированных технических знаний и инструментов

- Проблемы с защитой конфиденциальности данных

- Возможность ошибочных выводов из-за неправильного анализа

Список литературы

Ли, Й., Чен, С. и Чжао, С. (2020) "Классификация и кластеризация коротких текстов на основе метода идентификации трафика мобильных приложений", Журнал физики: Conference Series, 1616(1), p. 012109. С.2. https://doi.org/10.1088/1742-6596/1616/1/012109
Alho, L. et al. (2020) "Классификация пропускной способности мобильной сети на основе машинного обучения", arXiv.org. С.4. https://arxiv.org/abs/2004.13148
Дюканж, П., Фаззолари, М. и Марчеллони, Ф. (2020) "Обзор последних распределенных алгоритмов для обучения нечетких моделей при классификации больших данных", Journal of Big Data, 7(1). С.3. https://doi.org/10.1186/s40537-020-00298-6
G, C. и Roogi, J.M. (2021) "A quick review of ML algorithms," 2021 6th International Conference on Communication and Electronics Systems (ICCES) [Preprint]. С.2. https://doi.org/10.1109/icces51350.2021.9488982
Богатые данными и богатые информацией - часть 1 из 2, Перцептрон. С.3. URL: https://perceptron.com/data-rich-and-information-rich/