В данной работе представлен комплексный анализ датасета зарплат специалистов в области Data Science за период 2020-2023 годов. Исследование проводилось с использованием современных методов анализа данных, включая описательную статистику и визуализацию с помощью библиотек Pandas, Seaborn и Plotly. Основной фокус работы направлен на выявление ключевых факторов, влияющих на уровень доходов специалистов в этой перспективной области.
Анализируемый датасет содержит информацию о более чем 3 000 специалистов и включает 11 ключевых признаков, таких как год выплаты зарплаты, уровень опыта работы, тип занятости, должность, валюта выплат, размер зарплаты в долларах США, страна проживания сотрудника, доля удаленной работы, местоположение компании и ее размер. Все зарплаты были конвертированы в доллары США для обеспечения сопоставимости данных.
Результаты анализа показывают, что средняя зарплата специалистов в области Data Science составляет около 112 298 долларов при значительном стандартном отклонении в 70 957 долларов, что свидетельствует о существенном разбросе доходов в отрасли. Минимальная зафиксированная зарплата составила 2 859 долларов, тогда как максимальная достигла 600 000 долларов. Медианное значение зарплаты находится на уровне 100 000 долларов, при этом 75% специалистов получают от 70 000 до 150 000 долларов.
Одним из наиболее значимых факторов, влияющих на уровень зарплаты, оказался опыт работы. Анализ выявил четкую зависимость: начинающие специалисты (уровень EN) получают в среднем 60 000 долларов, специалисты среднего уровня (MI) – около 95 000 долларов, опытные профессионалы (SE) –140 000 долларов, а руководители высшего звена (EX) – до 200 000 долларов. Это подтверждает важность профессионального роста и накопления опыта в данной сфере.
Географический фактор также играет существенную роль. Корреляционный анализ выявил сильную положительную связь (0.9) между местоположением компании и страной проживания сотрудника, что может объясняться предпочтением специалистов работать в компаниях, расположенных в их стране проживания. Умеренная положительная корреляция (0.43) между местоположением компании и уровнем зарплаты указывает на влияние географического фактора на доходы специалистов.
Интересные результаты получены при анализе форматов работы. Средний показатель доли удаленной работы составил 71%, при этом в 75% случаев компании предлагают от 50% до 100% удаленной работы. Это отражает современные тенденции к гибридным форматам занятости в IT-сфере.
Проведенный анализ позволяет сделать вывод о многофакторной природе формирования зарплат в области Data Science. Основными детерминантами уровня доходов выступают опыт работы, географическое положение компании и формат занятости. Полученные результаты могут быть полезны как специалистам, планирующим карьеру в Data Science, так и HR-менеджерам, занимающимся разработкой политик вознаграждения в IT-компаниях. Для более глубокого понимания динамики зарплат в отрасли перспективным направлением дальнейших исследований может стать анализ влияния конкретных профессиональных навыков и отраслевой специфики на уровень доходов специалистов.
Список литературы
- Pandas: документация // Официальный сайт Pandas. – URL: https://pandas.pydata.org (дата обращения: 28.07.2025)
- Seaborn: учебное руководство // Официальный сайт Seaborn. – URL: https://seaborn.pydata.org (дата обращения: 28.07.2025)
- NumPy: официальная документация // NumPy. – URL: https://numpy.org/doc/ (дата обращения: 28.07.2025)
- Matplotlib: руководство пользователя // Matplotlib. – URL: https://matplotlib.org/stable/users/index.html (дата обращения: 28.07.2025)
- Plotly: справочник по визуализации данных // Plotly. – URL: https://plotly.com/python/ (дата обращения: 28.07.2025)