Статья опубликована в рамках: Научного журнала «Студенческий» № 1(129)
Рубрика журнала: Экономика
Скачать книгу(-и): скачать журнал часть 1, скачать журнал часть 2, скачать журнал часть 3, скачать журнал часть 4, скачать журнал часть 5
ИССЛЕДОВАНИЕ СТАТИСТИКИ ПОСЕЩЕНИЯ САЙТА С ПОМОЩЬЮ РЕГРЕССИОННОГО АНАЛИЗА
АННОТАЦИЯ
Определение зависимости показателей влияющих на количество посетителей сайта с помощью регрессионного анализа. Проверка коллинеарности факторов, построение уравнения регрессии по полученным факторам.
Ключевые слова: регрессионный анализ, регрессия, коллинеарность.
Целью данной статьи является проведение регрессионного анализа на примере данных из статистики посещения сайта за 2 месяца, для определения зависимости показателей, влияющих на количество посетителей.
Основной особенностью регрессионного анализа является возможность с его помощью получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными. В данном случае показателем, для которого необходимо установить функциональную зависимость является посетители (Y- чел.), а за факторы взяты визиты на сайт (X1 – чел.), доля новых посетителей (X2 – чел.), отказы (X3 – чел.), глубина просмотра (X4 - минуты), просмотр с ПК (X5 – чел.), просмотр с телефона (X6 – чел.), переходя из поисковых систем (X7 – чел.), прямые заходы (X8 – чел.), переходы из социальных сетей (X9 – чел.), прочие переходы (X10 – чел.). В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y=(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10), которая наилучшим образом описывает имеющиеся данные.
Для проведения вычислений воспользуемся прикладным пакетом STSTIISTICA 12. Для начала необходимо построить корреляционную матрицу, описывающую зависимости между рассматриваемыми факторами, оценить эти зависимости, а также произвести регрессионный анализ вышеописанных факторов. Проверим коллинеарность факторов, построив матрицу парных коэффициентов корреляции. Для того чтобы определить значимые и не значимые регрессоры, была построена матрица межфакторных корреляций (рисунок 1).
Рисунок 1. Матрица парных коэффициентов корреляции
После анализа матрицы выявлено, что наибольшее влияние на количество посетителей сайта имеют факторы: Визиты - 0,975; Просмотр с ПК – 0,865; Просмотр с телефона – 0,953; Переходы из социальных сетей – 0,968.
Также из матрицы видно, что коэффициент корреляции между Визиты и Просмотр с ПК равен 0,918, что больше 0,8, данный факт говорит о тесной линейной зависимости, о коллинеарности. Также в данной модели коллинеорность присутствует между Визиты и Просмотр с телефона – 0,954; Визиты и Переходы из социальных сетей – 0,985; Просмотр с ПК и Переходы из социальных сетей – 0,880; Просмотр с телефона и Переходы из социальных сетей – 0,958. Коллинеарные факторы не стоит одновременно включать в модель, поэтому исключаем фактор Переходы из социальных сетей.
После исключения данного фактора строим матрицу парных коэффициентов корреляции повторно (рисунок 2).
Рисунок 2. Матрица парных коэффициентов корреляции после исключения коллинеарных факторов
Построим уравнение регрессии, с помощью процедуры оценивания «Пошаговая с исключением» на каждом шаге. Окончательные результаты множественной регрессии на шаге 3 представлены на рисунке 3. В модели остаются факторы Визиты, Доля новых посетителей, Глубина просмотра. Прочие факторы были исключены.
Рисунок 3. Результаты множественной регрессии
На экране результатов множественной регрессии отображается множественный коэффициент корреляции - 0,98, коэффициент детерминации - 0,97, скорректированный коэффициент детерминации - 0,96.
Значение R2 = 0,97 показывает, по сути, какая доля дисперсии отклика объясняется влиянием предикторов в построенной модели (т.е. 97%), показывает, что с помощью модели объясняется почти вся изменчивость Y.
На панели также приведены результаты дисперсионного анализа для проверки гипотезы об адекватности модели: величина F-критерия (651,71), соответствующее число степеней свободы для уравнения, стандартная ошибка оценки (2,87).
Теперь построим уравнение регрессии по полученным факторам (рисунок 4). Из данной таблицы видны значения коэффициентов регрессионного уравнения, стандартная ошибка коэффициентов, стандартные β-коэффициенты регрессионной модели, эмпирическое значение t-критерия для проверки статистической значимости соответствующего коэффициента.
Рисунок 4. Регрессия
Уравнение регрессии выглядит следующим образом:
При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или B-коэффициентом.
Получаем следующее уравнение: Y = -1,94583 + 0,53184*Визиты + 0,14374*Доля новых пользователей + 0,90187*Глубина просмотра
Можно сделать вывод о высокой связи, так как множественный R равен 0,98. Доля дисперсии объясненной регрессией (R2) составляет 97%. F-статистика равна 651,72. В результате регрессионного анализа выяснилось:
- Если число визитов на сайт увеличится на 1, то посетители сайта увеличатся на 0,53 человека при прочих неизменных факторах.
- Если доля новых посетителей увеличится на 1, то посетители увеличатся на 0,14 при прочих неизменных факторах.
- Если глубина просмотра увеличится на 1 минуту, то посетители увеличатся на 0,9 при прочих неизменных факторах.
Для лучшей интерпретации этих данных рассмотрим нормальный вероятностный график остатков (рисунок 5).
Рисунок 5. Нормальный вероятностный график остатков
Таким образом в процессе проведения регрессионного анализа на примере данных из статистики посещения сайта за 2 месяца была получена матрица межфакторных корреляций которая показала, что наибольшее влияние на количество посетителей сайта имеют факторы: Визиты - 0,975; Просмотр с ПК – 0,865; Просмотр с телефона – 0,953; После исключения в модели остаются факторы Визиты, Доля новых посетителей, Глубина просмотра. Из уравнения регрессии можно сделать вывод о высокой связи, так как множественный R равен 0,98. Доля дисперсии объясненной регрессией (R2) составляет 97%. Графики нормальный вероятностный остатков говорят об образовании прямой зависимости остатков и подчинения нормальному закону распределения.
Список литературы:
- Елисеева И.И. «Общая теория статистики» - Москва: 2005.
- Халафян А.А. «STATISTICA 6. Статистический анализ данных» учебное пособие. – Москва: 2007.
- Чернова Т.В. «Экономическая статистика» учебное пособие. - Таганрог: 1999.
Оставить комментарий