АНАЛИЗ РЕГРЕССИОННЫЙ — группа методов статистического анализа данных, предназначенных для исследования причинных связей между количественными переменными (см.). В общем виде, регрессионную зависимость можно представить в виде функции y = f (x1, x2,… xk), где у — переменная зависимая (см.), x1, x2,… xk — переменные независимые (см.) или предикторы. Если функция f является линейной, говорят о линейной регрессии, если нет — о регрессии нелинейной (см.). Наиболее популярными нелинейными моделями в социальных науках являются логарифмическая y = b ln(x) + a и экспоненциальная y = ebx+a.
В самом простом случае уравнение линейной регрессии включает две переменные y = bx+a. Если в уравнении используется несколько независимых переменных, регрессия называется множественной. Уравнение множественной линейной регрессии имеет вид y = ∑ bixi+a.
В настоящее время используются два подхода к интерпретации коэффициентов линейной регрессии bi. Согласно первому из них, bi представляет собой величину, на которую изменится предсказанное по модели значение ŷ = ∑ bixi+a при увеличении значения независимой переменной хi на одну единицу измерения; согласно второму — величину, на которую, в среднем, изменяется значение переменной у при увеличении независимой переменной хi на единицу. Свободный член уравнения регрессии a равен предсказанному значению зависимой переменной ŷ в случае, когда все независимые переменные xi = 0.
Теснота регрессионной связи измеряется коэффициентом детерминации (см.), который интерпретируется как доля дисперсии зависимой переменной y, объясненная независимыми переменными x1, x2,… xk (см.
Дисперсия объясненная). Для парной линейной регрессии коэффициент детерминации равен квадрату коэффициента линейной корреляции Пирсона (см.) r², для множественной линейной регрессии — квадрату коэффициента корреляции множественной (см.) R².
Современные регрессионные техники позволяют включать в уравнение не только количественные, но и качественные, в первую очередь дихотомические, переменные. Независимые дихотомические переменные включаются в регрессионные модели на общих основаниях. Номинальные переменные с числом градаций k > 2 подвергаются процедуре dummy-кодирования (см.), после чего могут быть включены в модель в виде набора (k — 1) независимых дихотомических переменных.
>Если дихотомическая переменная (y = 1 — «успех», y = 0 — «неуспех») является зависимой, то уравнение p = ∑ bixi+a — наиболее простой способ предсказать вероятность «успеха» (того, что событие произойдет или объект обладает требуемым качеством). К сожалению, эта простая модель отличается неустойчивостью и низкой достоверностью результатов.
Несколько более сложной, но и перспективной, является модель логистической (логит-) регрессии, в которой вероятность успеха предсказывается по формуле . Эту модель можно представить более удобной для понимания формулой ln(p/1 — p) = ∑ bixi+a. Она представляет логарифм отношения вероятности «успеха» р к вероятности «неуспеха» 1 — p как линейную функцию независимых переменных x1, x2,… xk.
>Еще одна популярная модель для дихотомической зависимой переменной — пробит-регрессия. В ней вероятность успеха предсказывается по формуле , где z — случайная величина, распределенная по нормальному закону Гаусса.
Следующим этапом развития статистического моделирования явилось обобщение логит- и пробит-моделей на порядковые и номинальные зависимые переменные с числом градаций больше двух. Они называются мультиномиальными и порядковыми логит- и пробит-моделями и пользуются большой популярностью благодаря своей высокой эффективности и устойчивости, а также развитию программных средств статистического анализа данных.
О.В. Терещенко