Дисперсионный анализ

Дисперсионный анализ (англ. АNа1у8^8 ОГ УАпапсе, АNОVА) является одним из основополагающих статистических методов. Важность умения работать с его алгоритмами определяется не только теми возможностями, которые он предоставляет исследователю для самостоятельного анализа данных. Как и в случае с корреляционным анализом, изучение дисперсий переменных входит во многие более сложные статистические методы.

Дисперсионный анализ служит для проверки гипотезы о статистической значимости различий между средними величинами в нескольких группах наблюдений. Например, по результатам социологического исследования мы выявили две группы респондентов: принявших участие в последних федеральных выборах (группа 1) и проигнорировавших голосование (группа 2). Проведя описательный статистический анализ обеих групп, мы обнаружили, что они существенно различаются по средним значениям переменной «возраст». Группа «активных избирателей» в среднем значительно старше, чем группа «абсентеистов». Ниже в таблице представлены исходные данные (разумеется, в реальном исследовании объемы выборок должны быть существенно больше ). Переменная «возраст» является интервальной. Переменная «участие в выборах» относится к номинальным дихотомическим переменным и принимает всего два значения: «приял участие» («активные избиратели», код 1) или «не принял участия» («пассивные избиратели», код 2).

Возраст

Активные избиратели (код 1)

Возраст

Пассивные избиратели

(код 2)

38

23

2

76

50

2

41

19

2

57

34

2

82

45

2

63

22

2

47

33

2

58

18

2

64

22

2

71

45

2

49

27

2

43

37

2

Среднее в группе I: 57,42

Среднее в группе 2: 31,25

Теперь попытаемся ответить на вопрос: не является ли различие между средними в двух группах случайным? Насколько вероятно, что активные избиратели в среднем старше, чем пассивные, и в генеральной совокупности? Вопрос отнюдь не праздный. Убедившись в существовании значимых различий между средними, мы сможем оперировать переменными «возраст» и «участие в выборах» в терминах зависимости. Зная же значения независимой переменной («возраст») — с определенной долей статистической вероятности предсказывать значение группирующей переменной «участие в выборах». Иными словами, «возраст» может играть роль переменной-предиктора (предсказывающего фактора) при отнесении объекта к одному из классов группирующей переменной.

Сформулируем две гипотезы — нулевую и альтернативную. В соответствии с нулевой гипотезой различия средней являются случайными, зависимость между переменной «возраст» и переменной «участие в выборах» отсутствует. Альтернативная гипотеза основана на противоположном утверждении.

Вычислительная логика дисперсионного анализа базируется на разбиении общей дисперсии (вариации) переменной на две компоненты, одна из которых обусловлена случайностью, а другая связана с различием средних значений. В качестве меры «случайной ошибки» выступает сумма дисперсий переменной внутри каждой группы, которая затем сравнивается с общей дисперсией (дисперсией переменной без учета значений группирующей переменной). Проиллюстрируем эту логику на нашем примере.

1. Вычисляем отклонения от средней для группы активных избирателей (из средней вычитаем значения переменной).

2. Возводим все полученные значения в квадрат.

3. Суммируем все квадраты отклонений.

4. Повторяем те же операции для группы 2.

Теперь можно рассчитать один из элементов итоговой дисперсионной статистики — сумму квадратов ошибки (дисперсию ошибки или остаточный компонент), которая в статистических программах,

Разумеется, в реальных исследованиях все вычисления будет выполнять компьютер: модули дисперсионного анализа присутствуют во всех статистических программах. Особенно полезно будет пройти вычислительный алгоритм дисперсионного анализа, используя программу М8 Ехсе1, где для всех указанных действий имеются соответствующие функции.

Здесь и далее числа округлены до второго знака после запятой.

как правило, обозначается 88-еттот (зиш оГ здиагез еггог). Складываем сумму квадратов отклонений для группы 1 и группы 2 и получаем 3599,17.

Далее необходимо вычислить общую вариацию переменной относительно единой средней (в нашем случае — 44,3). Действуем таким же образом, как ранее, — вычисляем сумму квадратов отклонений, однако теперь уже без учета разделения наблюдений на две группы. Общая сумма квадратов отклонений составит в нашем случае 7707,33.

Вычитаем сумму квадратов отклонений ошибки из общей суммы квадратов отклонений и получаем второй элемент итоговой статистики дисперсионного анализа — так называемую «сумму квадратов эффекта» (обозначается А-еГТес1, в нашем случае — 4108,16). Это межгрупповая дисперсия — вариация зависимой переменной, «очищенная» от случайного компонента, связанного с внутригрупповой изменчивостью.

Именно отношение межгрупповой дисперсии к дисперсии ошибки (внутригрупповой дисперсии) покажет статистическую значимость средней, точнее — значимость различия между средними значениями в двух группах. Чем больше отношение межгрупповой дисперсии к внутригрупповой, тем большей значимостью обладает различие средних. Другими словами, чем меньше доля случайных ошибок, тем выше статистическая значимость.

В дисперсионном анализе отношение дисперсий показывает критерий Фишера, или Р-критерий (/А-отношение). Он проверяет, действительно ли отношение дисперсий значимо больше 1. Для вычисления Р-статистики используются показатели Л/5-еггог и М8'-еГГес1 — средние квадраты эффекта и ошибки (Меап 8диаге). Это те же 88-еггог и А-еГГес1, но преобразованные с поправкой на объем совокупности (число значений, принимаемых переменной). В нашем примере М8-еГГес1 = 88-еГГес1 = 4108,16; М8-(пох = 163,59 (значение 55-еггог — 3599,17, разделенное на число случаев в выборке — 22); Р= 25,1, т. е. существенно выше единицы.

Полезным показателем в А-статистике является также показательр, отражающий значимость Г-критерия. Это вероятность того, что при данном значении /А-критерия верна нулевая гипотеза. В обычном случае нулевая гипотеза отвергается при /?<0,05. В нашем случае р = 0,00005, и мы можем с уверенностью отвергнуть нулевую гипотезу и принять альтернативную.

Итоговая статистика для выбранного нами примера выглядит следующим образом:

Показатель

Интерпретация

Значение

88-ейес(

Межгрупповая дисперсия

4108,16

55-еггог

Дисперсия ошибки

3599,16

М8-ейес1

Межгрупповая дисперсия, скорректированная на объем выборки (в нашем случае без коррекции)

4108,16

М8-еггог

Дисперсия ошибки, скорректированная на объем выборки

163,59

Р

Отношение межгрупповой дисперсии (М8-г//гс1) и дисперсии ошибки (М8-еггог)

25,11

Р

Вероятность принятия нулевой гипотезы при данном значении Р

0,000051

На диаграмме видно, что вариации переменной в двух группах четко «разведены» в пространстве и «следуют» за средними. Уже на основании визуального ее анализа можно предположить, что нулевая гипотеза будет отвергнута. А вот типичный случай, когда отвержение нулевой гипотезы вызывает большие сомнения:

С помощью дисперсионного анализа можно также изучать влияние двух независимых переменных на зависимую, и в этом случае используется двухфакторный метод. «Принципиальная схема» двухфак-торного дисперсионного анализа в целом не очень отличается от однофакторного. В то же время ряд существенных его особенностей следует отметить. Во-первых, двухфакторный дисперсионный анализ оперирует только номинальными и порядковыми переменными. Во-вторых, он принимает в расчет возможное взаимодействие независимых переменных в их влиянии на зависимую. В силу этого формулируется три нулевые гипотезы: 1) первый фактор не влияет на зависимую переменную; 2) второй фактор не влияет на зависимую переменную; 3) взаимодействие факторов 1 и 2 в их совместном влиянии на зависимую переменную равно 0.

В примере для однофакторного дисперсионного анализа мы изучали связь между независимой переменной «возраст» и зависимой переменной «участие в выборах». Добавим еще одну независимую переменную — «пол». Это номинальная дихотомическая переменная, принимающая два значения: «мужской» (1) и «женский» (2). Переменную «возраст» необходимо преобразовать из интервальной шкалы в порядковую. С этой целью выделим возрастные группы: от 18 до 35 лет (1), от 35 до 50 лет (2), старше 50 (3). Итак, мы получили две факторные и одну зависимую переменную:

1. Возраст, значения 1 (младший), 2 (средний), 3 (старший).

2. Пол, значения 1 (мужской), 2 (женский).

3. Участие в выборах, значения 1 (участие), 2 (неучастие). Предположим, мы имеем следующие исходные данные (пример учебный):

Возраст

Участие

Пол

Возраст

Участие

Пол

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

3

2

1

3

2

1

3

- 1

2

2

3

2

2

3

2

1

3

2

2

2

3

2

2

2

2

2

2

2

3

2

2

2

3

2

Полезно представить исходные данные через комбинации сочетаний значений независимых переменных. Это удобно делать в форме таблицы, где в ячейках будут отображены соответствующие частоты зависимой переменной для состояний независимых переменных.

Участие 1

Участие 2

Возраст 1. Пол 1

1

4

Возраст 1. Пол 2

3

2

Возраст 2. Пол 1

1

4

Возраст 2. Пол 2

4

1

Возраст 3. Пол 1

4

1

Возраст 3. Пол 2

5

0

Глядя на таблицу, можно сформулировать некоторые предположения (альтернативные гипотезы):

• возраст влияет на участие в выборах (чем старше избиратель, тем он активнее);

• пол влияет на участие в выборах (женщины ходят на выборы активнее мужчин);

• сочетание пола и возраста влияет на участие в выборах. Активность мужчин с возрастом растет более интенсивно, чем активность женщин.

Проверяем наши нулевые и альтернативные гипотезы с помощью дисперсионного анализа.

А/-еГГес1

М8-еГГес1

й/-егтот

М8-егтот

1 Р

Р -

значение

Возраст

2

0,636893

24

0,184722

3,44784

0,048279

Пол

1

1,250228

24

0,184722

6,768153

0,015649

Возраст—пол

2

0,116215

24

0,184722

0,629132

0,541618

/Азначение для переменной «возраст» равно 0,04, для переменной «пол» — 0,01. В обоих случаях мы вправе отвергнуть нулевую гипотезу и признать наличие влияния, так как /КО,05. А вот в третьем случае, где речь идет о взаимодействии факторных переменных, наше предположение не набрало достаточного статистического веса: при р = 0,54 нулевая гипотеза остается в силе.