Третий тип сумм квадратов и параметризация дисперсионного анализа

Выбор между разными параметризациями в дисперсионном анализе кажется сложной проблемой.

Типы сумм квадратов

Пусть у нас есть модель Y ~ A + B + AB с двумя дискретными факторами и взаимодействием. Типы сумм квадратов — это всего лишь последовательность тестирования значимости факторов в этой модели. Самые часто-используемые типы сумм квадратов I, II и III. При использовании любого из них значимость взаимодействия будет проверяться всегда одинаково — по отношению к модели в которой нет взаимодействия, но есть оба фактора, т.е. SS(AB | A, B). Значимость факторов можно проверить в разном порядке.

При использовании SS type I значимость факторов проверяется последовательно — в порядке включения в модель. Сначала будет рассчитана SS(A), потом SS(B|A) и, наконец, SS(AB | A, B).

При использовании SS type II значимость факторов проверяется по сравнению с моделью, где есть другой фактор, но нет взаимодействия — это SS(A | B) и SS(B | A). При таком способе SS не будет зависеть от порядка включения факторов в модель, но будет зависеть от численности групп. Т.е. лучше, если группы будут одинаковыми.

При использовании SS type III значимость фактора проверяется по сравнению с моделью в которой есть другой фактор и взаимодействие SS(A | B, AB) и SS(B|A, AB). Статистики на это ругаются, потому что при таком способе нарушается принцип маргинальности (взаимодействие может входить в модель только если в ней есть все его составляющие). При таком способе расчета SS уже не зависит от численности групп, поэтому его часто рекомендуют использовать для несбалансированных данных.

Типы параметризации

При классическом регрессионном подходе чаще используется параметризация индикаторных переменных: коэффициенты кодируют отклонения групповых средних от среднего на базовом уровне факторов (в R это используется по умолчанию, contr.treatment).

В классическом дисперсионном анализе используется параметризация эффектов коэффициенты кодируют отклонения групповых средних от общего среднего (в R это называется contr.sum).

Как параметризация связана с типом расчета сумм квадратов?

В подавляющем большинстве случаев, оба варианта кодирования дадут одинаковый результат дисперсионного анализа. Но как только вы вдруг решите использовать SS type III, вспомнив, что он используется в большинстве статистических программ, вот тогда-то как раз бывает важно выбрать именно contr.sum.

Так вот, при contr.treatment коэффициенты не соответствуют классическому определению главных эффектов факторов (main effect, эффект фактора, усредненный по всем другим факторам). Об этом подробно и хорошо написано здесь При contr.treatment коэффициенты соответствуют простым эффектам (simple effect, эффект фактора на определенном уровне других факторов, не усредненный). На стр. 14 показано, что коэффициент, кодирующий простой эффект, кодирует одновременно еще и часть взаимодействия. У этого есть два важных следствия:

Во-первых, при наличии взаимодействия и contr.treatment автоматически возникает коллинеарность (Т.е. при проверке полной модели на коллинеарность, нужно использовать contr.sum, или трюк — проверять на коллинеарность неполную модель без взаимодействия).

Во-вторых, и это сейчас для нас главное, из-за того, что при contr.treatment коэффициенты кодируют одновременно часть взаимодействия, то при использовании SS type III получатся неправильные SS. Например, когда мы считаем SS(A| B, AB), эффект фактора A мы оцениваем, сравнивая модели A + B + AB и B + AB. Но выбрасывая фактор A мы удаляем не только главный эффект, но и часть взаимодействия (на самом деле, все даже еще немного сложнее).

Как выбрать подходящий тип расчета сумм квадратов и подходящую параметризацию?

  • Если у вас есть модель без взаимодействия, вам не нужен SS type III, в нем нет смысла.
  • Если у вас есть модель со взаимодействием и сбалансированные данные или дисбаланс не очень велик, вы можете смело использовать SS type II. И тогда не важно, какую параметризацию использовать, главное помнить про трактовку коэффициентов, а для проверки на коллинеарность — использовать модель без взаимодействия.
  • И наконец, если у вас есть модель со взаимодействием, но данные не сбалансированы, можно использовать SS type III, но обязательно в параметризации contr.sum
Марина Варфоломеева
Марина Варфоломеева
Старший преподаватель