分散分析の仕組み
分散分析は母集団の分散成分を求めるのに使われる統計的手法であるが、その手法はどのようなものであるのかということについて簡単な例で見てみることにします。
いま、男と女の2つのグループ(各5人ずつ)にアーモンドチョコレート1箱(10個入り)を与えて、好きな数だけ1分間に食べて貰うことにしました。その結果各人が食べた個数は次表のような結果になりました。
|
男 |
女 |
1 |
4 |
9 |
2 |
4 |
2 |
3 |
5 |
6 |
4 |
3 |
10 |
5 |
4 |
3 |
総計 |
20 |
30 |
平均 |
4 |
6 |
この結果を見ると女性の方が平均個数が多いのですが、男性に比べて女性の方がたくさん食べる人と少ない人がいるので、平均が多いからと言ってほんとうに女性は男性よりアーモンドチョコレートが好きかどうかわかりません。そこで統計学を駆使して1因子実験(一元配置実験)モデルの分散分析を行ってその真相を調べることにします。
まず、上記の生データの総平均を求めると5になるので、生データを次図のようにばらつかない部分(総平均)とばらつく部分に分けます。ついで、ばらつく部分(生データ−総平均)の中で男女差によるばらつき(男の平均/女の平均−総平均)と偶然誤差によるばらつき(生データ−男の平均/女の平均)に分けます。偶然誤差によるばらつきとは、その日の調子によって好きなアーモンドチョコレートだがたまたま胃の調子が悪くて食べられないなどの偶発的な結果が好き嫌いとは別に誤差となって生データに入り込むことがあるだろうと言うことです。そこで、このようにアーモンドチョコレートの好き嫌いに男女差があるかどうかを判定するためには、生データから偶然誤差によるばらつき部分を除去して男女差だけによるばらつき部分を抽出したわけです。すなわち、生データはばらつかない部分である総平均とばらつく部分である男女差および偶然誤差の三つの部分に分解することができました。
生データを見ると女性の方が男性より平均してアーモンドチョコレートが好きそうではあるが、女性のデータは非常にばらついているのでたまたま偶然によってこのようなデータが得られたのかも知れないということも考えられます。
あるいは、男女差によるばらつきが偶然誤差によるばらつきよりも大きければアーモンドチョコレートの好き嫌いに男女差があり、確かに女性の方が好きであろうという結論を下すことができます。
そこで、男女差によるばらつきと偶然誤差によるばらつきを数量化することにします。すなわち、上述の生データを分解したデータ(偏差データ)を使って分散分析を行うことにします。そのためには、まず、それぞれのばらつきの不偏分散を求めることにします。
であるから、それぞれのばらつきについてその偏差平方を求めると、
次に、不偏分散を求めるためにはそれぞれのばらつきに対応した自由度を求めなければならない。男女差によるばらつきについては男の平均と女の平均の2つのデータが用いられているが総平均で引いたものを使っているから自由度が1つ減って2−1=1となります。また、偶然誤差によるばらつきは10個のデータを使っているが男の平均と女の平均という2つの値が使われているので自由度は2つ減って10−2=8となります。そこで、それぞれの不偏分散を計算してみると
ここで、,はそれぞれ男女差と偶然誤差によるばらつきのデータ数に対応した自由度です。一般にp列n行の一因子実験(一元配置実験)の自由度は
ですから、この調査の場合、ですから、
となります。
二つの不偏分散の比(F値と言います)をとってみると
確かに男女差が偶然誤差によるばらつきよりも1.538倍大きいのでアーモンドチョコレートの好き嫌いには男女差があるように思えるが、ほんとうにそうだろうか?そこで、分子の自由度が1で分母の自由度が8のF分布の5%点の値を調べてみる(偶然誤差の他に男女差という因子の主効果があれば、分子の不偏分散(期待値は「主効果による分散」項+「偶然誤差による分散」項)は偶然誤差だけによる分母の不偏分散(期待値は「偶然誤差による分散」項)よりもいつも大きくなるから右片側検定)と、
となります。ここで、「H0:男女差がない」という帰無仮説が棄却(したがって対立仮説「H1:男女差がある」を採択)できるためには、不偏分散比F値が危険率5%のF分布の境界値よりも大きくなければいけないが、実際に得られた不偏分散比F値は1.538であり、5%F境界値5.318より小さく、したがってアーモンドチョコレートの好き嫌いには男女差がないという帰無仮説を危険率5%で捨て切れないので、この調査からはアーモンドチョコレートの好き嫌いには男女差はないであろうと結論付けられます。
このように分散分析のF検定は分子の不偏分散に主効果による分散が含まれるかどうかを分母の不偏分散に対して検定(帰無仮説に対して対立仮説で検定)するためいつも右片側検定になります。上述の例では
分子 = 男女差によるばらつきに起因する不偏分散
分母 = 偶然誤差によるばらつきに起因する不偏分散
なので、いま、ある確率変数の期待値をで表すことにすれば
となり、結果として、対立仮説はいつもとなります。
また、このような期待値の関係式を使えば、上述の例では
(偶然誤差による分散)の推定値 =
(男女差という主効果による分散)の推定値 =
=
と数学的にはなりますが、F値の統計的仮説検定より男女差という主効果はないとの結論が95%の信頼率(すなわち5%の危険率)で得られているので、偶然誤差による分散はなく、すべて偶然誤差による分散とする方がよいと考えられます。
したがって、この例では、すべてのデータを同等に扱い、全データのそれぞれの値から総平均5を引き、その得られた値の2乗和をとってから、自由度で割れば、母分散の推定値が求められます。すなわち
となり、上述の各分散を数学的に足した値より小さくすることができます。このようにF検定で主効果が認められなかった場合はそれぞれの平方和をプールして算出される分散値を採用する方が母分散を小さくできる利点があります。もちろん、F検定において主効果が認められる場合には、このようなプーリングはできず、
(母分散)の推定値 = (主効果による分散)の推定値
+(偶然誤差による分散)の推定値
となります。