χ2(カイ2乗)分布

 

 いま赤い玉と白い玉が同数ずつたくさん入った箱をよくかき混ぜてから目隠しをして20個の玉を取ったとします。目隠しをはずし取り出した玉の数を数えたところ、赤玉が12個、白玉が8個でした。確率の教えるところによれば、箱の中の玉の種類は同数だから、ランダムに取り出される玉の種類の数は同数、すなわち、赤玉10個、白玉10個になるはずで、これが確率論的期待値です。

 

 

しかしながら、現実に取り出された玉の数(実現値)はこの期待値とずれています。そこで、このような理想と現実のずれを測る尺度として、次のような「食い違いの測度」を定義することにします。

 

             

 

 この例では箱の中の玉は赤と白の2種類だからn=2になり、実現値1は赤玉の12、実現値は白玉の8で、期待値は赤玉の10、期待値は白玉の10です。したがって、食い違いの測度は今回の実験では

 

               

 

となります。同じような実験をまた繰り返したところ、今度は赤玉が9個、白玉が11個になりました。したがって

 

               

 

となります。さらに、実験を繰り返したところ、今度は赤玉と白玉の数が期待値と同じ10個ずつになりました。この時の食い違いの測度を計算してみると

 

             

 

のように食い違いの測度が0になり、確かに食い違いがないことがわかります。

 

 さらに、めったに起こりそうにない例(赤玉20個と白玉0個、あるいはその逆)について、食い違いの測度を計算してみると

 

               

 

となり、起こりそうもない事象が起きる場合には食い違いの測度は0よりだんだん大きくなるが、この場合は20を超えることはありません。しかしながら、玉を箱からもっとたくさん取り出すような場合には食い違いの測度の上限はさらに大きくなり、極限では∞までの値を取り得ます。

 

 このような赤玉と白玉を箱からランダムに取り出す実験を無限回繰り返し、その食い違いの測度を横軸に、またその測度に相当する事象が起きた回数(度数)の相対値(確率密度)を縦軸にプロットすると、次図のような曲線が得られます。

 

 この曲線のことをχ2(カイ2乗)分布曲線と言い、期待値からのずれの度合いを判定するのに用いられます。上図で赤く示した範囲は対象となるある事象の出現確率が5%以下である範囲を示し、χ2=3.841以上の食い違いの測度が観測されたときは5%以下というめったに起こらない事象が何らかの理由で起こったと言うことになります。

 

玉の種類がもう一種増えた場合についてもχ2分布曲線を描くことができますが、その時の自由度φは、玉の種類がn=3ですから、φ=n1=312となり、またχ2の5%境界値は5.991となります。当然のことですが自由度2のχ2分布曲線は上図の自由度1のχ2分布曲線とは形が異なります。もちろん、自由度がさらに増えたχ2分布曲線も描くことができます。

 

 先ほどの例では赤玉と白玉の数は同数でしたが、箱の中の玉の種類の数の割合が異なっていても、また取り出す玉の数が違っていても、自由度が1である限り上図と同じχ2分布曲線となりますから、χ2分布曲線は確率統計学の上で汎用性のある重要な曲線となっています。

 

 自由度φのχ2分布の確率密度関数は理論的にはΓ(ガンマ)関数

 

             

 

を使った次式で表されます。

 

               

 

Γ(ガンマ)関数には次のような性質があります。

 

                1)

                2)

                3)

                4)

                5)

 

 この確率密度関数に対してプロットしたものが前掲した分布曲線(の場合)です。また、自由度1から10まで変化した場合の分布曲線は下図のようになり、自由度が大きくなると分布は正規分布に近づきます。

 

 がある値より大きくなる確率は、理論的に次式で与えられます。

 

               

 

 

 

 分布が統計学上重要な分布であることは、正規母集団(母平均μ、母分散σ2)の確率密度関数と比べて見るとよくわかります。すなわち、正規分布については

 

               

 

のような確率密度関数になっており、分布の確率密度関数

 

             

 

において、とおけば、両関数の骨格はほとんど一致することが理解できると思います。

 

 また、分布については次のような重要な性質が知られています。

1)分布の期待値と分散および標準偏差は次式で与えられます。

               

2)分布には加成性がある、すなわち、一般にがそれぞれ自由度の互いに独立な分布に従うときは

               

は自由度分布に従います。

 

 上記の性質を一般の正規分布N(μ,σ2)に拡張することができます。すなわち、いまがそれぞれ独立な正規分布N(μ,σ2)に従うとすれば、

               

は自由度分布に従います。

 

 上式の右辺の各項は、確率変数を母平均と母標準偏差で規格化した、いわゆるz−スコア

 

               

 

を2乗したものであるから、上式は

 

             

 

と簡略化され、は標準正規分布の母集団からランダムに抽出した大きさの標本の規格化確率変数の平方和と表現することもできます。

 

 一方、上式でμをで置き換えた場合も分布に従います。すなわち正規母集団からランダムサンプリングした個のデータの平方和(偏差2乗和)を母分散()で割ったものは、自由度分布に従います。したがって

 

             

 

となります。

 

 不偏分散()の定義式を考慮すれば、正規母集団からランダムサンプリングした個のデータから求めた不偏分散倍したものは、自由度分布に従います。すなわち、

 

               

 

となります。

 

 このように、分布は平方和や不偏分散と密接な関係があるため、母分散の推定や検定に利用されます。

 

3)自由度分布に従う個の確率変数からなるに関して、の時は

             

 

が近似的に標準正規分布に従うことが知られており、Fisherの近似式と呼ばれています。

 

 この近似式を利用すれば、分布のパーセント点(危険率における有意水準点)を与える表には、その値が通常自由度100までしか与えられていないが、自由度の場合は、標準正規分布表から必要とする危険率に対応する有意水準点を読みとり、上式を変形した次式

 

             

 

に、その有意水準点の値と自由度を代入することにより、危険率における自由度の有意水準点を求めることが可能となります。

 

 

(例題1)ここで、分布を利用した統計推理をしてみることにします。いまあるコーヒー喫茶店にコーヒーを飲みにやって来るお客さんの人数は1日に平均16人であることがわかっている場合、32人以上のお客さんがこの店にやって来る日数は1ヶ月のうちに何日あるかを推定してみて下さい。また、1日に8人以下しかお客さんが来ない日数は1ヶ月のうち何日あるでしょうか。

(解答)分布の平均は自由度に等しいから、この場合となります。そこで

 

             

 

となるような危険率分布のパーセント点を与える表から求めると、であることがわかります。したがって、1日に32人以上のお客さんがやって来る日数は30日×0.10=3日となります。

 

 

すなわち、1日に32人以上もコーヒーを飲みに来てくれるような盛況な日は1ヶ月に高々3日程度であることが分布から容易に推定されることになります。また、

 

             

 

となるような確率分布のパーセント点を与える表から求めると、であることがわかります。したがって、一日に8人以下しかお客さんが来ない日数は30日×(10.95)30日×0.051.5日と算出され、そのような日は1ヶ月に高々1日しかないことがわかります。

 

 

(例題2)ある高校で英語の試験を受けた生徒の中からランダムに10人を選び、その点数を調べたところ、次のようであった。この標本データを基に母分散の95%の信頼限界を求めて下さい。また、母分散の点推定も併せて行って下さい。

18       38  50  57  69  19  39  52  59  74

 

(解答)母分散の正規母集団からの個の無作為標本による

 

               

 

は自由度分布をすることはすでに明らかです。

 

いま危険率をとすれば、下図の左側と右側の確率はそれぞれとなりますが、それら確率を与える値をそれぞれとおきますと

 

上式の値が次式の範囲に入る確率はとなります。

 

               

 

変形すると

 

             

 

となり、この式から信頼率で母分散の区間推定を行うことができます。

 

 そこで、問題の標本データについては、自由度であるから、両側確率5%の限界値を分布のパーセント点を与える表から求めると、片側2.5%ずつとることになるので

 

 

となります。

 

 また、標本データの偏差平方和は

 

             

 

となるので、これらの値を下式

 

             

 

に代入すると、

 

               

 

となり、母分散95%信頼限界が求められました。

 

 また、母分散の点推定は不偏分散であるから、

 

             

 

の関係式から、

 

               

 

のように母分散の点推定値が求められます。