統計的仮説検定(信頼区間、信頼率、危険率、検出力、第一種および第二種の過誤)
母平均がで母分散がの母集団からの大きさの任意標本を抽出したとき、母集団がどんな分布であろうともが大きければ()中心極限定理により、その標本平均は、下図のように、平均がで分散がの正規分布に近似できることが知られています。
上図で見られるように、母集団から無作為抽出をした大きさの標本の平均は母平均を中心としてまで分布し得ることがわかります。しかし、標本平均の値が母平均から離れるほどその実現確率は小さくなりがの極限ではとなり、その場合は決して実現しそうもない標本平均の値だと言えます。したがって、実際問題として標本平均がどの程度なら実現可能な値であろうかという推定が必要になってきますが、その問題を解決する前に統計的判断の基本的考え方に触れておくことにします。
そこで、日本古来から伝わる丁半賭博を例にして統計的判断を考えてみることにします。サイコロを振って丁か半が出る確率はイカサマをしなければ何回振ってもその確率はであることは経験的にも理論的も知られています。しかし、サイコロを2回続けて振ったときにたまたま丁丁あるいは半半と続けて同じ目が出る場合も偶然にはあり得ることも考えられ、その確率はです。同様に3回続けて振ったときに偶然に丁丁丁あるいは半半半と出る確率はとなり、一般に回続けてサイコロを振ったときに偶然丁ばかりあるいは半ばかりの目が出る確率はとなります。
いま、読者の二人(甲と乙)が運悪く丁半賭博をするはめに陥り、二人ともなけなしのお金を勝負の度にいつも半に賭けたものと仮定します。この賭博場の謳い文句はクリーンなイメージの「イカサマはいない」(仮説)というものでした。が、しかし、現実には、最初の5回までの勝負では謳い文句通りイカサマは行われなかったのですが、たまたまその日は丁ばかりの目が続き、6回目以降はサイコロに細工をしていつも丁が出るようなイカサマをしていたとします。このとき、甲と乙のとった行動が統計的判断の考え方の基本となります。甲は生来アワテモノのせいか丁半勝負を始めてまだ2回しか丁が続かないのに、この賭博はイカサマであると判断し席を蹴って退場しました。これはイカサマをしていないという事実(仮説)が正しいのにイカサマをしているといった誤った判断をアワテテしてしまった過誤(error)であり、これを「第一種の過誤」(アワテモノの誤り、 Type T errorあるいはerror of the first kind)と言います。それに対し、乙は生来ボンヤリモノのせいか、丁半勝負を始めてから10回も丁の目が続いて出ているのに、博打だからまあそんなこともあるだろうとちっともイカサマに気付かない様子で、お金がすってんてんになるまで何度も半を賭け続けていました。もちろん乙の考え方は確立統計の理論からすれば10回続けて丁の目が出る確率はだけはあり得るわけですから、謳い文句(仮説)通りイカサマが全く行われていなかったなら、この乙の判断には間違いがなかったと言えますが、現実には6回目以降の丁半勝負ではイカサマが行われており事実は仮説とは違うのに、その仮説をいつまでも正しいと判断したボンヤリモノの乙の判断にはやはり重大な過誤がります。このような事実は間違っている(仮説は正しくない)のに仮説を正しいと判断する過誤のことを「第二の過誤」(ボンヤリモノの誤り、 Type U errorあるいは error of the second kind)と言います。そして、甲乙いずれもその犯した過誤の時点での確率のことを「危険率」(critical rate)と統計学では呼んでいます。すなわち、甲の危険率(甲が第一種の過誤を犯す危険率)はであり、乙の危険率(乙が第二種の過誤を犯す確率)はということです。
この事実と判断の関係を表にすると下表のようになります。いつも判断が事実に等しければいいのですが、統計的判断ではある危険率で第一種の過誤や第二種の過誤を犯す可能性があります。つまり、第一種の過誤も第二種の過誤も同時に起こさないような判断は難しいということです。すなわち、本来どちらの過誤もできるだけ小さくなるような判断ができればいいのですが、現実にはある一定のデータ数では第一の過誤を小さくするとそれに応じて第二種の過誤は大きくなります。そこで、統計学で行う仮説検定は、第一種の過誤を犯す確率(危険率)を決めて判断し、第二種の過誤については評価を行わないのが普通ですが、その場合、データのバラツキ(分散)を減らすことととデータの数を増やすことによって、すなわち、を小さくすることによって、第二種の過誤を少なくすることができます。
事実
仮説は正しいと判断する
仮説は誤りと判断する
仮説は正しい
○
第一種の過誤(アワテモノの誤り)
仮説は誤り
第二種の過誤(ボンヤリモノの誤り)
○
さて、いよいよ本題に戻ることにしましょう。上図は母平均がで母分散がの母集団からの大きさの任意標本を抽出したときの標本平均の分布(正規分布を表していますが、標本平均の値が母平均から離れれば離れるほど急速にその実現確率は小さくなりではとなって実現性は全くあり得ないことになってしまいます。そこで、の値が標本の平均としてどの程度までが許容できる限界かを決める必要がありますが、わたしたちは経験的に以下の確率しかない値はめったに起こりそうにもない実現値であろうと考えるのが妥当とみなします。すなわち、上図では両側併せてになるところですから片側ずつにすると以下になるが実現しそうにない値だと言えます。この限界点のことを信頼限界と呼び、上図では信頼上限はであり信頼下限はとなります。1.96という数字は正規分布のパーセント点の表で0.025に相当する値です。すなわち、標本平均の95%信頼区間(confidence interval)は
あるいは
となります。したがって、上図の標本平均はこの区間内に入っているから採択可能な標本平均であり、標本平均はこの区間外にあるから棄却すべき標本平均であると言えます。ただし、そのような判断をしたときに第一種の過誤を犯す危険率は5%であるということになります。
このような信頼区間についての関係式を変形すると
という関係式が得られますが、これは標本平均から95%の信頼率で母平均の信頼区間を推定することができるということと同じになります。
ここで、変数を規準変数で変換すると
のようになるが、この変数もまた下図のような標準正規分布をするので、この図で信頼区間を決める方がわかりやすいかも知れません。
ちなみに、棄却域(rejection region)に相当する確率のことを「危険率」(critical rate)と言うが、判断の基準となる確率という意味で「有意水準」(significance levelあるいはlevel of significance)と呼ぶこともあります。また、これとは逆に採択域(acceptance region)はに相当する確率であり、この確率のことを信頼率あるいは信頼係数(confidence coefficient)と呼んでいます。それでは、有意水準が5%というのはどういうことを意味しているかというと、原則として棄却することを予測して立てた仮説(このような仮説のことを帰無仮説(null hypothesis)と言い、通常という記号を使います)を棄却したとしても、そのことによる誤りは5%以下であるということです。言い換えれば、本当は帰無仮説が正しかったにもかかわらず、それを棄却することによって誤り(第一種の過誤)を犯すかも知れない危険を100回のうち5回までは認めてもいいということと同じですので、有意水準のことを危険率と言う場合が多いのです。帰無仮説(たとえば、)に対し、となるような仮説のことを対立仮説(alternative hypothesis)と呼びという記号を用います。当然、帰無仮説を棄却する場合は対立仮説を採用することになります。
このように、統計的仮説検定においては、帰無仮説が正しいにもかかわらずそれを棄却してしまう誤りが第一種の過誤であり、一般にこの誤りの確率をという記号で表し、こののことを危険率と呼んだり有意水準と呼んだりします。また、その確率に相当する規準変数上の点のことを有意水準点と呼んでいます。したがって、危険率や有意水準というのは第一種の過誤を犯す確率であると簡潔に言うこともできます。これに対し、対立仮説が正しい(帰無仮説は誤り)のにそれを検出できないのが第二種の過誤で、その確率を記号を使って表すのが一般的です。また、に相当する確率のことを「検出力」と呼んでいます。
統計的仮説検定における危険率(有意水準)、信頼率、第二種の過誤を犯す確率、および検出力の関係は下図に示してあります。
いま、ある母集団の母平均がに等しいという帰無仮説を立て、対立仮説として(すなわち、真の母平均は帰無仮説で仮定した値よりだけ大きい)を信頼率で大きさの任意標本について仮説検定してみることにします。この場合、対立仮説がなので右片側検定をすることになります。したがって、危険率に相当する有意水準点は正規分布曲線上のになり、この点より右側の黒い部分が帰無仮説の棄却域になり、対立仮説を採択することになります。また、この点より左側の部分はすべて帰無仮説が棄却できず、帰無仮説を採択することになります。しかしながら、上図で見るように、対立仮説であるが真実であったとすると、正規分布曲線上の点より左側の部分(影の部分)の標本平均は正規分布曲線の帰無仮説採択域に入ってしまい、帰無仮説が正しくない(対立仮説が正しい)のに帰無仮説が正しいという間違った判断(第二種の過誤)をしてしまうことになります。すなわち、正規分布曲線上の影の部分が第二種の過誤を犯す確率に相当するわけです。そして、正規分布曲線上の斜線部分が検出力になります。検出力を上げれば相対的に第二種の過誤を犯す確率を下げることができるので、次に検出力を高めるにはどうしたらよいかを考えます。
正規分布の検出力に対応する正規分布の有意水準点は正規分布の右片側検定の点であるから
となります。一方、この点は正規分布曲線上にあるから、この確率の始点に相当する規準変数の値をとすれば
となるので、の関係を考慮してを求めると
となります。
ここで、正規分布の標本平均を規準変数に変換して
とすれば、検出力は正規分布の規準変数が正規分布の棄却域に落ちる確率、すなわち、だから
となります。検出力を高めるためには確率を大きくすればよいので、一定の条件下では
という条件を満たせば、検出力が高まり、相対的に第二種の過誤を犯す確率を小さくできることがわかります。
上述の統計的仮説検定は片側検定の場合を想定して行ったが、両側検定の場合も考慮しておく必要があるでしょう。両側検定の場合は、ある母集団の母平均がに等しいという帰無仮説を立て、対立仮説として(すなわち、真の母平均は帰無仮説で仮定した値とは違っている)を信頼率で大きさの任意標本について仮説検定することになります。この場合、対立仮説がなので両側検定をすることになります。したがって、危険率に相当する有意水準点は、下図の正規分布曲線上のとになり、この点より右側の黒い部分および点より左側の黒い部分が帰無仮説の棄却域になり、対立仮説を採択することになります。また、この点と点にはさまれた部分はすべて帰無仮説が棄却できず、帰無仮説を採択することになります。
しかしながら、上図で見るように、対立仮説である(ととえば真の母平均は帰無仮説の値よりだけずれている)が真実であったとすると、正規分布の母平均が明らかに正規分布の棄却域に入っている(したがって、が正しい)にもかかわらず、正規分布曲線上の点より右側の部分(影の部分)の標本平均は正規分布曲線の帰無仮説採択域に入ってしまい、帰無仮説が正しくない(対立仮説が正しい)のに帰無仮説が正しいという間違った判断(第二種の過誤)をしてしまうことになります。すなわち、正規分布曲線上の影の部分が第二種の過誤を犯す確率に相当するわけです。そして、正規分布曲線上の斜線部分が検出力になります。検出力を上げれば相対的に第二種の過誤を犯す確率を下げることができます。
片側検定の場合と同じように、両側検定の場合についても検出力を求めてみることにします。正規分布の検出力に対応する正規分布の有意水準点とはそれぞれ正規分布の両側検定の点であるから
となります。一方、この点と点はいずれも正規分布曲線上にあるから、この確率の始点に相当する規準変数の値をおよびとすれば
となるので、の関係を考慮してとを求めると
となります。
ここで、正規分布の標本平均を規準変数に変換して
とすれば、検出力は正規分布の規準変数が正規分布の棄却域に落ちる確率、すなわち、確率および確率の総和だから
となります。
標本の大きさによって検出力がどのように変わるのかを危険率の両側検定の条件下でを関数にしてプロットしたものを下図に示します。検出力曲線の逆がOP曲線(オペレーション曲線)です。OP曲線はが統計パラメーターによってどう変わるかをプロットしたもので、抜き取り検査に使用されます。
たとえば、母平均の差が母分散程度()である場合は検出力曲線と赤線の交点の読みから、標本の大きさがのときは検出力は約60%、のときは約85%、のときはほとんど100%近くになることがわかります。また、母平均の差が母分散の2倍以上()である場合は、標本の大きさがであっても検出力はほぼ100%になり、第二種の過誤を犯す可能性はほとんどない()ことがわかります。
(例題)母集団は正規分布であり、母分散は既知であるとします。このとき
という条件の下で、有意水準5%で仮説検定を行い、標本の大きさについて検出力を計算してみましょう。ただし、母平均の差は母分散程度であったと仮定します。
(解答)仮説およびの有意水準5%の棄却域は、両側検定であるので
となります。真の母平均がであるとき、標本平均がこの棄却域に落ちる確率すなわち検出力は
となるが、ここで
とおけば、この規準変数は標準正規分布に従います。よって
となります。題意より
だから、求める検出力は
となります。