統計的仮説検定(信頼区間、信頼率、危険率、検出力、第一種および第二種の過誤)
母平均が
で母分散が
の母集団から
の大きさの任意標本を抽出したとき、母集団がどんな分布であろうとも
が大きければ(
)中心極限定理により、その標本平均
は、下図のように、平均が
で分散が
の正規分布
に近似できることが知られています。
上図で見られるように、母集団から無作為抽出をした大きさ
の標本の平均
は母平均
を中心として
まで分布し得ることがわかります。しかし、標本平均
の値が母平均
から離れるほどその実現確率
は小さくなり
が
の極限では
となり、その場合は決して実現しそうもない標本平均
の値だと言えます。したがって、実際問題として標本平均
がどの程度なら実現可能な値であろうかという推定が必要になってきますが、その問題を解決する前に統計的判断の基本的考え方に触れておくことにします。
そこで、日本古来から伝わる丁半賭博を例にして統計的判断を考えてみることにします。サイコロを振って丁か半が出る確率はイカサマをしなければ何回振ってもその確率は
であることは経験的にも理論的も知られています。しかし、サイコロを2回続けて振ったときにたまたま丁丁あるいは半半と続けて同じ目が出る場合も偶然にはあり得ることも考えられ、その確率は
です。同様に3回続けて振ったときに偶然に丁丁丁あるいは半半半と出る確率は
となり、一般に
回続けてサイコロを振ったときに偶然丁ばかりあるいは半ばかりの目が出る確率は
となります。
いま、読者の二人(甲と乙)が運悪く丁半賭博をするはめに陥り、二人ともなけなしのお金を勝負の度にいつも半に賭けたものと仮定します。この賭博場の謳い文句はクリーンなイメージの「イカサマはいない」(仮説)というものでした。が、しかし、現実には、最初の5回までの勝負では謳い文句通りイカサマは行われなかったのですが、たまたまその日は丁ばかりの目が続き、6回目以降はサイコロに細工をしていつも丁が出るようなイカサマをしていたとします。このとき、甲と乙のとった行動が統計的判断の考え方の基本となります。甲は生来アワテモノのせいか丁半勝負を始めてまだ2回しか丁が続かないのに、この賭博はイカサマであると判断し席を蹴って退場しました。これはイカサマをしていないという事実(仮説)が正しいのにイカサマをしているといった誤った判断をアワテテしてしまった過誤(error)であり、これを「第一種の過誤」(アワテモノの誤り、 Type T errorあるいはerror of the first kind)と言います。それに対し、乙は生来ボンヤリモノのせいか、丁半勝負を始めてから10回も丁の目が続いて出ているのに、博打だからまあそんなこともあるだろうとちっともイカサマに気付かない様子で、お金がすってんてんになるまで何度も半を賭け続けていました。もちろん乙の考え方は確立統計の理論からすれば10回続けて丁の目が出る確率は
だけはあり得るわけですから、謳い文句(仮説)通りイカサマが全く行われていなかったなら、この乙の判断には間違いがなかったと言えますが、現実には6回目以降の丁半勝負ではイカサマが行われており事実は仮説とは違うのに、その仮説をいつまでも正しいと判断したボンヤリモノの乙の判断にはやはり重大な過誤がります。このような事実は間違っている(仮説は正しくない)のに仮説を正しいと判断する過誤のことを「第二の過誤」(ボンヤリモノの誤り、 Type U errorあるいは error of the second kind)と言います。そして、甲乙いずれもその犯した過誤の時点での確率
のことを「危険率」(critical rate)と統計学では呼んでいます。すなわち、甲の危険率(甲が第一種の過誤を犯す危険率)は
であり、乙の危険率(乙が第二種の過誤を犯す確率)は
ということです。
この事実と判断の関係を表にすると下表のようになります。いつも判断が事実に等しければいいのですが、統計的判断ではある危険率で第一種の過誤や第二種の過誤を犯す可能性があります。つまり、第一種の過誤も第二種の過誤も同時に起こさないような判断は難しいということです。すなわち、本来どちらの過誤もできるだけ小さくなるような判断ができればいいのですが、現実にはある一定のデータ数では第一の過誤を小さくするとそれに応じて第二種の過誤は大きくなります。そこで、統計学で行う仮説検定は、第一種の過誤を犯す確率(危険率)を決めて判断し、第二種の過誤については評価を行わないのが普通ですが、その場合、データのバラツキ(分散)を減らすことととデータの数を増やすことによって、すなわち、
を小さくすることによって、第二種の過誤を少なくすることができます。
事実
仮説は正しいと判断する
仮説は誤りと判断する
仮説は正しい
○
第一種の過誤(アワテモノの誤り)
仮説は誤り
第二種の過誤(ボンヤリモノの誤り)
○
さて、いよいよ本題に戻ることにしましょう。上図は母平均が
で母分散が
の母集団から
の大きさの任意標本を抽出したときの標本平均
の分布(正規分布
を表していますが、標本平均
の値が母平均
から離れれば離れるほど急速にその実現確率
は小さくなり
では
となって実現性は全くあり得ないことになってしまいます。そこで、
の値が標本の平均としてどの程度までが許容できる限界かを決める必要がありますが、わたしたちは経験的に
以下の確率しかない値はめったに起こりそうにもない実現値であろうと考えるのが妥当とみなします。すなわち、上図では両側併せて
になるところですから片側ずつにすると
以下になる
が実現しそうにない値だと言えます。この限界点のことを信頼限界と呼び、上図では信頼上限は
であり信頼下限は
となります。1.96という数字は正規分布のパーセント点の表で0.025に相当する値です。すなわち、標本平均
の95%信頼区間(confidence interval)は
あるいは
となります。したがって、上図の標本平均
はこの区間内に入っているから採択可能な標本平均であり、標本平均
はこの区間外にあるから棄却すべき標本平均であると言えます。ただし、そのような判断をしたときに第一種の過誤を犯す危険率は5%であるということになります。
このような信頼区間についての関係式を変形すると
という関係式が得られますが、これは標本平均
から95%の信頼率で母平均
の信頼区間を推定することができるということと同じになります。
ここで、変数
を規準変数
で変換すると
のようになるが、この変数
もまた下図のような標準正規分布
をするので、この図で信頼区間を決める方がわかりやすいかも知れません。
ちなみに、棄却域(rejection region)に相当する確率
のことを「危険率」(critical rate)と言うが、判断の基準となる確率という意味で「有意水準」(significance levelあるいはlevel of significance)と呼ぶこともあります。また、これとは逆に採択域(acceptance region)は
に相当する確率であり、この確率のことを
信頼率あるいは信頼係数(confidence coefficient)と呼んでいます。それでは、有意水準が5%というのはどういうことを意味しているかというと、原則として棄却することを予測して立てた仮説(このような仮説のことを帰無仮説(null hypothesis)と言い、通常
という記号を使います)を棄却したとしても、そのことによる誤りは5%以下であるということです。言い換えれば、本当は帰無仮説が正しかったにもかかわらず、それを棄却することによって誤り(第一種の過誤)を犯すかも知れない危険を100回のうち5回までは認めてもいいということと同じですので、有意水準
のことを危険率と言う場合が多いのです。帰無仮説(たとえば、
)に対し、
となるような仮説のことを対立仮説(alternative hypothesis)と呼び
という記号を用います。当然、帰無仮説を棄却する場合は対立仮説を採用することになります。
このように、統計的仮説検定においては、帰無仮説
が正しいにもかかわらずそれを棄却してしまう誤りが第一種の過誤であり、一般にこの誤りの確率を
という記号で表し、この
のことを危険率と呼んだり有意水準と呼んだりします。また、その確率
に相当する規準変数
上の点
のことを有意水準点と呼んでいます。したがって、危険率や有意水準というのは第一種の過誤を犯す確率であると簡潔に言うこともできます。これに対し、対立仮説が正しい(帰無仮説は誤り)のにそれを検出できないのが第二種の過誤で、その確率を記号
を使って表すのが一般的です。また、
に相当する確率のことを「検出力」と呼んでいます。
統計的仮説検定における危険率(有意水準)
、信頼率
、第二種の過誤を犯す確率
、および検出力
の関係は下図に示してあります。
いま、ある母集団の母平均
が
に等しいという帰無仮説
を立て、対立仮説として
(すなわち、真の母平均
は帰無仮説で仮定した値
より
だけ大きい)を信頼率
で大きさ
の任意標本について仮説検定してみることにします。この場合、対立仮説が
なので右片側検定をすることになります。したがって、危険率
に相当する有意水準点は正規分布
曲線上の
になり、この
点より右側の黒い部分が帰無仮説
の棄却域になり、対立仮説
を採択することになります。また、この
点より左側の部分はすべて帰無仮説
が棄却できず、帰無仮説
を採択することになります。しかしながら、上図で見るように、対立仮説である
が真実であったとすると、正規分布
曲線上の
点より左側の部分(影の部分)の標本平均
は正規分布
曲線の帰無仮説
採択域に入ってしまい、帰無仮説
が正しくない(対立仮説
が正しい)のに帰無仮説
が正しいという間違った判断(第二種の過誤)をしてしまうことになります。すなわち、正規分布
曲線上の影の部分が第二種の過誤を犯す確率
に相当するわけです。そして、正規分布
曲線上の斜線部分が検出力
になります。検出力
を上げれば相対的に第二種の過誤を犯す確率
を下げることができるので、次に検出力
を高めるにはどうしたらよいかを考えます。
正規分布
の検出力
に対応する正規分布
の有意水準点
は正規分布
の右片側検定の
点であるから
となります。一方、この
点は正規分布
曲線上にあるから、この確率
の始点に相当する規準変数の値を
とすれば
となるので、
の関係を考慮して
を求めると
となります。
ここで、正規分布
の標本平均
を規準変数
に変換して
とすれば、検出力
は正規分布
の規準変数
が正規分布
の棄却域に落ちる確率、すなわち、
だから
となります。検出力
を高めるためには確率
を大きくすればよいので、
一定の条件下では
という条件を満たせば、検出力
が高まり、相対的に第二種の過誤を犯す確率
を小さくできることがわかります。
上述の統計的仮説検定は片側検定の場合を想定して行ったが、両側検定の場合も考慮しておく必要があるでしょう。両側検定の場合は、ある母集団の母平均
が
に等しいという帰無仮説
を立て、対立仮説として
(すなわち、真の母平均
は帰無仮説で仮定した値
とは違っている)を信頼率
で大きさ
の任意標本について仮説検定することになります。この場合、対立仮説が
なので両側検定をすることになります。したがって、危険率
に相当する有意水準点は、下図の正規分布
曲線上の
と
になり、この
点より右側の黒い部分および
点より左側の黒い部分が帰無仮説
の棄却域になり、対立仮説
を採択することになります。また、この
点と
点にはさまれた部分はすべて帰無仮説
が棄却できず、帰無仮説
を採択することになります。
しかしながら、上図で見るように、対立仮説である
(ととえば真の母平均
は帰無仮説の値
より
だけずれている)が真実であったとすると、正規分布
の母平均
が明らかに正規分布
の棄却域に入っている(したがって、
が正しい)にもかかわらず、正規分布
曲線上の
点より右側の部分(影の部分)の標本平均
は正規分布
曲線の帰無仮説
採択域に入ってしまい、帰無仮説
が正しくない(対立仮説
が正しい)のに帰無仮説
が正しいという間違った判断(第二種の過誤)をしてしまうことになります。すなわち、正規分布
曲線上の影の部分が第二種の過誤を犯す確率
に相当するわけです。そして、正規分布
曲線上の斜線部分が検出力
になります。検出力
を上げれば相対的に第二種の過誤を犯す確率
を下げることができます。
片側検定の場合と同じように、両側検定の場合についても検出力
を求めてみることにします。正規分布
の検出力
に対応する正規分布
の有意水準点
と
はそれぞれ正規分布
の両側検定の
点であるから
となります。一方、この
点と
点はいずれも正規分布
曲線上にあるから、この確率
の始点に相当する規準変数の値を
および
とすれば
となるので、
の関係を考慮して
と
を求めると
となります。
ここで、正規分布
の標本平均
を規準変数
に変換して
とすれば、検出力
は正規分布
の規準変数
が正規分布
の棄却域に落ちる確率、すなわち、確率
および確率
の総和だから
となります。
標本の大きさ
によって検出力
がどのように変わるのかを危険率
の両側検定の条件下で
を関数にしてプロットしたものを下図に示します。検出力曲線の逆がOP曲線(オペレーション曲線)です。OP曲線は
が統計パラメーターによってどう変わるかをプロットしたもので、抜き取り検査に使用されます。
たとえば、母平均の差が母分散程度(
)である場合は検出力曲線と赤線の交点の読みから、標本の大きさが
のときは検出力
は約60%、
のときは約85%、
のときはほとんど100%近くになることがわかります。また、母平均の差が母分散の2倍以上(
)である場合は、標本の大きさが
であっても検出力
はほぼ100%になり、第二種の過誤を犯す可能性はほとんどない(
)ことがわかります。
(例題)母集団は正規分布であり、母分散
は既知であるとします。このとき
という条件の下で、有意水準5%で仮説検定を行い、標本の大きさ
について検出力
を計算してみましょう。ただし、母平均
の差は母分散
程度であったと仮定します。
(解答)仮説
および
の有意水準5%の棄却域は、両側検定であるので
となります。真の母平均が
であるとき、標本平均
がこの棄却域に落ちる確率すなわち検出力
は
となるが、ここで
とおけば、この規準変数
は標準正規分布
に従います。よって
となります。題意より
だから、求める検出力
は
となります。