ようこそ、化学標準物質の不確かさへのいざない |
x, y両座標ともに不確かさがある「重み付き回帰分析」(Deming法)については、本ホームページの「統計メモ」のページをご覧下さい。
直線回帰モデル
変数とからなる個の組について散布図を描き、それら変数の間に何らかの関数関係が想定される場合には、観測値と関数曲線の距離が最小になるようにして、任意に選んだ多項式
の係数を決定することにより、推定関数を見いだし、観測値の誤差分散を見積もることが可能であり、これを(曲線)回帰分析と呼び、このようにして得られる推定関数のことを「に対するの回帰曲線」と呼んでいます。そして、回帰曲線の中でも最も単純でしかも実践的によく用いられるものは回帰直線()で、そのようなモデルのことを「直線回帰モデル」と言います。
以下の直線回帰モデルでは、独立変数には不確かさはなく()従属変数にのみ不確かさがある()ものとします。またの誤差の分布は正規分布をしており、その誤差分散はの値によらず一定値をとるものと仮定します()。このような仮定は通常成立している場合が多く、直線回帰モデルとして一般的なものです。
そこで、いま任意の標本の組として
のような個の変数の組を考えることにします。ここで、は独立変数(指定変数あるいは説明変数とも言う)、は従属変数(結果変数あるいは目的変数とも言う)であり、実現値の確率変数が
となるような直線の構造式(線形モデル)をもつものとします。とはこの構造式の形を決める構造パラメータ(母数)であり、は確率変数ではない通常の変数です。また、は正規分布をする誤差の確率変数です。いま、確率変数に実現値を代入すれば
なる構造式が得られ、は直線(母回帰直線)
すなわち
からの観測値のずれ(誤差)に相当します。母回帰直線は、下図に見られるように、に対応する無数の対象のの値の平均値である母平均の軌跡となります。すなわち
となるような期待値と分散をもつ母回帰直線ということです。
観測値によって定義される標本回帰直線と母回帰直線
母回帰直線の構造パラメータ(母数)である(母切片)および(母回帰係数)の推定値とを点推定するためには、上述の観測値と母平均との偏差の平方和
を最小にするように、「Gaussの最小自乗法」を標本(標本回帰直線をとすれば観測値はとなります。ここでは観測値の推定値(真の値)です。)の偏差の平方和に適用して、
の極値条件
を求めることによって得られる連立方程式(正規方程式)
から、母数との最良推定値である不偏推定値とが得られます。すなわち
となります。また
と定義すれば、母数との推定値とは
と書くこともできます。
したがって、推定された「へのの回帰直線」(標本回帰直線)は、平均値を通る切片および傾きの直線
となります(下図参照。【注】この図および次図以下では、図中の大文字のは、変動の偏差平方和を表すのではなく偏差を表しています。したがって、たとえば、記号は本文中の誤差偏差に相当することになります。)。ちなみに、正規方程式を求めるのに使った観測値と回帰推定値(回帰式のにを代入して得られる推定値)との偏差
のことを「残差」(あるいは単に「誤差」とも言います)と呼び、またのことを「回帰からの変動の誤差変動」であり「残差平方和」(あるいは単に「誤差平方和」と呼ぶこともあります)と呼んでいます。残差は
の関係式より
で表されるように、偶然誤差と(母回帰直線と標本回帰直線との差)の和であることに注意する必要があります。
観測値は真の値
残差平方和は定義式
のに上で求めた
を代入して、変形すれば
となります。ただし
および
です。一方、
であるから
となり、総変動は「回帰による変動」と「回帰からの変動」の和になります。
の総変動に占める回帰平方和の割合を「回帰の寄与率」と呼びで表します。すなわち
あるいは
となります。したがって、がに近ければの変動の大部分がに対する回帰によって説明されることになり、がに近ければxの説明力はほとんどないことがわかります。このはととの「相関係数」に相当し、のことを「決定係数」と呼ぶことがあります。なお、相関係数の符号はの符号と同じにします。
観測値は真の値の周りに分布幅で正規分布していると仮定したので、偏差は中心値、一定幅で正規分布していることになります。したがって、の誤差、すなわち、測定値の誤差、すなわわち、「回帰推定の標準誤差」あるいは「残差標準偏差」は
となります。分母がではなくになっているのは独立な変数の全個数から誤差を算出するのにとと言う2つのパラメータ(に依存)を使っているので自由度がに減少しているのです。したがって当然ながら、2点のみからなる変数系では回帰直線を推定できないことになります。
母数との最良推定値との誤差(標準偏差)は、それぞれ
と定義されます。残差分散(誤差母分散)は一定値であるからの関数であるもの係数はのみの関数となっています。
また、母数との不偏推定値であるとの期待値は、それぞれ
となります。さらに、およびの期待値は、それぞれ
となります。ここで、は残差分散(誤差母分散)のことです。すなわち
です。これら分散と期待値の証明は以下の通りです。
は
と変形でき、は互いに独立であり、であるから
となります。これから
が得られます。
は
であるので
となります。一方、は
であるので
となります。したがって
となります。
観測値()に繰り返しのない場合の回帰直線
残差分散(誤差母分散)の正の平方根を回帰推定の標準誤差あるいは残差標準偏差と呼びの記号を使って表します。これを回帰を用いないときのの標準偏差と比べると
となるので、回帰で説明される部分を差し引くと、の標準偏差はほぼ倍になります。つまり、相関がなければであるからの残差標準偏差は回帰を用いないときのの標準偏差そのものになり、相関が強ければであるから、の残差標準偏差は限りなくに近づき、すべての観測値は標本回帰直線上のの推定値(真の値)に一致するようになることを意味しています。
ここで、観測値に繰り返しのない場合の回帰直線の分散分析表(ANOVA)を次に示します。
変動要因 |
偏差平方和 |
自由度 |
不偏分散 |
F値 |
不偏分散の期待値 |
回帰 |
|
|
|
|
|
残差 |
|
|
|
|
|
総変動 |
|
|
|
|
|
このANOVA表を用いることにより回帰性の有無を検定することができます。すなわち、
帰無仮説(母回帰直線は回帰性をもたない)
対立仮説(回帰性がある)
とすれば、ANOVA表の各変動は
は自由度の分布
は自由度の分布
は自由度の分布
となるので、帰無仮説の下では
は自由度の分布をすることになります。
したがって、ならば分子のの値は大きくなり、の値も大きくなるので、このの実現値を分布の右側棄却域と比較することにより回帰性の有無を検定することができます。
しかしながら、もし帰無仮説(は理論や過去の経験によって規定された仮説の値、通常は)がの場合は
分布ではなく次のように分布で回帰性の有無を検定することになります。
これを対立仮説に対して有意水準(通常は)で検定するには
が自由度の分布をすることを考慮し、このの絶対値がスチューデントの表の点より大きければ、帰無仮説を棄却し、推定回帰係数はとは有意差があると判断します。
推定母切片は、そのもつ意味合いが実際的ではない場合が多いけれども、特殊な場合には帰無仮説(通常は、すなわち、のときの母平均も)を検定したい場合があり、このときは
が自由度の分布をすることを考慮して、推定回帰係数と同様に検定を行うことになります。
という特殊な場合(通常はこの条件が満たされる)には、上述した分布による検定と分布による検定は一致します。すなわち、
のような関係があり、どちらでも検定できることを意味しています。
観測値(水準数:;繰り返し数:)に繰り返しがある場合の回帰直線
観測値(水準数:;繰り返し数:)に繰り返しがある場合の回帰分析は上述の繰り返しのない回帰直線の場合より若干複雑になりますが、基本的な考え方は同じです。この場合は一元配置実験(一段枝分かれ実験)の分散分析に相当するので、総変動の偏差平方和(以降、大文字のは偏差平方和を意味する)は
のように級間変動成分と級内変動成分に分解することができます。級内変動は独立変数のの値如何によって変化しない観測値の純粋な誤差変動に相当するので、独立変数のの値によって変化し得る変動成分は級間変動に相当します。そこで、級間変動は回帰に関わる変動と見なすことができるので、これを1次回帰に相当する回帰による変動と残りの変動(高次回帰変動)に分解することにします。すなわち
のうになります。この残りの変動(高次回帰変動)は回帰残差(あるいは単に残差)の変動あるいは不適合度の変動とも呼ばれることがあり、回帰直線への当て嵌めの悪さ(直線からのふれ)、すなわち、回帰直線(1次回帰)の不適合度を見積もる目安となっています。その理由は、残りの変動(高次回帰変動)と純粋な誤差変動に相当する級内変動をそれぞれの自由度で割って得られる不偏分散との比をと定義すれば
は自由度との分布に従い、これは帰無仮説:回帰は1次回帰ではないことを検定することになり、もしの実現値が、自由度との分布における(通常)の右側棄却域よりも大きければ、直線回帰への不適合度(当て嵌めの悪さ)が大きいと言うことになり、1次回帰よりさらに高次の回帰を考慮する必要があるという1次回帰の不適合性の指標になるからです。
総変動から回帰による変動を差し引いたものは誤差変動と呼ばれ
のように、それはまた回帰残差と級内変動の和となっており、この誤差変動は回帰からの変動とも呼ばれ、回帰直線の回帰性の度合い(帰無仮説すなわち回帰直線の回帰係数(直線の傾き)がである)を検定するのに用いられる。すなわち、回帰変動による不偏分散と誤差変動による不偏分散との比
の実現値が、自由度との分布における(通常)の右側棄却域に入るかどうかを検定し、回帰性の有無(回帰直線の傾きの有無)を判定するわけです。
また、回帰そのものがこの観測系にあるのかどうかを検定するためには、級間変動による不偏分散と級内変動による不偏分散との比
の実現値が、自由度との分布における(通常)の右側棄却域に入るかどうかを検定することになります。この場合、帰無仮説すなわちであり、独立変数のの値の如何を問わず従属変数の平均値が変化しないで一定値をとることになり、結果として回帰成分がこの観測系では存在しないことを意味することになります。
観測値(水準数:;繰り返し数:)に繰り返しがある場合の回帰直線の分散分析表(ANOVA)を次に示します。表中のは全観測データ数で
です。
変動要因 |
偏差平方和 |
自由度 |
不偏分散 |
F値 |
不偏分散の期待値 |
級間 |
|
|
|
|
|
回帰 |
|
|
|
|
|
残差 |
|
|
|
|
|
級内 |
|
|
|
|
|
誤差 |
|
|
|
|
|
総変動 |
|
|
|
|
|
(注)回帰による変動の偏差平方和は、また、とも書けます。
母回帰線の信頼域と予測値の信頼域
この項では繰り返しのない回帰直線についてのみ記述することにしますが、繰り返しのある場合にも応用可能です。上述の説明からも明らかなように、母回帰直線の母数である母切片と母回帰係数の信頼区間は
で与えられます。しかしながら回帰を用いる推定ではこのような回帰直線の母数そのものの推定よりも、独立変数がある特定の値をとったときの従属変数の母平均の推定の方がより重要である場合が多い。その推定値は
で与えられるのは自明であるが、この形では推定値とに相関があるので母平均の推定値の標準誤差を求めることは容易ではありません。そこで上式を変形した
においては、確率変数ととは統計的に独立であるので、
のように、母平均の推定値の期待値と分散が得られるので、母平均の推定値の標準誤差は
となります。したがって母平均の信頼区間は
で与えられます。の値を動かすと、で母平均の推定値の標準誤差は最小になり、がより離れるに従っては大きくなり、その信頼区間は下図の緑色の実線のように双曲線的に広がって行きます。
ところで、母平均の推定値の標準誤差(標準不確かさ)の中身を吟味するために、その分散の中身を考えてみると
のように、個の観測値の標準誤差(誤差分散の平均値である)の項と回帰係数(回帰直線の傾き)にのみ関わる分散の項の和となっていることがわかります。
ここまでの記述は標本の観測データのみに基づいて得られる母平均の推定値の標準不確かさについて記述したものであるが、この標本系の回帰分析結果(残差分散や回帰係数の標準偏差の値)を使って、独立変数がにおいて新しい実験や観測を行ったとき、従属変数の値がどのような範囲(予測値の標準不確かさで定義される信頼区間)に入るのかを予測したい場合があります。このとき、他に情報がなければ予測値は、母平均の推測値と同じであると見なさざるを得ませんから
となります。そこで、新しい実験(観測)系における従属変数の値(観測値)と予測値(真の値)との偏差の期待値と分散を求めてみることにします。すなわち
となりますから、新しい観測値は新しい標準誤差(標準不確かさ)
で規定される信頼区間(下図の黒色の波線で囲まれた範囲)
に入ることが予測されます。この範囲は標本の信頼区間より観測値1個分の標準誤差が付加された拡張不確かさで表現される信頼区間に相当します。
この証明は別の方法によっても可能です。すなわち、実際のの値は
のように母平均に誤差が1個分加わるので、の実現値をで予測した場合の予測誤差は
のように、誤差による誤差分散の分だけ大きくなります。
また、新たな実験系(観測系)において観測値個分の平均値を求めた場合、その平均値についての信頼区間を知りたいことも現実にはあり得ます。このような場合は上記の観測値1個分の考察から類推して、その信頼区間は
となり、上述の観測値1個分の信頼区間より若干狭くなります。
逆推定(検量線を使ってからを推定する)
標本の組から、上記のように、標本回帰直線を作成した後、その標本回帰直線を検量線として、従属変数から独立変数を逆に推定したい場合があり、このような操作のことを「逆推定」と呼びます。逆推定を行った場合にどれくらいの不確かさでを推定できるかは関心のあるところです。標本回帰式は
と変形できるから、に対するの推測値は
となります。ここで、は定数、とは統計量であり、標本回帰線から見ては新しい観測値であるから、は3つの正規分布する変数の関数と見ることができます。したがって、はの真の値を平均とする正規分布に近似することができ、その推定値の分散は
となります。もしが個の平均値である場合には、上記分散は
となります。したがって求める逆推定の標準誤差(標準不確かさ)は
であり、信頼水準での信頼区間は
となります。
従属変数にのみ重みの異なる不確かさがある()場合の回帰直線
従属変数がの母回帰直線上に乗ると予測でき、に相異なる不確かさが含まれている場合には、重みを
と定義することによって、回帰係数の最良推定値(最確値)およびを重みを使って次のようにして求めることができます。
また、の推定の誤差分散は
となります。もし測定値の個々の不確かさについての分散がわかってはいないが、それぞれの繰り返し測定回数がわかっている場合には、重みを測定回数で代表させてもよい。すなわち
として上述のパラメータを算出することもできます。
また、重みが均等である(測定値の分散がすべて等しく)である場合には
となり、一般的な1次式回帰直線のパラメータと一致するようになります。
独立変数と従属変数のいずれにも不確かさがある()場合の回帰直線(Taylorの方法)
このような場合は、もし独立変数の標準不確かさ(標準偏差)がの値によって変わらなければ、その不確かさをすべて従属変数の標準不確かさ(標準偏差)に組み込んだ新しい標準不確かさ(標準偏差)
をすなわちあるいはと定義し直すことにより、上述の(通常の)回帰直線分析に置き換えることができます。
独立変数と従属変数のどちらにも誤差がある場合の重み付き直線回帰分析(Demingの簡略法)
確率変数である独立変数と従属変数の組が
のような1次式の直線関係にあり、これに対応する観測値(測定値)が
のように、それぞれおよびの測定誤差をもっているものとします。また、およびをそれぞれ誤差およびの標準偏差とします。
さて、問題はどのようにして回帰直線の母数との推定を行い、またおよびの推定値を求めるかと言うことが課題ですが、とに対応する「重み」がわかれば通常の最小二乗法によってそれらの推定値を求めることができます。
そこで、誤差およびの不偏分散をそれぞれおよびとし、その比がであるとすると
のようになります。すなわち、とはそれぞれ不偏分散およびに比例する量ですが、これらの逆数であると、あるいはそれらの定数倍であるとはそれぞれ誤差およびの「重み」に相当します。
いま、独立変数と従属変数の推定値をそれぞれおよびとし、条件
の下で「重み付き平方和」をとすれば
を最小にして推定値を求めるのがDemingの方法です。上述の2つの式から
が得られますが、とおよびすべてのに関してこの量を最小になるようにします。
ここで、観測値およびの平均値をそれぞれおよびとし、次のような量
を導入すれば
は次のような正規方程式
の解
として得られます。
また、は
から求められ、推定値およびは次のようにして求めることができます。すなわち
とすれば
となります。最後に不偏分散およびの推定値は
のようにして求めることができます。は上述の式
から求められますが、
という式からも直接求めることができます。
この量は
の式から推定値およびを算出したときのの最小値に等しく、また
なる量は自由度のある種の分散、すなわち、一般的な回帰直線の誤差分散の推定値と見ることもできます。
原点を通る回帰直線
従属変数が原点を通る母回帰直線上に乗ると仮定でき、独立変数には誤差がなく、また、測定値の誤差がすべて同じである場合には、母数である回帰係数(傾き)の最良推定値(最確値)とその分散は
となります。