Goodness-of-Fit Measure(決定係数 Coefficient of Determination

 

いま、ある標本のデータが回帰直線で近似できるものとします。実際の観測値はもちろんこの近似直線の上に乗るとは限らず、予測値からのずれ(誤差)があるのが一般的です。すなわち

 

 

変数の観測値()と予測値()の間には

 

               

 

の関係があります。逆に言えば、この誤差の平方和を最小化するような条件で引ける直線が標本の回帰直線になるわけです。すなわち

 

               

 

を最小化するような直線です。

 

 を最小化するための条件は

 

               

 

であり、これから回帰直線を決めるパラメータ

 

               

 

となります。

 

 一方、観測値()から標本平均()を引いた偏差の平方和(総偏差平方和)

 

               

 

ですが、このうち回帰直線によって説明できる偏差平方和のことを回帰による偏差平方和と呼び

 

               

 

で表せます。これに対し、回帰直線では説明できない残りの誤差のことを残差と呼び、その残差平方和

 

               

 

となり、3者の偏差平方和の間には

 

               

 

の関係があります。

 

 ところで、標本のデータがどの程度回帰直線の上に乗っているかを決める尺度として「決定係数」(Coefficient of Determinationと呼ばれるものがあり、その値をGoodness-of-Fitと呼ぶ場合もあります。これは

 

               

 

のように総偏差平方和に占める回帰で説明できる偏差平方和に相当します。また、この決定係数の平方根

 

               

 

のようになりますが、これを相関係数(Correlation Coefficient)と呼び、これでもってGoodness-of-Fitの尺度とする人もいます。ただし、この相関係数を求めるとき、決定係数から算出する場合には回帰直線の回帰係数(傾き)が負の場合は

 

               

 

と定義します。のときは標本データ点はすべて回帰直線上に乗り、のときは無相関となります。