分散分析法と構造モデル

分散分析法と構造モデル

データの構造

　ある触媒を使った化学反応（A+B→C）において反応温度を変えた実験を行い、反応収率（%）を各温度条件毎に4回繰り返し測定をしたら、下表のような結果が得られました。ただし、反応温度の選び方は40℃、60℃、80℃と固定ですが、3×4=12回の実験そのものは順序は完全にランダムに行ったものとします。また、この実験結果は横軸を反応温度、縦軸を反応収率とすれば下図のようになります。

	反応温度（因子A）
実験の繰り返し番号	A₁=40℃	A₂=60℃	A₃=80℃
1	63.2	70.3	80.2
2	64.0	71.0	83.3
3	62.8	69.6	82.0
4	63.5	71.2	81.4

　上図から明らかなように、実験の繰り返しによるデータのバラツキは小さく（繰り返し実験は完全にランダムに行われているから、それに基づく変動誤差は偶然誤差）であるから、それに比べ反応温度が変動するとデータのバラツキは大きくなり、結果として反応温度が反応収率に一定の説明可能な影響を与えている（反応温度が上がれば反応収率が上がる）ことがわかります。

この例のように、実験データに大きな影響を与え得る可能性のある主要な変動要因（これを因子Aとします）が１つで、残りの変動要因がランダムな実験の繰り返しすなわち偶然誤差であるような場合の統計モデルを「１因子実験」あるいは「１元配置実験」と呼んでいます。また、この場合、因子Aである反応温度は３種類選びましたが、この３種類それぞれの実験条件のことを因子Aの水準と呼び、その種類の数のことを水準数と呼んでいます。上例では因子Aは反応温度であり、その水準は40℃、60℃、80℃の３種類であり、したがって水準数となります。偶然誤差の基となるランダムな繰り返し実験の繰返し数はこの場合となっています。

　ところで、この１元配置実験においては、母集団としての無限にあり得る反応温度の条件から、サンプルとして特に40℃、60℃、80℃の３種類の因子を選んだのであるが、一般的にこのような場合にはある反応温度で反応収率がどのように変わるのかということに関心があるのが普通であり、そのような因子のことを「母数型」因子と呼んでいます。これに対し、もし40℃、60℃、80℃という反応温度が無限母集団からランダムに選んだものであり、この場合選ばれた反応温度因子の水準がたまたま偶然に40℃、60℃、80℃という反応温度であったということであれば、このような因子のことを「変量型」因子と呼びます。したがって、変量型因子の実験においては、各反応温度における反応収率そのものには関心はなく、ただ反応温度をふった場合に反応収率がどの程度ばらつくのかということだけが興味の対象となっているわけです。実験に取り上げた因子にはその特徴を規定するための構造上のモデル（模型）を設定しなければならず、そのようなモデルのことを「構造モデル」と呼んでいます。したがって、構造モデルには「母数型モデル」と「変量型モデル」があることになります。

　さて、上述の例は一般的には「母数型１元配置実験」と考えるのが妥当なので、まずそれについて考えることにします。いま、40℃（因子Aの水準1に相当する）という反応温度条件下における反応収率の結果は繰り返しの数だけの個数あるわけですが、その各々のデータをとすれば、これらの値は、偶然誤差による分散である母平均の無限正規母集団からのランダムサンプルの実現値とみることができます。すなわち水準1内（級内）における実験誤差（偶然誤差）をとすれば