分散分析とは

/統計分析

分散分析とは

分散分析とは、複数のデータ集合の間の差異が、誤差範囲かどうかを判定する手法です。分散分析が用いられるケースとして、例えば、製造工程を変えて製品を作り、ある性能を測定したとき、その測定データから製造工程による性能の差異が認められるかを判断する場合です。

データ形式

条件を変えたm個のグループに対し、それぞれr個のデータ($x_{ij}$)を測定します。各グループの平均を $\bar{x}_i$ 、全データの平均を $\bar{\bar{x}}$ とします。総データ数を $n(=mr)$ とします。

$G_1$ $x_{11}$、$x_{12}$、・・・、$x_{1r}$ $\bar{x}_1$
$G_2$ $x_{21}$、$x_{22}$、・・・、$x_{2r}$ $\bar{x}_2$
・・・ ・・・ ・・・
$G_m$ $x_{m1}$、$x_{m2}$、・・・、$x_{mr}$ $\bar{x}_m$

データ構造式

構造式とは、各データ($x_{ij}$)のバラつきを分解した式です。母集団の平均($\mu$)からのバラつきは、グループ間のバラつき($g_i$)と測定誤差($\epsilon_{ij}$)の和で表されると仮定します。

$$x_{ij}=\mu+g_i+\epsilon_{ij}  -①$$

ここで、測定誤差は $N(0,\sigma^2)$ に従い、グループ間のバラつきは以下の関係にあります。

$$\sum_{i=1}^mg_i=0$$

分散分析の手順

分散分析は以下の手順で行います。

平方和を求める

総平方和($S_T$)、グループ間平方和($S_G$)、誤差平方和($S_E$)を以下で定義します。

$$S_T=\sum_{i=1}^m\sum_{j=1}^r(x_{ij}-\bar{\bar{x}})^2$$

$$S_G=\sum_{i=1}^m\sum_{j=1}^r(\bar{x}_i-\bar{\bar{x}})^2=r\sum_{i=1}^m(\bar{x}_i-\bar{\bar{x}})^2$$

$$S_E=\sum_{i=1}^m\sum_{j=1}^r(x_{ij}-\bar{x}_i)^2$$

このとき、各平方和は以下の関係にあります。

$$S_T=S_G+S_E$$

自由度と分散を求める

各平方和に対応する分散(平均平方)は、以下のように計算されます。ここで $\phi_T$、$\phi_G$、$\phi_E$ は自由度で、平方和と同様に分解できることが知られています。

平方和 自由度 分散
総平方和($S_T$) $\phi_T=n-1$ $V_T=S_T/\phi_T$
グループ間平方和($S_G$) $\phi_G=m-1$ $V_G=S_G/\phi_G$
誤差平方和($S_E$) $\phi_E=\phi_T-\phi_G=m(r-1)$ $V_E=S_E/\phi_E$

検定の考え方

統計検定量を以下で定義します。

$$F_0=\frac{V_G}{V_E}$$

$F_0$ は、帰無仮説「グループの違いによる差はない」の下で、自由度($\phi_G$、$\phi_E$)のF分布に従います。この場合は、有意水準を $\alpha$ とすると、棄却域は以下になるので、

$$F_0\ge F(\phi_G,\phi_E;\alpha)$$

この式が成立すれば、帰無仮説は棄却された、つまり「グループの違いによる差はある」ことになります。

タイトルとURLをコピーしました