相関分析とは

/統計分析

相関分析とは

相関分析とは、2つのデータ群の関係性の強さを評価する分析手法です。以下、n個のデータのセット($x_i,y_i$)を考えます。

・・・ $i$ ・・・ $n$
$x_1$ $x_2$ ・・・ $x_i$ ・・・ $x_n$
$y_1$ $y_2$ ・・・ $y_i$ ・・・ $y_n$

相関係数

相関係数とは、2つのデータ群の関係性の強さを表す指標で、以下で計算されます。

$$r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

$$S_{xx}=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2  ,  \bar{x}=\sum_{i=1}^nx_i$$

$$S_{yy}=\sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^ny_i^2-n\bar{y}^2  ,  \bar{y}=\sum_{i=1}^ny_i$$

$$S_{xy}=\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$

相関係数rは、$-1\ge r\ge1$ の範囲の値を持ちます。rが1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。

母相関係数

母相関係数とは、母集団の相関係数です。xが $N(\mu_x,\sigma_x^2)$ に従い、yが $N(\mu_y,\sigma_y^2)$ に従うとすると、母相関係数 $\rho$ は以下で定義されます。

$$\rho=\frac{E[(x-\mu_x)(y-\mu_y)]}{\sqrt{\sigma_x^2\sigma_y^2}}$$

母相関関数 $\rho$ も、相関関数rと同じく $-1\ge\rho\ge1$ の範囲の値を持ちます。$\rho$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。

r分布

統計量である相関係数rは、母集団が無相関($\rho=0$)の場合、下記の値は、自由度 $\phi$($=n-2$)のt分布に従うことが知られています。

$$t(\phi,\alpha)=\frac{r\sqrt{\phi}}{\sqrt{1-r^2}}  -①$$

t分布は、0を中心とした左右対称の面積1の関数で、$\alpha$ は、0からの距離t以上離れた両側のバラつき部分の面積(確率)を表します。これをrについて解くと、

$$r(\phi,\alpha)=\frac{t(\phi,\alpha)}{\sqrt{\phi+t^2(\phi,\alpha)}}  -②$$

また、母集団が相関を持つ($\rho\ne0$)場合、以下のzは近似的に $N(z,1/(n-3))$ に従うことが知られています。

$$z=\frac{1}{2}\ln{\frac{1+r}{1-r}}  -③$$

従って、母相関係数より $\zeta$ を同様に定義すると、

$$\zeta=\frac{1}{2}\ln{\frac{1+\rho}{1-\rho}}  -④$$

以下のように標準化したuは、近似的に $N(0,1^2)$ に従います。

$$u=\sqrt{n-3}(z-\zeta)  -⑤$$

相関分析の手順

母集団に相関関係があるかどうかの判断を、サンプルデータの統計量(相関係数)を基に行います。

検定

帰無仮説と有意水準を次のように設定します。

帰無仮説 無相関($\rho=0$)
有意水準 $\alpha=0.05$

従って、帰無仮説が成り立たない条件、つまり棄却域の条件は②から以下で表されます。

棄却域 $|r|\ge r(\phi,\alpha)=r(n-2,0.05)$

次に、相関係数rを計算し、棄却域の条件を満たしていれば、「有意である」とし「相関関係はある」と判断することができます。

推定

母集団の母相関係数 $\rho$ の推定を行います。まず、点推定は相関係数rを用います。

点推定 $\rho=r$

次に区間推定は、有意水準を次のように設定します。

有意水準 $\alpha=0.05$

⑤のuは近似的に $N(0,1^2)$ に従うため、uの存在する範囲(信頼区間)の条件は以下で表されます。

$$P(-1.960\le\sqrt{n-3}(z-\zeta)\le1.960)=1-\alpha$$

従って、$\zeta$ の信頼区間は以下になり、

$$(\zeta_1,\zeta_2)=\Big(z-\frac{1.960}{\sqrt{n-3}},z+\frac{1.960}{\sqrt{n-3}}\Big)  -⑥$$

④を使って、$\zeta$ から $\rho$ に変換すると、$\rho$ の信頼区間は以下で表されます。

信頼区間 $$(\rho_1,\rho_2)=\Big(\frac{e^{2\zeta_1}-1}{e^{2\zeta_1}+1},\frac{e^{2\zeta_2}-1}{e^{2\zeta_2}+1}\Big)$$

次に、③より相関係数rからzを計算し、⑥より $\zeta$ を計算することで、この信頼区間を求めることができます。

タイトルとURLをコピーしました