相関分析とは

/統計学

相関分析とは

相関分析とは、2つのデータ群の関係性の強さを評価する分析手法です。以下、$n$ 個のデータのセット($x_i,y_i$)を考えます。

・・・ $i$ ・・・ $n$
$x_1$ $x_2$ ・・・ $x_i$ ・・・ $x_n$
$y_1$ $y_2$ ・・・ $y_i$ ・・・ $y_n$

相関係数

相関係数とは、2つのデータ群の関係性の強さを表す指標で、以下で計算されます。

$$r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

$$S_{xx}=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$

$$S_{yy}=\sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^ny_i^2-n\bar{y}^2$$

$$\bar{x}=\sum_{i=1}^nx_i  ,  \bar{y}=\sum_{i=1}^ny_i$$

$$S_{xy}=\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$

相関係数 $r$ は、$-1\ge r\ge1$ の範囲の値を持ちます。$r$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。

母相関係数

母相関係数とは、母集団の相関係数です。$x$ が $N(\mu_x,\sigma_x^2)$ に従い、$y$ が $N(\mu_y,\sigma_y^2)$ に従うとすると、母相関係数 $\rho$ は以下で定義されます。

$$\rho=\frac{E[(x-\mu_x)(y-\mu_y)]}{\sqrt{\sigma_x^2\sigma_y^2}}$$

母相関関数 $\rho$ も、相関関数 $r$ と同じく $-1\ge\rho\ge1$ の範囲の値を持ちます。$\rho$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。

r分布

統計量である相関係数 $r$ は、母集団が無相関($\rho=0$)の場合、下記の値は、自由度 $\phi$($=n-2$)の $t$ 分布に従うことが知られています。

$$t(\phi,\alpha)=\frac{r\sqrt{\phi}}{\sqrt{1-r^2}}  -①$$

$t$ 分布は、0を中心とした左右対称の面積1の関数で、$\alpha$ は、0からの距離  $t$ 以上離れた両側のバラつき部分の面積(確率)を表します。これを $r$ について解くと、

$$r(\phi,\alpha)=\frac{t(\phi,\alpha)}{\sqrt{\phi+t^2(\phi,\alpha)}}  -②$$

また、母集団が相関を持つ($\rho\ne0$)場合、以下の $z$ は近似的に $N(z,1/(n-3))$ に従うことが知られています。

$$z=\frac{1}{2}\ln{\frac{1+r}{1-r}}  -③$$

従って、母相関係数より $\zeta$ を同様に定義すると、

$$\zeta=\frac{1}{2}\ln{\frac{1+\rho}{1-\rho}}  -④$$

以下のように標準化した $u$ は、近似的に $N(0,1^2)$ に従います。

$$u=\sqrt{n-3}(z-\zeta)  -⑤$$

検定の手順

検定は以下の手順で進めます。

1.帰無仮説と有意水準の設定

帰無仮説と有意水準を次のように設定します。

帰無仮説 無相関($\rho=0$)
有意水準 $\alpha=0.05$
2.棄却域の設定

棄却域の条件、つまり帰無仮説が成り立たない条件は②から以下で表されます。

棄却域 $|r|\ge r(\phi,\alpha)=r(n-2,0.05)$

3.相関係数の計算と判定

相関係数 $r$ を計算し、棄却域の条件を満たしていれば、「有意である」とし「相関関係がある」と判断することができます。

$|r|\ge r(n-2,0.05)$ 有意で”ある” 相関関係が”ある”
$|r|\lt r(n-2,0.05)$ 有意で”ない” 相関関係が”ない”

推定の手順

推定は以下の手順で進めます。

1.点推定

母集団の母相関係数 $\rho$ の推定を行います。まず、点推定は相関係数 $r$ を用います。

点推定 $\rho=r$
2.区間推定の有意水準の設定

区間推定では、有意水準を次のように設定します。

有意水準 $\alpha=0.05$
3.相関係数の計算

サンプルデータより相関係数 $r$ を計算し、③から $z$ を求めます。

4.信頼区間の計算

$z$ をもとに、$\zeta$ の信頼区間($\zeta_1,\zeta_2$)と $\rho$ の信頼区間($\rho_1,\rho_2$)を計算します。

⑤の $u$ は近似的に $N(0,1^2)$ に従うため、$u$ の存在する範囲(信頼区間)の条件は以下で表されます。

$$P(-1.960\le\sqrt{n-3}(z-\zeta)\le1.960)=1-\alpha$$

従って、$\zeta$ の信頼区間は以下になり、

$$(\zeta_1,\zeta_2)=\Big(z-\frac{1.960}{\sqrt{n-3}},z+\frac{1.960}{\sqrt{n-3}}\Big)$$

④を使って、$\zeta$ から $\rho$ に変換すると、$\rho$ の信頼区間は以下で表されます。

信頼区間 $$(\rho_1,\rho_2)=\Big(\frac{e^{2\zeta_1}-1}{e^{2\zeta_1}+1},\frac{e^{2\zeta_2}-1}{e^{2\zeta_2}+1}\Big)$$

 

数学
解析学、代数学、幾何学、統計学、論理・基礎論、情報・暗号、機械学習、金融・ゲーム理論、高校数学
散策路TOP
数学、応用数学、古典物理、量子力学、物性論、電子工学、IT、力学、電磁気学、熱・統計力学、連続体力学、解析学、代数学、幾何学、統計学、論理・基礎論、プラズマ物理、量子コンピュータ、情報・暗号、機械学習、金融・ゲーム理論

 

タイトルとURLをコピーしました