回帰分析とは

/統計分析

回帰分析とは、目的変数(従属変数)$y$ と説明変数(独立変数)$x$ の間に定量的な関係 $y=f(x)$ を見出すことです。特に、説明変数が1つの場合を単回帰と呼びます。

単回帰モデル

単回帰モデルを以下のような直線で仮定します。この係数($a$、$b$)を求めることが回帰分析の目的です。

$$y=a+bx$$

回帰式

回帰式とは、実測値($x_i,y_i$)から最小二乗法により求められた係数($\hat{a},\hat{b}$)により表される直線です。

$$\hat{y}_i=\hat{a}+\hat{b}x_i$$

尚、回帰式で得られる予測値 $\hat{y}_i$ は実測値 $y_i$ とは異なります。

平方和と偏差積和

n個の実測値の平均($\overline{x},\overline{y}$)を以下で定義すると、

$$\overline{x}=\frac{1}{n}\sum x_i  ,  \overline{y}=\frac{1}{n}\sum y_i$$

平方和($S_{xx},S_{yy}$)と偏差積和($S_{xy}$)は以下で定義されます。

$$S_{xx}\equiv\sum(x_i-\overline{x})^2=\sum x_i^2-n\overline{x}^2$$

$$S_{yy}\equiv\sum(y_i-\overline{y})^2=\sum y_i^2-n\overline{y}^2$$

$$S_{xy}\equiv\sum(x_i-\overline{x})(y_i-\overline{y})=\sum x_iy_i-n\overline{x}\overline{y}$$

残差と残差平方和

残差($e_i$)は実測値と予測値の差($y_i-\hat{y}_i$)で定義され、残差平方和($S_e$)は残差の2乗和として定義されます。

$$S_e\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{a}-\hat{b}x_i)^2$$

回帰式の導出と評価

最小二乗法では、残差平方和を最小にする係数($\hat{a},\hat{b}$)を求めます。この条件は以下のように、この係数での微分が0となることです。

$$\frac{\partial S_e}{\partial\hat{a}}=-2\sum(y_i-\hat{a}-\hat{b}x_i)=0$$

$$\frac{\partial S_e}{\partial\hat{b}}=-2\sum x_i(y_i-\hat{a}-\hat{b}x_i)=0$$

この連立方程式を解き、平方和と偏差積和を使うと係数は以下になります。

$$\hat{a}=\overline{y}-\frac{S_{xy}}{S_{xx}}\overline{x}  ,  \hat{b}=\frac{S_{xy}}{S_{xx}}$$

以上より、回帰式は次のようになり、この直線は平均値($\overline{x},\overline{y}$)を通ることが分かります。

$$\hat{y}=\overline{y}+\hat{b}(x-\overline{x})$$

残差と残差平方和

上記の連立方程式より、残差については以下が成り立つことが分かります。

$$\sum e_i=\sum x_ie_i=0$$

また、残差平方和は定義式より、

$$S_e=\sum(y_i-\hat{a}-\hat{b}x_i)^2=\sum\Big((y_i-\bar{y})+\frac{S_{xy}}{S_{xx}}(\bar{x}-x_i)\Big)^2$$

を計算していくと、以下で表すことができます。

$$S_e=S_{yy}-\hat{b}S_{xy}$$

寄与率

寄与率($R^2$)とは、目的変数の全変動($S_{yy}$)のうち回帰によって説明できる変動($S_R$)の割合で、以下で定義されます。寄与率は1に近いほど性能のよい回帰式であることが言えます。

$$R^2\equiv\frac{S_R}{S_{yy}}=1-\frac{S_e}{S_{yy}}=r_{xy}^2$$

最後の $r_{xy}$ は相関係数で、以下で定義されます。

$$r_{xy}\equiv\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

また、$S_R$ は回帰による平方和で、以下で定義されます。

$$S_R\equiv S_{yy}-S_e=\hat{b}S_{xy}=\sum(\hat{y}_i-\overline{y})^2$$

尚、この式の最後のイコールは、回帰式を使って次のようにして確認することができます。

$$\sum(\hat{y}_i-\overline{y})^2=\sum\hat{b}^2(x_i-\bar{x})^2=\frac{S_{xy}^2}{S_{xx}}$$

標準化残差

標準化残差とは、実測値が予測値(回帰式)からどれくらい離れているかを表す量です。k番目のサンプルの標準化残差($e_k’$)は以下で定義されます。

$$e_k’\equiv\frac{e_k}{\sqrt{V_e}}$$

ここで $$V_e は分散で、残差平方和を自由度で割って求められます。

$$V_e=\frac{S_e}{\phi_e}=\frac{S_e}{n-2}$$

標準化残差は標準正規分布 $N(0,1^2)$ に従うため、標準化残差が大きいサンプルは異常でないか検討し、異常である理由が見つかった場合は、そのサンプルを外して分析をやり直す必要があります。

テコ比

テコ比とは、実測値の変化に対する予測値の変化の比を表します。$k$ 番目のサンプルのテコ比($h_{kk}$)は以下で定義されます。

$$h_{kk}\equiv\frac{1}{n}+\frac{(x_k-\overline{x})^2}{S_{xx}}$$

テコ比が大きすぎると、予測値(回帰式)が実測値の変動により強く影響されることを表しており、好ましくありません。テコ比は $k$ 番目の実測値の平均値から乖離度を表します。

尚、テコ比は、回帰式の展開式の第 $k$ 項の係数となります。

$$\hat{y}_k=\overline{y}+\hat{b}(x_k-\overline{x})=\sum_{i=1}^n\left(\frac{1}{n}+\frac{(x_k-\overline{x})(x_i-\overline{x})}{S_{xx}}\right)y_i\equiv\sum_{i=1}^nh_{ki}y_i$$

 

数学
線形代数学、正規分布、統計分析
数理の散策路
力学、電磁気・相対論、熱・統計力学、量子力学、物性物理、機械学習、情報処理、金融、物理数学

Wikipedia

 

タイトルとURLをコピーしました