回帰分析とは - 理数の散策路

単回帰モデル
回帰式の導出と評価
導出

単回帰モデル

回帰分析とは、目的変数（従属変数）$y$ と説明変数（独立変数）$x$ の間に定量的な関係 $y=f(x)$ を見出すことです。特に、説明変数が１つの場合を単回帰と呼びます。

単回帰モデルを以下のような直線で仮定します。この係数 $a$ 、$b$ を求め、その妥当性を評価することが回帰分析の目的です。

$$y=a+bx$$

回帰式

回帰式とは、実測値（$x_i,y_i$）から最小二乗法により求められた係数 $\hat{a}$ 、$\hat{b}$ により表される直線です。

$$\hat{y}_i=\hat{a}+\hat{b}x_i　　-①$$

尚、回帰式で得られる予測値 $\hat{y}_i$ は実測値 $y_i$ とは異なります。

平方和と偏差積和の定義

$n$ 個の実測値の平均 $\overline{x}$ 、$\overline{y}$ を以下で定義すると、

$$\overline{x}=\frac{1}{n}\sum x_i$$$$\overline{y}=\frac{1}{n}\sum y_i$$

説明変数 $x$ と目的変数 $y$ の平方和は以下で定義されます。

$$S_{xx}\equiv\sum(x_i-\overline{x})^2=\sum x_i^2-n\overline{x}^2　　-②$$$$S_{yy}\equiv\sum(y_i-\overline{y})^2=\sum y_i^2-n\overline{y}^2　　-③$$

回帰による平方和 $S_R$ は以下で定義されます。

$$S_R\equiv\sum(\hat{y}_i-\overline{y})^2$$

偏差積和 $S_{xy}$ は以下で定義されます。

$$S_{xy}\equiv\sum(x_i-\overline{x})(y_i-\overline{y})=\sum x_iy_i-n\overline{x}\overline{y}　　-④$$

残差と残差平方和の定義

残差 $e_i$ は実測値と予測値の差で定義され、

$$e_i\equiv y_i-\hat{y}_i$$

残差はランダムに表れるため以下になります。

$$\sum e_i=0$$

残差平方和 $S_e$ は残差の２乗和として定義されます。

$$S_e\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{a}-\hat{b}x_i)^2$$

回帰式の導出と評価

残差平方和を最小にする係数 $\hat{a}$ 、$\hat{b}$ を最小二乗法で求めます。残差平方和が停留点をもつ条件は以下になり、

$$\frac{\partial S_e}{\partial\hat{a}}=\frac{\partial S_e}{\partial\hat{b}}=0　　-⑤$$

これより回帰式の係数を求めると（⑥⑦の導出）、

$$\hat{a}=\bar{y}-\hat{b}\bar{x}　　-⑥$$$$\hat{b}=\frac{S_{xy}}{S_{xx}}　　-⑦$$

従って、回帰式①は次で表されます。この直線は平均値（$\overline{x},\overline{y}$）を通ることが分かります。

$$\hat{y}=\overline{y}+\frac{S_{xy}}{S_{xx}}(x-\overline{x})　　-⑧$$

これらの関係より、残差については以下が成り立ち、（⑨の導出）

$$\sum x_ie_i=0　　-⑨$$

残差平方和は以下のように表すことができます。ここで $S_R$ は回帰によって説明できる変動です。（⑩の導出）

$$S_e\equiv S_{yy}-S_R$$$$S_R=\frac{S_{xy}^2}{S_{xx}}　　-⑩$$

寄与率

寄与率 $R^2$ とは、目的変数の全変動 $S_{yy}$ のうち、回帰によって説明できる変動 $S_R$ の割合で以下で定義されます。寄与率は１に近いほど性能のよい回帰式であることが言えます。

$$R^2\equiv\frac{S_R}{S_{yy}}$$

寄与率は以下のように表すことができます。（⑪の導出）

$$R^2=1-\frac{S_e}{S_{yy}}=\frac{S_{xy}^2}{S_{xx}S_{yy}}　　-⑪$$

尚、右辺は以下の相関係数 $r_{xy}$ の２乗と等しくなります。

$$r_{xy}\equiv\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

標準化残差

標準化残差とは、実測値が予測値（回帰式）からどれくらい離れているかを表す量です。$k$ 番目のサンプルの標準化残差 $e_k’$ は以下で定義されます。

$$e_k’\equiv\frac{e_k}{\sqrt{V_e}}$$

ここで $V_e$ は分散で、残差平方和を自由度で割って求められます。

$$V_e=\frac{S_e}{\phi_e}=\frac{S_e}{n-2}$$

標準化残差は標準正規分布 $N(0,1^2)$ に従うため、標準化残差が大きいサンプルは異常でないか検討し、異常である理由が見つかった場合は、そのサンプルを外して分析をやり直す必要があります。

テコ比

回帰式 $\hat{y}_i$ をサンプル（実測値）$y_j$ で展開した場合、

$$\hat{y}_i\equiv\sum_{j=1}^nh_{ij}y_j　　-⑫$$

テコ比とは、実測値 $y_i$ の変化に対する予測値 $\hat{y}_i$ の変化の比 $h_{ii}$ で表されます。（⑬の導出）

$$h_{ii}\equiv\frac{1}{n}+\frac{(x_i-\overline{x})^2}{S_{xx}}　　-⑬$$

テコ比が大きすぎると、予測値（回帰式）が実測値の変動により強く影響されることを表しており、好ましくありません。テコ比は $i$ 番目の実測値の平均値から乖離度を表します。

導出

⑥⑦の導出

条件式⑤を計算し、②と④を使って書き換えると、

$$0=\frac{\partial S_e}{\partial\hat{a}}=-2\sum(y_i-\hat{a}-\hat{b}x_i)$$$$=-2(n\overline{y}-n\hat{a}-n\hat{b}\bar{x})$$

従って、

$$\hat{a}=\bar{y}-\hat{b}\bar{x}　\to　⑥$$

一方、

$$0=\frac{\partial S_e}{\partial\hat{b}}=-2\sum x_i(y_i-\hat{a}-\hat{b}x_i)$$$$=-2\Big(S_{xy}+n\bar{x}\bar{y}-n\hat{a}\bar{x}-\hat{b}(S_{xx}+n\bar{x}^2)\Big)$$$$=-2(S_{xy}-\hat{b}S_{xx})$$

最後は⑥を代入しています。これより⑦が得られます。

⑨を導く

⑨の左辺に①を代入して、②と④を使うと、

$$\sum x_ie_i=\sum x_i(y_i-\hat{y}_i)$$$$=\sum x_iy_i-\sum x_i(\hat{a}+\hat{b}x_i)$$$$=S_{xy}+n\bar{x}\bar{y}-n\hat{a}\bar{x}-\hat{b}(S_{xx}+n\bar{x}^2)$$$$=0$$

最後は⑥と⑦を代入すると⑨が導かれます。

⑩を導く

残差平方和は定義式に⑥と⑦を代入すると、

$$S_e=\sum(y_i-\hat{a}-\hat{b}x_i)^2$$$$=\sum\Big((y_i-\bar{y})-\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\Big)^2$$$$=\sum\Big((y_i-\bar{y})^2-2\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})(y_i-\bar{y})+\frac{S_{xy}^2}{S_{xx}^2}(x_i-\bar{x})^2\Big)$$$$=S_{yy}-\frac{S_{xy}^2}{S_{xx}}$$

最後は②③④を代入することで⑩が得られます。

⑪を導く

回帰による平方和に⑧を代入すると、

$$S_R=\sum\Big(\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\Big)^2=\frac{S_{xy}^2}{S_{xx}}$$

これを寄与率に代入すると⑪が得られます。

$$R^2=\frac{S_R}{S_{yy}}=\frac{S_{xy}^2}{S_{xx}S_{yy}}$$

⑬を導く

⑧に④を代入すると、

$$\hat{y}_i=\frac{1}{n}\sum_jy_j+\frac{x_i-\bar{x}}{S_{xx}}\sum_j(x_j-\bar{x})(y_j-\bar{y})$$$$=\sum_{j=1}^n\Big(\frac{1}{n}+\frac{(x_i-\overline{x})(x_j-\overline{x})}{S_{xx}}\Big)y_j$$

ここで $j=i$ の係数より⑬が得られます。