回帰分析とは、目的変数(従属変数)$y$ と説明変数(独立変数)$x$ の間に定量的な関係 $y=f(x)$ を見出すことです。特に、説明変数が1つの場合を単回帰と呼びます。
単回帰モデル
単回帰モデルを以下のような直線で仮定します。この係数($a$、$b$)を求めることが回帰分析の目的です。
$$y=a+bx$$
回帰式
回帰式とは、実測値($x_i,y_i$)から最小二乗法により求められた係数($\hat{a},\hat{b}$)により表される直線です。
$$\hat{y}_i=\hat{a}+\hat{b}x_i$$
尚、回帰式で得られる予測値 $\hat{y}_i$ は実測値 $y_i$ とは異なります。
平方和と偏差積和
n個の実測値の平均($\overline{x},\overline{y}$)を以下で定義すると、
$$\overline{x}=\frac{1}{n}\sum x_i , \overline{y}=\frac{1}{n}\sum y_i$$
平方和($S_{xx},S_{yy}$)と偏差積和($S_{xy}$)は以下で定義されます。
$$S_{xx}\equiv\sum(x_i-\overline{x})^2=\sum x_i^2-n\overline{x}^2$$
$$S_{yy}\equiv\sum(y_i-\overline{y})^2=\sum y_i^2-n\overline{y}^2$$
$$S_{xy}\equiv\sum(x_i-\overline{x})(y_i-\overline{y})=\sum x_iy_i-n\overline{x}\overline{y}$$
残差と残差平方和
残差($e_i$)は実測値と予測値の差($y_i-\hat{y}_i$)で定義され、残差平方和($S_e$)は残差の2乗和として定義されます。
$$S_e\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{a}-\hat{b}x_i)^2$$
回帰式の導出と評価
最小二乗法では、残差平方和を最小にする係数($\hat{a},\hat{b}$)を求めます。この条件は以下のように、この係数での微分が0となることです。
$$\frac{\partial S_e}{\partial\hat{a}}=-2\sum(y_i-\hat{a}-\hat{b}x_i)=0$$
$$\frac{\partial S_e}{\partial\hat{b}}=-2\sum x_i(y_i-\hat{a}-\hat{b}x_i)=0$$
この連立方程式を解き、平方和と偏差積和を使うと係数は以下になります。
$$\hat{a}=\overline{y}-\frac{S_{xy}}{S_{xx}}\overline{x} , \hat{b}=\frac{S_{xy}}{S_{xx}}$$
以上より、回帰式は次のようになり、この直線は平均値($\overline{x},\overline{y}$)を通ることが分かります。
$$\hat{y}=\overline{y}+\hat{b}(x-\overline{x})$$
残差と残差平方和
上記の連立方程式より、残差については以下が成り立つことが分かります。
$$\sum e_i=\sum x_ie_i=0$$
また、残差平方和は定義式より、
$$S_e=\sum(y_i-\hat{a}-\hat{b}x_i)^2$$$$=\sum\Big((y_i-\bar{y})+\frac{S_{xy}}{S_{xx}}(\bar{x}-x_i)\Big)^2$$
を計算していくと、以下で表すことができます。
$$S_e=S_{yy}-\hat{b}S_{xy}$$
寄与率
寄与率($R^2$)とは、目的変数の全変動($S_{yy}$)のうち回帰によって説明できる変動($S_R$)の割合で、以下で定義されます。寄与率は1に近いほど性能のよい回帰式であることが言えます。
$$R^2\equiv\frac{S_R}{S_{yy}}=1-\frac{S_e}{S_{yy}}=r_{xy}^2$$
最後の $r_{xy}$ は相関係数で、以下で定義されます。
$$r_{xy}\equiv\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$
また、$S_R$ は回帰による平方和で、以下で定義されます。
$$S_R\equiv S_{yy}-S_e=\hat{b}S_{xy}=\sum(\hat{y}_i-\overline{y})^2$$
尚、この式の最後のイコールは、回帰式を使って次のようにして確認することができます。
$$\sum(\hat{y}_i-\overline{y})^2=\sum\hat{b}^2(x_i-\bar{x})^2=\frac{S_{xy}^2}{S_{xx}}$$
標準化残差
標準化残差とは、実測値が予測値(回帰式)からどれくらい離れているかを表す量です。k番目のサンプルの標準化残差($e_k’$)は以下で定義されます。
$$e_k’\equiv\frac{e_k}{\sqrt{V_e}}$$
ここで $$V_e は分散で、残差平方和を自由度で割って求められます。
$$V_e=\frac{S_e}{\phi_e}=\frac{S_e}{n-2}$$
標準化残差は標準正規分布 $N(0,1^2)$ に従うため、標準化残差が大きいサンプルは異常でないか検討し、異常である理由が見つかった場合は、そのサンプルを外して分析をやり直す必要があります。
テコ比
テコ比とは、実測値の変化に対する予測値の変化の比を表します。$k$ 番目のサンプルのテコ比($h_{kk}$)は以下で定義されます。
$$h_{kk}\equiv\frac{1}{n}+\frac{(x_k-\overline{x})^2}{S_{xx}}$$
テコ比が大きすぎると、予測値(回帰式)が実測値の変動により強く影響されることを表しており、好ましくありません。テコ比は $k$ 番目の実測値の平均値から乖離度を表します。
尚、テコ比は、回帰式の展開式の第 $k$ 項の係数となります。
$$\hat{y}_k=\overline{y}+\hat{b}(x_k-\overline{x})=\sum_{i=1}^n\left(\frac{1}{n}+\frac{(x_k-\overline{x})(x_i-\overline{x})}{S_{xx}}\right)y_i$$$$\equiv\sum_{i=1}^nh_{ki}y_i$$

