目次(まとめ)
◾️ 相関係数は、共分散を標準偏差の積で割ることで得られる
◾️ 単回帰式の係数は、相関係数、平均、標準偏差を使って求めることができる
◾️ 決定係数は、相関係数を2乗することで得られる
◾️ 参考文献
◾️ 関連記事
こんにちは、みっちゃんです。
今回の記事では、2013年に行われた統計検定1級の統計応用の分野共通問題(問5)を取り上げて、解答を得るための方針について解説します(問題の詳細については、参考文献などをご覧ください)。
この問題では、学生120名についての期末試験、中間試験、平常点(レポート点など)の情報をもとに、それらの関係を調査するための「回帰分析」を行った結果を取り扱います。
相関係数は、共分散を標準偏差の積で割ることで得られる
以前の記事で紹介したように、確率変数 \(X\) と \(Y\) の相関係数(correlation coefficient)は、以下のように計算することができます。
$${\rm Corr}(X, Y) = \frac{{\rm Cov}(X, Y)}{\sqrt{{\rm Var}(X){\rm Var}(Y)}}$$
単回帰式の係数は、相関係数、平均、標準偏差を使って求めることができる
この問題では、中間試験の点数 \(X\) をつかって、期末試験の点数 \(Y\) を説明するモデルを考えています。
具体的には、以下のような「単回帰式」を設定します。
$$Y = a_0 + a_1 X$$
やっていることは中学校で習うレベルのことですが、傾き \(a_1\)、切片 \(a_0\) という直線をつかって、期末試験の点数を表現したいということです。
ここで、傾きは、以下のように求めることができます。
$$a_1 = {\rm Corr}(X, Y) \times \frac{\sqrt{{\rm Var}(Y)}}{\sqrt{{\rm Var}(X)}}$$
この問題では、\({\rm Corr}(X, Y) = 0.772\)、\(\sqrt{{\rm Var}(X)} = 14.79\)、\(\sqrt{{\rm Var}(Y)} = 24.80\) という値が得られているので、
$$a_1 = 1.294$$
という値を求めることができます。
また、切片は、以下のように求めることができます。
$$a_0 = E[Y] - a_1 E[X] = E[Y] - 1.294 E[X]$$
ここで、\(E[X] = 50.66\)、\(E[Y] = 63.22\) という情報が得られているので、
$$a_0 = -2.359$$
という値を求めることができます。
決定係数は、相関係数を2乗することで得られる
上で求めることができた「単回帰式」をつかった単回帰分析では、相関係数と重相関係数が一致します。
この問題では、中間試験の点数 \(X\) と期末試験の点数 \(Y\) の相関係数\({\rm Corr}(X, Y)\) の値が \(0.772\) であることが与えられているので、この相関係数が重相関係数に一致し、決定係数 \(R^2\) は以下のようになります。
$$R^2 = (0.772)^2 = 0.596$$
この決定係数の値から、「中間試験の点数」が「期末試験の点数」の変動の約60%を説明しているということがわかります。
また、一般に、決定係数は、以下のように計算することができます。
$$R^2 = \frac{\sum_{i = 1}^n ({\hat y_i} - {\overline y_i})^2}{\sum_{i = 1}^n (y_i - {\overline y_i})^2} = 1 - \frac{\sum_{i = 1}^n (y_i - {\hat y_i})^2}{\sum_{i = 1}^n (y_i - {\overline y_i})^2}$$
ここで、\(\sum_{i = 1}^n (y_i - {\overline y_i})^2\) は「全変動平方和」、\(\sum_{i = 1}^n ({\hat y_i} - {\overline y_i})^2\)は「回帰変動平方和」、\(\sum_{i = 1}^n (y_i - {\hat y_i})^2\) は「残差平方和」と呼ばれ、以下のような関係があります。
$$(全変動平方和) = (回帰変動平方和) + (残差平方和)$$
参考文献
- 日本統計学会「統計検定1級 公式問題集」実務教育出版
- 久保川達也「現代数理統計学の基礎」共立出版