目次(まとめ)
◾️ 自由度調整済み決定係数を計算する
◾️ 全変動平方和は、分析手法に依存しない値である
◾️ 優れたモデルとは、自由度調整済み決定係数が大きいモデル
◾️ 参考文献
こんにちは、みっちゃんです。
今回の記事では、こちらの記事に引き続き、2013年に行われた統計検定1級の統計応用の分野共通問題(問5)を取り上げて、解答を得るための方針について解説します(問題の詳細については、参考文献などをご覧ください)。
この問題では、学生120名についての期末試験、中間試験、平常点(レポート点など)の情報をもとに、それらの関係を調査するための「回帰分析」を行った結果を取り扱います。
自由度調整済み決定係数を計算する
以前の記事で紹介したように、一般に、決定係数は、以下のように計算することができます。
$$R^2 = 1 - \frac{\sum_{i = 1}^n (y_i - {\hat y_i})^2}{\sum_{i = 1}^n (y_i - {\overline y_i})^2}\qquad (*)$$
ここで、\(\sum_{i = 1}^n (y_i - {\overline y_i})^2\) は「全変動平方和」、\(\sum_{i = 1}^n (y_i - {\hat y_i})^2\) は「残差平方和」です。
いま、\(y\) の説明変数である \(x\) の次元が \(k\) 個あるとき、つまり、\(x_1, x_2, ..., x_k\) を使って \(y\) を説明しようとするとき、自由度調整済み決定係数は、以下のように得られます。
$$R^{*2}_k = 1 - \frac{\frac{\sum_{i = 1}^n (y_i - {\hat y_i})^2}{n-k-1}}{\frac{\sum_{i = 1}^n (y_i - {\overline y_i})^2}{n-1}}\qquad (**)$$
全変動平方和は、分析手法に依存しない値である
この問題では、「期末試験の点数」を、「中間試験の点数」と「平常点」という複数の要素で説明しようとしているため、重回帰分析を行っています。
重回帰分析の結果は、一通り与えられています。
例えば、「全変動平方和」は、"73207.7" と与えられています。
ここで、全変動平方和は、"観測値と平均値の差の2乗和" なので、この値自体が観測されたデータということになります。
つまり、重回帰分析の結果として与えられていますが、どのような分析を行うにしても、この観測されたデータは変わらないということに注意する必要があります。
一方、「残差平方和」は、"27337.3" と与えられていますが、この残差平方和は、"観測値と予測値の差の2乗和" なので、当然、予測方法が変われば、値が変わってきます。
いま、「期末試験の点数」を、「中間試験の点数」だけを使って説明しようとして、単回帰分析を行うことを考えます(以前の記事をご参照ください)。
このとき、決定係数は、相関係数の2乗値として、以下のように求めることができます。
$$R^2 = (0.772)^2 = 0.596$$
\((*)\) 式をつかって、単回帰分析を行ったときの残差平方和を算出するとき、全変動平方和は、重回帰分析の結果として与えられている値 "73207.7" を使うことができるので、以下のようになります。
$$(残差平方和) = (1-R^2) \times (全変動平方和) = 29575.9$$
この値を用いて、\((**)\) 式をつかって、自由度調整済み決定係数を算出することができます。
$$R^{*2}_1 = 1 - \frac{\frac{29575.9}{120-1-1}}{\frac{73207.7}{120-1}} = 0.593$$
優れたモデルとは、自由度調整済み決定係数が大きいモデル
感覚的にもわかることかもしれませんが、説明変数が多ければ、目的変数をうまく説明できるような気がします。
例えば、「期末試験の点数」を予測するモデルを作りたいときには、「中間試験の点数」だけではなく「平常点」も使うと、いいモデルが得られそうな気がします。
この問題では、中間試験の点数と平常点を使ったモデルである「重回帰式」と、中間試験の点数だけを使ったモデルである「単回帰式」を比較して、どちらが良いモデルか判断する必要があります。
このような判断は、自由度調整済み決定係数を使って、行うことができます。
重回帰分析での自由度調整済み決定係数は "0.620" と与えられており、上で求めた単回帰分析の "0.593" より大きい値であることがわかります。
このことから、重回帰式のほうが優れたモデルであると判断できます。
参考文献
- 日本統計学会「統計検定1級 公式問題集」実務教育出版
- 久保川達也「現代数理統計学の基礎」共立出版