目次(まとめ)
◾️ 分散が等しい2つの母集団から得られた2種類の標本から、その分散を推定する場合には「プールした分散」を用いる
◾️ 母分散と不偏分散の比は、カイ2乗分布にしたがう
◾️ ステューデントのt-分布を用いて、検定に用いる統計量を算出
◾️ Rを使ったステューデントのt-検定との比較検証
◾️ 参考文献
◾️ 関連記事
こんにちは、みっちゃんです。
以前の記事で、2種類の数値データ(正規分布にしたがう)があったとき、そのデータ間に意味のある差があるかどうか検定するt-検定について紹介しました。
今回の記事では、分散が等しく対応がない2つの数値データについて平均値を使って検定する「ステューデントのt-検定」について、数式をつかって仕組みを解説します。
分散が等しい2つの母集団から得られた2種類の標本から、その分散を推定する場合には「プールした分散」を用いる
ここでは、平均 \(\mu_1\)、分散 \(\sigma^2\) の正規分布にしたがう確率変数 \(X\) の母集団から、\(m\) 個の標本を取り出して \(X_1, X_2, ..., X_m\) とします。これらの標本は互いに独立に \(N(\mu_1, \sigma^2)\) にしたがうとします。
ここで、標本平均は \(\mu_1\)、標本分散は \(\frac{\sigma^2}{m}\) となります。
同じように、平均 \(\mu_2\)、分散 \(\sigma^2\) の正規分布にしたがう確率変数 \(Y\) の母集団から、\(n\) 個の標本を取り出して \(Y_1, Y_2, ..., Y_n\) とします。これらの標本は互いに独立に \(N(\mu_2, \sigma^2)\) にしたがうとします。
ここで、標本平均は \(\mu_2\)、標本分散は \(\frac{\sigma^2}{n}\) となります。
このような状況において、未知の分散である \(\sigma^2\) を推定することを考えると、例えば、確率変数 \(X\) の標本からは不偏分散 \(\frac{1}{m-1} \sum_{i = 1}^m (X_i - \overline{X})^2\) として推定でき、また、確率変数 \(Y\) の標本からは不偏分散 \(\frac{1}{n-1} \sum_{i = 1}^n (Y_i - \overline{Y})^2\) として推定できると考えられます。
しかし、確率変数 \(X\) の標本を使った推定分散と、確率変数 \(Y\) の標本を使った推定分散が食い違ってきてしまいます。
そこで、確率変数 \(X\) の標本から得られる情報と、確率変数 \(Y\) の標本から得られる情報を組み合わせて「プールした分散」と呼ばれる推定分散 \(\hat{\sigma}^2\) が定義されます。
$$\hat{\sigma}^2 = \frac{1}{(m-1) + (n-1)} \{\sum_{i = 1}^m (X_i - \overline{X})^2 + \sum_{i = 1}^n (Y_i - \overline{Y})^2\}\qquad (1)$$
母分散と不偏分散の比は、カイ2乗分布にしたがう
平均 \(\mu\)、分散 \(\sigma^2\) の正規分布にしたがう確率変数 \(X\) の母集団から、\(m\) 個の標本を取り出して \(X_1, X_2, ..., X_m\) とするとき、分散の推定値である不偏分散 \(V^2\)は、以下のように表現されます。
$$V^2 = \frac{1}{m-1} \sum_{i = 1}^m (X_i - \overline{X})^2$$
このとき、母分散と不偏分散の比は、自由度 \(m-1\) のカイ2乗分布にしたがいます。
$$\frac{(m-1)V^2}{\sigma^2} \sim \chi_{m-1}^2$$
この式を、\((1)\) 式について考えると、以下のような関係が得られます。
$$\frac{(m+n-2)\hat{\sigma}^2}{\sigma^2} \sim \chi_{m+n-2}^2\qquad (2)$$
ステューデントのt-分布を用いて、検定に用いる統計量を算出
いまやりたいことは、正規分布にしたがう確率変数 \(X\) の母集団から抽出した \(m\) 個の標本 \(X_1, X_2, ..., X_m\) の標本平均 \(\overline{X}\) と、正規分布にしたがう確率変数 \(Y\) の母集団から抽出した \(n\) 個の標本 \(Y_1, Y_2, ..., Y_n\) の標本平均 \(\overline{Y}\) を比較して、差があるかどうかを検定するということです。
確率変数の平均が等しいと仮定する場合、標本平均の差も以下のような正規分布にしたがいます。
$$\overline{X} - \overline{Y} \sim N(0, \frac{\sigma^2}{m} + \frac{\sigma^2}{n})$$
これを標準正規分布にしたがうように変形をすると、以下のようになります。
$$\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma^2}{m} + \frac{\sigma^2}{n}}} \sim N(0, 1)\qquad (3)$$
以前の記事で紹介したように、自由度 \(k\) のt-分布は、以下のように定義される確率変数 \(T\) の分布です。
$$T = \frac{Z}{\sqrt{\frac{U}{k}}}\qquad (*)$$
ここで、\(Z\) は標準正規分布(平均:0、分散:1;詳細はこちらの記事)にしたがう確率変数、\(U\) は自由度 \(k\) のカイ2乗分布(平均:\(k\)、分散:\(2k\)、詳細はこちらの記事)にしたがう、互いに独立な確率変数です。
\((*)\) 式に、\((2)\) 式と \((3)\) 式の関係を当てはめると、以下のような関係が得られます。
$$T = \frac{\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma^2}{m} + \frac{\sigma^2}{n}}}}{\sqrt{\frac{(m+n-2)\hat{\sigma}^2}{\sigma^2}\frac{1}{m + n -2}}}$$
結果として得られる \(T\) が、自由度 \(m + n -2\) のステューデントのt-分布にしたがうことになり、ステューデントのt-検定に用いられます。
Rを使ったステューデントのt-検定との比較検証
Rをつかって、ステューデントのt-検定に用いる \(T\) 値を計算するためのスクリプト例は以下のようになります。
> m <- 10
> n <- 10
>
> X <- rnorm(m, 0, 1)
> Y <- rnorm(n, 0, 1)
>
> sum_X = 0.0
> for(i in 1:m){
+ sum_X = sum_X + (X[i]-mean(X))^2
+ }
> sum_Y = 0.0
> for(i in 1:n){
+ sum_Y = sum_Y + (Y[i]-mean(Y))^2
+ }
>
> sigma_hat_2 = (sum_X + sum_Y)/(m + n - 2)
>
> T <- ((mean(X)-mean(Y))*sqrt(m*n)/sqrt(m+n))/(sqrt(sigma_hat_2))
ランダムの要素があるので結果は人によって変わりますが、わたしの場合は、\(T\) は "0.2743873" となりました。
この値は、以下のように、ステューデントのt-検定を行った場合に表示される \(t\) 値と一致しています(Rを使ったt-検定については、こちらの記事をご覧ください)。
> t.test(X, Y, var.equal=T, paired=F)
Two Sample t-test
data: X and Y
t = 0.27439, df = 18, p-value = 0.7869
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.9131543 1.1875075
sample estimates:
mean of x mean of y
0.06848347 -0.06869318
参考文献
久保川達也「現代数理統計学の基礎」共立出版