目次(まとめ)

◾️ 分散の差を検定するためには、分散の比を用いる

◾️ Rを使ってF-検定を行う方法

◾️ 参考文献


こんにちは、みっちゃんです。

以前の記事で、正規分布にしたがう2つの数値データが与えられたときに、それらの平均値に意味のある差があるかどうかを検定するためのt-検定について紹介しました。

今回の記事では、同じように、正規分布にしたがう2つの数値データが与えられたときに、それらの分散に意味のある差があるかどうかを検定するためのF-検定について紹介します。

分散の差を検定するためには、分散の比を用いる

ここでは、平均 \(\mu_1\)、分散 \(\sigma_1^2\) の正規分布にしたがう確率変数 \(X\) の母集団から、\(m\) 個の標本を取り出して \(X_1, X_2, ..., X_m\) とします。これらの標本は互いに独立に \(N(\mu_1, \sigma_1^2)\) にしたがうとします。

ここで、未知の分散である \(\sigma_1^2\) を推定することを考えると、例えば、確率変数 \(X\) の標本からは不偏分散 \(\hat{\sigma_1}^2 = \frac{1}{m-1} \sum_{i = 1}^m (X_i - \overline{X})^2\) として推定できます。

同じように、平均 \(\mu_2\)、分散 \(\sigma_2^2\) の正規分布にしたがう確率変数 \(Y\) の母集団から、\(n\) 個の標本を取り出して \(Y_1, Y_2, ..., Y_n\) とします。これらの標本は互いに独立に \(N(\mu_2, \sigma_2^2)\) にしたがうとします。

ここで、未知の分散である \(\sigma_2^2\) を推定することを考えると、例えば、確率変数 \(Y\) の標本からは不偏分散 \(\hat{\sigma_2}^2 = \frac{1}{n-1} \sum_{i = 1}^n (Y_i - \overline{Y})^2\) として推定できます。

いま、分散が等しいかどうかを検定したいので、以下のような統計検定量を考えます。
$$\frac{\hat{\sigma_1}^2}{\hat{\sigma_2}^2}$$
帰無仮説として、分散が等しい(\(\sigma_1^2 = \sigma_2^2\))という仮説を立てるとき、\(\sigma_1^2 = \sigma_2^2 = \sigma^2\) と考えることができるので、統計検定量は以下のように書き換えることができます。
$$\frac{\hat{\sigma_1}^2}{\hat{\sigma_2}^2} = \frac{\frac{\hat{\sigma_1}^2}{\sigma^2}}{\frac{\hat{\sigma_2}^2}{\sigma^2}}$$
ここで、以前の記事で紹介したように、母分散と不偏分散の比は、自由度 \(m-1\) のカイ2乗分布にしたがいます。
$$\frac{(m-1)V^2}{\sigma^2} \sim \chi_{m-1}^2$$
この関係を用いると、統計検定量は、以下のような確率分布にしたがうことがわかります。
$$\frac{\hat{\sigma_1}^2}{\hat{\sigma_2}^2} = \frac{\frac{\hat{\sigma_1}^2}{\sigma^2}}{\frac{\hat{\sigma_2}^2}{\sigma^2}} \sim \frac{\frac{\chi_{m-1}^2}{m-1}}{\frac{\chi_{n-1}^2}{n-1}} \qquad (*)$$
さらに、以前の記事で紹介したように、自由度 \((m, n)\) のF-分布は、以下のように定義される確率変数 \(F\) の分布です。
$$F = \frac{\frac{S}{m}}{\frac{T}{n}}$$
ここで、\(S\) は自由度 \(m\) のカイ2乗分布(平均:\(m\)、分散:\(2m\))、\(T\) は自由度 \(n\) のカイ2乗分布(平均:\(n\)、分散:\(2n\))にしたがう、互いに独立な確率変数です。

したがって、\((*)\) 式は、自由度 \((m-1, n-1)\) のF-分布にしたがうことになります。

Rを使ってF-検定を行う方法

ここでは以下のように、標準正規分布に従い、2つの数値データをランダムに生成します。

$ R -q
> X <- rnorm(10, 0, 1)
> Y <- rnorm(10, 0, 1)

この2つの数値データに対して、F-検定を実施するためには、以下のように実行します。

> var.test(X, Y)

これを実行すると、私の場合には、以下のような結果が出力されました。

> var.test(X, Y)

	F test to compare two variances

data:  X and Y
F = 1.8438, num df = 9, denom df = 9, p-value = 0.3756
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.457983 7.423276
sample estimates:
ratio of variances 
          1.843837 

"p-value" は、0.3756となっているため、「2つの数値データ間で母分散が等しい」とした帰無仮説を棄却することができず、2つの数値データ間で母分散が等しいという結論に至ります。

参考文献

久保川達也「現代数理統計学の基礎」共立出版