目次(まとめ)

◾️ 検定が有意になるためには、有意確率が0.05より小さくなるようなサンプル数が必要

◾️ 解を得るために、問題設定を理解することが重要

◾️ 解を得るために、どんな確率分布を考えればいいかを考える

◾️ 参考文献


こんにちは、みっちゃんです。

今回の記事では、2013年に行われた統計検定1級の統計数理の問題(問4)を取り上げて、解答を得るための方針について解説します(問題の詳細については、参考文献などをご覧ください)。

この問題では、ある母集団分布 \(F(z)\) にしたがう \(z_i (i = 1, 2, .., n)\) について考えていきます。\(F(z)\) は正規分布には限らず、中央値 \(\theta\) を中心に左右対称な分布という設定です。

母集団分布 \(F(z)\) から、\(n\) 個の \(z_i\) を取り出すとき、「\(z_i\) はゼロではない」「すべての \(z_i\) の絶対値は異なる」という条件があります。

さらに、\(n\) 個の \(z_i\) を "絶対値の小さいもの" から並べたときの \(z_i\) の順位を \(R_i\) とします。正の \(z_i\) についてのみ、順位を足しあわせたものを \(T^{+} = \sum_{z_i > 0} R_i\) を考えます。

この問題を解くためには、このような設定をしっかり理解することが重要です。

検定が有意になるためには、有意確率が0.05より小さくなるようなサンプル数が必要

この問題では、母集団分布 \(F(z)\) の中央値 \(\theta\) がゼロであるという仮説を、帰無仮説として設定しています。

この仮説が成立するとすれば、例えば、\(z_i\) が正の値をとる確率は以下のようになります。
$${\rm Pr}(z_i > 0) = \frac{1}{2} \qquad (i = 1, 2, ..., n)$$
したがって、\(n\) 個の正の \(z_i\) を取り出す確率は、以下のようになります。
$$p = (\frac{1}{2})^n$$
さらに、\(n\) 個の正の \(z_i\) を取り出すとき、その順位は、\(1\) から \(n\) の和になることから、以下の関係が成り立ちます。
$$p = {\rm Pr}(T^{+} = \frac{n(n+1)}{2}) = (\frac{1}{2})^n$$
いま帰無仮説を仮定していますが、有意確率 \(p\) が0.05より大きくなってしまうと、帰無仮説を棄却できません(検定で有意にならない)。

\(n\) に数字を当てはめていくと、\(n = 5\) としたときに、\(p < 0.05\) となり、帰無仮説を棄却できるような検定ができることがわかります。

解を得るために、問題設定を理解することが重要

この問題では、検定の棄却限界値 \(c\) が、
$${\rm Pr}(T^{+} \geq c | H_0) \leq 0.05\qquad(*)$$
を満たす最小の数値であり、サンプル数 \(n = 7\) のときの \(c\) を求める必要があります。

この問題を解くためには、やはり問題の設定をしっかり理解しておくことが必要です。

例えば、[1, 6, 2, 5, 9, 4, 6] という7つの数字を \(z\) として考えると、すべて正の値なので、正の値の順位の和 \(T^{+}\) は必ず "28" になります。

次に、負の値を1つ含むような7つの数字を\(z\) として考えます。ここで、負の値の順位が常に "1" にはならないことに注意してください。なぜなら、順位は、"絶対値" が小さいものが "1" になるようにつけられるからです。

したがって、以下のようにまとめることができます。

全ての数字が正である場合:\(T^{+} = {28}\)
1つの数字が負である場合:\(T^{+} = {27, 26, 25, 24, 23, 22, 21}\)
2つの数字が負である場合:\(T^{+} = {25, 24, 23, 22, 21, ....}\)

\((*)\) 式に当てはめながら考えると、
$${\rm Pr}(T^{+} \geq 28) = 1 \times (\frac{1}{2})^7 = 0.007\\{\rm Pr}(T^{+} \geq 27) = 2 \times (\frac{1}{2})^7 = 0.016\\{\rm Pr}(T^{+} \geq 26) = 3 \times (\frac{1}{2})^7 = 0.023\\{\rm Pr}(T^{+} \geq 25) = 5 \times (\frac{1}{2})^7 = 0.039\\{\rm Pr}(T^{+} \geq 24) = 7 \times (\frac{1}{2})^7 = 0.055$$
となるので、帰無仮説を棄却するための棄却限界値 \(c\) は "25" であることがわかります。

解を得るために、どんな確率分布を考えればいいかを考える

この問題では、正の \(z_i\) について、順位 \(R_i\) を足しあわせた \(T^{+} = \sum_{z_i > 0} R_i\) について、平均と分散を求める必要があります。

この問題を解くためのポイントの一つは、\(z_i\) が正の値か負の値かを示すための確率変数を考えることができるかという点です。

参考文献では、新たな確率変数 \(U_i\) を考え、\(T^{+}\) を以下のように表現しています。
$$T^{+} = \sum_{i = 1}^n U_i R_i$$
ここで、\(U_i\) は \(z_i\) が正の値のとき "1"、負の値のとき "0" を持つような確率変数であることから、結局 \(T_i\) には、正の \(z_i\) の順位のみ足されるようになっています。

母集団分布 \(F(z)\) の中央値 \(\theta\) がゼロである場合、それぞれの \(U_i\) がサンプル数 \(n\)、確率 \(\frac{1}{2}\) の2項分布にしたがうので、その平均と分散は以下のように与えられます(2項分布の詳細はこちらの記事をご覧ください)。
$$E[U_i] = \frac{1}{2}V[U_i] = \frac{1}{4}$$
このことから、\(E[T^{+}]\) と \(V[T^{+}]\) は、以下のように計算することができます。
$$E[T^{+}] = \sum_{i = 1}^n E[U_i]R_i = \frac{n(n + 1)}{4}\\V[T^{+}] = \sum_{i = 1}^n V[U_i]R_i^2 = \frac{n(n + 1)(2n+1)}{24}$$

参考文献

日本統計学会「統計検定1級 公式問題集」実務教育出版