目次(まとめ)
◾️ 注目している確率変数の分布を求める
◾️ 検出力を確保するために必要なサンプル数を求める
◾️ 参考文献
こんにちは、みっちゃんです。
今回の記事では、2013年に行われた統計検定1級の統計応用の医薬生物学分野の問題(問3)を取り上げて、解答を得るための方針について解説します(問題の詳細については、参考文献などをご覧ください)。
この問題では、さまざまな医院の患者に対する2つの処置の効果を検証する比較研究について取り扱っています。
注目している確率変数の分布を求める
第 \(j\) 医院における患者について平均値を考えると、患者数は \(n\) 人なので、以下のようになります。
$$\overline{Y}_{ij} = \frac{Y_{ij1} + Y_{ij2} + ... + Y_{ijn}}{n} = \frac{\sum_{k = 1}^n Y_{ijk}}{n}$$
ここで、
$$Y_{ijk} = \mu_i + c_j + \epsilon_{ijk}$$
であり、\(\mu_i\) が第 \(i\) 処置の効果、\(c_j\) が第 \(j\) 医院の効果、\(\epsilon_{ijk}\) が患者の個体間変動とされています。
また、\(c_j\) は、平均 \(0\)、分散 \(\sigma_c^2\) の正規分布にしたがい、\(\epsilon_{ijk}\) は、平均 \(0\)、分散 \(\sigma_\epsilon^2\) の正規分布にしたがうことがわかっています。
この問題では、第 \(j\) 医院における患者の平均値について、その分布(つまり、平均と分散)を考えています。
まず、平均を考えます。
第 \(j\) 医院には \(n\) 人の患者がいて、当然、全員同じ処置 \(i\) を受けることになります。例えば、第1処置の第2医院の患者 \(n\) 人について、その平均値の平均を考えるイメージです。
この場合、1人目は \(\mu_i + c_j + \epsilon_{ij1}\)、2人目は \(\mu_i + c_j + \epsilon_{ij2}\)、という風に \(n\) 人を考えることになりますが、\(\epsilon_{ijk}\) の平均が \(0\) であることから、結局、今考えている平均は \(\mu_i + c_j\) になります。
同様に、分散を考えると、結局、患者間のばらつきを考えることになり、\(\epsilon_{ijk}\) の分散が \(\sigma_\epsilon^2\) であり、\(n\) 人を考えるので、以下のようになります。
$$V[\overline{Y}_{ij}] = \frac{\sigma_\epsilon^2}{n}$$
さらに、この問題では、第 \(i\) 処置群の患者の平均値について、その分布(つまり、平均と分散)を考えています。
第 \(i\) 処置群の患者は、\(J\) 個の医院に \(n\) 人ずついるので、全体で \(nJ\) 人います。
まず、平均を考えると、第1医院の1人目は \(\mu_i + c_1 + \epsilon_{i11}\)、2人目は \(\mu_i + c_1 + \epsilon_{i12}\)、・・・、第2医院の1人目は \(\mu_i + c_2 + \epsilon_{i21}\)、2人目は \(\mu_i + c_2 + \epsilon_{i22}\) という風になりますが、\(c_j\) の平均が \(0\)、\(\epsilon_{ijk}\) の平均が \(0\) であることから、結局、今考えている平均は \(\mu_i\) になります。
分散は、\(nJ\) 人の患者間のばらつきと、\(J\) 個の医院間のばらつきを考えることになり、以下のようになります。
$$V[\overline{\overline{Y}}_{i}] = \frac{\sigma_c^2}{J} + \frac{\sigma_\epsilon^2}{nJ}$$
検出力を確保するために必要なサンプル数を求める
確率変数 \(X\) の平均値 \(\overline{X}\)が、平均 \(\mu_X\)、分散 \(\frac{\sigma^2}{N}\) の正規分布にしたがい、確率変数 \(Y\) の平均値 \(\overline{Y}\)が、平均 \(\mu_Y\)、分散 \(\frac{\sigma^2}{N}\) の正規分布にしたがうとします。
ここで、有意水準が \(100\alpha\) %の両側検定を考えるとき、検出力が \(100(1 - \beta)\) %になるように必要なサンプル数 \(N\) は以下のように得られます。
$$N = \frac{2\sigma^2 {z(\frac{\alpha}{2}) + z(\beta)}^2}{(\mu_X - \mu_Y)^2}$$
\(z(\alpha)\) は、標準正規分布の上側 \(100\alpha\) %点です。
例えば、有意水準が5%(\(\alpha = 0.05\))の両側検定を考えるとき、検出力が80%(\(\beta = 0.2\))になるように必要なサンプル数 \(N\) は以下のように得られます。
$$N = \frac{2\sigma^2 {z(0.025) + z(0.2)}^2}{(\mu_X - \mu_Y)^2}$$
\(z(0.025)\) は、標準正規分布の上側2.5%点なので、上側確率が0.025になる "1.96"、\(z(0.2)\) は、標準正規分布の上側20%点なので、上側確率が0.2になる "0.84" を代入すると、必要なサンプル数を取得することができます(標準正規分布表の見方は、こちらの記事をご参照ください)。