目次(まとめ)

◾️ 注目している確率変数の分布を求める

◾️ 検出力を確保するために必要なサンプル数を求める

◾️ 参考文献


こんにちは、みっちゃんです。

今回の記事では、2013年に行われた統計検定1級の統計応用の医薬生物学分野の問題(問3)を取り上げて、解答を得るための方針について解説します(問題の詳細については、参考文献などをご覧ください)。

この問題では、さまざまな医院の患者に対する2つの処置の効果を検証する比較研究について取り扱っています。

注目している確率変数の分布を求める

j 医院における患者について平均値を考えると、患者数は n 人なので、以下のようになります。
\overline{Y}_{ij} = \frac{Y_{ij1} + Y_{ij2} + ... + Y_{ijn}}{n} = \frac{\sum_{k = 1}^n Y_{ijk}}{n}
ここで、
Y_{ijk} = \mu_i + c_j + \epsilon_{ijk}
であり、\mu_i が第 i 処置の効果、c_j が第 j 医院の効果、\epsilon_{ijk} が患者の個体間変動とされています。

また、c_j は、平均 0、分散 \sigma_c^2 の正規分布にしたがい、\epsilon_{ijk} は、平均 0、分散 \sigma_\epsilon^2 の正規分布にしたがうことがわかっています。

この問題では、第 j 医院における患者の平均値について、その分布(つまり、平均と分散)を考えています。

まず、平均を考えます。

j 医院には n 人の患者がいて、当然、全員同じ処置 i を受けることになります。例えば、第1処置の第2医院の患者 n 人について、その平均値の平均を考えるイメージです。

この場合、1人目は \mu_i + c_j + \epsilon_{ij1}、2人目は \mu_i + c_j + \epsilon_{ij2}、という風に n 人を考えることになりますが、\epsilon_{ijk} の平均が 0 であることから、結局、今考えている平均は \mu_i + c_j になります。

同様に、分散を考えると、結局、患者間のばらつきを考えることになり、\epsilon_{ijk} の分散が \sigma_\epsilon^2 であり、n 人を考えるので、以下のようになります。
V[\overline{Y}_{ij}] = \frac{\sigma_\epsilon^2}{n}


さらに、この問題では、第 i 処置群の患者の平均値について、その分布(つまり、平均と分散)を考えています。

i 処置群の患者は、J 個の医院に n 人ずついるので、全体で nJ 人います。

まず、平均を考えると、第1医院の1人目は \mu_i + c_1 + \epsilon_{i11}、2人目は \mu_i + c_1 + \epsilon_{i12}、・・・、第2医院の1人目は \mu_i + c_2 + \epsilon_{i21}、2人目は \mu_i + c_2 + \epsilon_{i22} という風になりますが、c_j の平均が 0\epsilon_{ijk} の平均が 0 であることから、結局、今考えている平均は \mu_i になります。

分散は、nJ 人の患者間のばらつきと、J 個の医院間のばらつきを考えることになり、以下のようになります。
V[\overline{\overline{Y}}_{i}] = \frac{\sigma_c^2}{J} + \frac{\sigma_\epsilon^2}{nJ}

検出力を確保するために必要なサンプル数を求める

確率変数 X の平均値 \overline{X}が、平均 \mu_X、分散 \frac{\sigma^2}{N} の正規分布にしたがい、確率変数 Y の平均値 \overline{Y}が、平均 \mu_Y、分散 \frac{\sigma^2}{N} の正規分布にしたがうとします。

ここで、有意水準が 100\alpha %の両側検定を考えるとき、検出力が 100(1 - \beta) %になるように必要なサンプル数 N は以下のように得られます。
N = \frac{2\sigma^2 {z(\frac{\alpha}{2}) + z(\beta)}^2}{(\mu_X - \mu_Y)^2}
z(\alpha) は、標準正規分布の上側 100\alpha %点です。

例えば、有意水準が5%(\alpha = 0.05)の両側検定を考えるとき、検出力が80%(\beta = 0.2)になるように必要なサンプル数 N は以下のように得られます。
N = \frac{2\sigma^2 {z(0.025) + z(0.2)}^2}{(\mu_X - \mu_Y)^2}
z(0.025) は、標準正規分布の上側2.5%点なので、上側確率が0.025になる "1.96"、z(0.2) は、標準正規分布の上側20%点なので、上側確率が0.2になる "0.84" を代入すると、必要なサンプル数を取得することができます(標準正規分布表の見方は、こちらの記事をご参照ください)。

参考文献

日本統計学会「統計検定1級 公式問題集」実務教育出版