目次(まとめ)
◾️ 相関係数は、共分散を標準偏差の積で割ることで得られる
◾️ 検出力の値から臨床試験のサンプル数を調整する
◾️ 参考文献
こんにちは、みっちゃんです。
今回の記事では、2013年に行われた統計検定1級の統計応用の医薬生物学分野の問題(問1)を取り上げて、解答を得るための方針について解説します(問題の詳細については、参考文献などをご覧ください)。
この問題では、ある薬剤の効果を確認するために、ある薬剤とプラセボ対照の2群比較の臨床試験を行うことが考えられています。
相関係数は、共分散を標準偏差の積で割ることで得られる
以前の記事で紹介したように、確率変数 \(X\) と \(Y\) の相関係数(correlation coefficient)は、以下のように計算することができます。
$${\rm Corr}(X, Y) = \frac{{\rm Cov}(X, Y)}{\sqrt{V[X]V[Y]}} \qquad (*)$$
この問題では、以下に示すような検定統計量 \(T_1\) と \(T_2\) の相関係数を求める必要があります。
$$\begin{eqnarray}T_1 &=& Z_1T_2 &=& \frac{Z_1 + Z_2}{\sqrt{2}}\end{eqnarray}$$
ここで、
$$Z_j = \frac{\sqrt{\frac{n}{2}}({\overline X}_j - {\overline Y}_j)}{\sigma}\qquad (j = 1, 2)$$
です。
相関係数の定義 \((*)\) より、相関係数 \({\rm Corr}(T_1, T_2)\) を求めるためには、共分散 \({\rm Cov}(T_1, T_2)\) と分散 \(V[T_1], V[T_2]\)を求める必要があります。
まず、\({\overline X}_j \sim N(\mu_X, \frac{\sigma^2}{n})\)、\({\overline Y}_j \sim N(\mu_Y, \frac{\sigma^2}{n})\) であるため、以下の関係が得られます。
$$({\overline X}_j - {\overline Y}_j) \sim N(\mu_X - \mu_Y, \frac{2 \sigma^2}{n})$$
したがって、
$$Z_j = \frac{\sqrt{\frac{n}{2}}({\overline X}_j - {\overline Y}_j)}{\sigma} \sim N(\frac{\sqrt{\frac{n}{2}}}{\sigma}(\mu_X - \mu_Y), (\frac{\sqrt{\frac{n}{2}}}{\sigma})^2 \frac{2 \sigma^2}{n}) = N(\frac{\sqrt{\frac{n}{2}}}{\sigma}(\mu_X - \mu_Y), 1)$$
となり、\(V[Z_j] = 1 ~ (j = 1, 2)\) が得られます。
同じように考えると、\(Z_j\) が正規分布にしたがうことから、\(T_2\) も以下のような正規分布にしたがうことがわかります。
$$T_2 = \frac{Z_1 + Z_2}{\sqrt{2}} \sim N(\frac{\sqrt{n}(\mu_X - \mu_Y)}{\sigma}, 1)$$
これらの情報から、\(V[T_1] = V[T_2] = 1\)、共分散は
$$\begin{eqnarray}{\rm Cov}(T_1, T_2) &=& {\rm Cov}(Z_1, \frac{Z_1 + Z_2}{\sqrt{2}})\\ &=& {\rm Cov}(Z_1, \frac{Z_1}{\sqrt{2}})+ {\rm Cov}(Z_1, \frac{Z_2}{\sqrt{2}}) \\&=& \frac{V[Z_1]}{\sqrt{2}}\\&=& \frac{1}{\sqrt{2}}\end{eqnarray}$$
であることがわかるので、\((*)\) 式から相関係数は
$${\rm Corr}(T_1, T_2) = \frac{1}{\sqrt{2}}$$
となります。
検出力の値から臨床試験のサンプル数を調整する
この問題では、臨床試験を2段階に分けて行うことを考えています。
第1ステージで得られた結果(薬剤の効果)をみて、改善できる点を改善して、第2ステージに移行する流れになっています。
このとき、条件付き検出力を使っています。
条件付き検出力とは、第1ステージで得られた結果を "条件" として、第2ステージの "検出力" を考える数値です。
具体的には、以下のような数式で定義されます。
$$CP(z_1, \frac{\mu_X - \mu_Y}{\sigma}) = {\rm Pr}{T_2 \geq z(\alpha) | z_1}\qquad (**)$$
ここで、\(T_2\) は正規分布にしたがうのですが、標準正規分布に変換して評価するため、\(T_2\) の平均、分散をつかって、標準化を行います。
第1ステージで得られた観測値から、\(Z_1 = z_1\) が与えられたとき、
$$T_2 = \frac{z_1 + Z_2}{\sqrt{2}}$$
となるので、平均 \(E[T_2]\) と 分散 \(V[T_2]\) は以下のように計算できます。
$$E[T_2] = E[\frac{z_1}{\sqrt{2}} + \frac{Z_2}{\sqrt{2}}] = E[\frac{z_1}{\sqrt{2}}] + E[\frac{Z_2}{\sqrt{2}}] = \frac{z_1}{\sqrt{2}} + \frac{\sqrt{n}}{2} \frac{\mu_X - \mu_Y}{\sigma}\\V[T_2] = V[\frac{z_1}{\sqrt{2}} + \frac{Z_2}{\sqrt{2}}] = V[\frac{z_1}{\sqrt{2}}] + V[\frac{Z_2}{\sqrt{2}}] = \frac{1}{2}$$
得られた平均、分散を用いて、式 \((**)\) を以下のように標準化変換し、条件付き検出力を求めることができます。
$$\begin{eqnarray}CP(z_1, \frac{\mu_X - \mu_Y}{\sigma}) &=& {\rm Pr}{T_2 \geq z(\alpha) | z_1}\\&=& {\rm Pr}{\frac{T_2 - (\frac{z_1}{\sqrt{2}} + \frac{\sqrt{n}}{2} \frac{\mu_X - \mu_Y}{\sigma})}{\sqrt{\frac{1}{2}}} \geq \frac{z(\alpha) - (\frac{z_1}{\sqrt{2}} + \frac{\sqrt{n}}{2} \frac{\mu_X - \mu_Y}{\sigma})}{\sqrt{\frac{1}{2}}}}\\&=&1 - \Phi{\sqrt{2}z(\alpha) - z_1 - \sqrt{\frac{n}{2}} \frac{\mu_X - \mu_Y}{\sigma}}\end{eqnarray}$$
たとえば、有意水準 \(\alpha\) が \(0.025\) の片側検定を行うとき、標準正規分布表より、\(z(\alpha) = 1.96\) となるので、第1ステージでのサンプル数などの数値を代入し、標準正規分布表と照らし合わせれば、検出力を求めることができます。
第1ステージのデータをもとに算出した検出力が、期待していた値より大きければ、第2ステージのサンプル数を減らすことができ、逆に期待していた値より小さければ、より多くのサンプル数が必要になると判断することができます。
参考文献
- 日本統計学会「統計検定1級 公式問題集」実務教育出版
- 久保川達也「現代数理統計学の基礎」共立出版