目次(まとめ) ベータ・2項分布とは、ベータ分布と 2項分布からなる階層モデルに対する混合分布
混合分布の平均や分散は、条件付き期待値の関係や条件付き分散公式を用いて計算できる
参考文献
こんにちは、みっちゃんです。
以前の記事で、「ガンマ分布」と「ポアソン分布」からなる階層モデル、混合分布について紹介しました。
今回の記事では、階層モデルの例として、連続分布の「ベータ分布」と離散分布の「2項分布」からなる階層モデルを取り上げ、混合分布の平均や分散を求める方法について解説します。
ベータ・2項分布とは、ベータ分布と 2項分布からなる階層モデルに対する混合分布
ベータ分布は、以下のような確率密度関数で表現される連続分布です(詳細はこちらの記事をご覧ください)。
f_X(x | a, b) = \frac{1}{B(a, b)} x^{a-1} (1-x)^{b-1}
ベータ分布は、一般に、2つのパラメータ a と b を使って、Beta(a, b) と表現され、その平均は \frac{a}{a + b}、分散は \frac{ab}{(a + b)^2 (a + b + 1)} となります。
一方、2項分布は、以下のような確率関数で表現される離散分布です(詳細はこちらの記事をご覧ください)。
P(Y = k | n, p) = {}_n \mathrm{C}_k p^k (1-p)^{n-k} \qquad (k = 0, 1, 2, …, n)
2項分布は、一般に、試行回数 n と成功確率 p を使って、Bin(n, p) と表現され、その平均は np、分散も np(1-p) となります。
ここでは、以下のような階層モデルを考えます。
X | Y = y \sim Bin (n, Y) \qquad \qquad (1)
Y \sim Beta(\alpha, \beta)\qquad \qquad (2)
この階層モデルが意味するのは、確率変数 Y はベータ分布にしたがい、確率変数 Y の値 y は確率変数 Y を成功確率とする2項分布にしたがうということです。つまり、1つ1つの値 y は2項分布にしたがうけれども、Y 全体としてはベータ分布にしたがうというようなイメージです。
この階層モデルに対する確率変数 X の周辺確率関数は、以下のように与えられます。
f_X (x) = {}_n \mathrm{C}_x \frac{B(x + \alpha, n - x + \beta)}{B(\alpha, \beta)} \qquad (x = 0, 1, 2, …, n)
混合分布の平均や分散は、条件付き期待値の関係や条件付き分散公式を用いて計算できる
混合分布の平均や分散を計算するためには、条件付き期待値の関係や条件付き分散公式を使うことが有効です。
条件付き期待値の関係
E[X] = E[E[X|Y]]
条件付き分散公式
{\rm Var}(X) = E[{\rm Var}(X|Y)] + {\rm Var}(E[X|Y])
例えば、ベータ・2項分布について、確率変数 X の平均(期待値)E[X] を算出する際には、まず E[X|Y] を考えます。
(1)式より、X|Y は2項分布 Bin (n, Y) にしたがうので、その平均 E[X|Y] は nY になります。
したがって、E[E[X|Y]] = E[nY] = nE[Y] となり、(2)式よりベータ分布 Beta(\alpha, \beta) の平均 \frac{\alpha}{\alpha + \beta} に n をかけた \frac{n \alpha}{\alpha + \beta} が確率変数 X の平均になります。
また、確率変数 X の分散は、条件付き分散公式をつかって求めます。
{\rm Var}(X) = E[{\rm Var}(X|Y)] + {\rm Var}(E[X|Y])
\qquad = E[nY(1-Y)] + {\rm Var}(nY)
\qquad = nE[Y] - nE[Y^2] + n^2{\rm Var}(Y)
ここで、E[Y^2] = Var(Y) + (E[Y])^2 という関係をつかって式を変形すると、\frac{n \alpha \beta (\alpha + \beta + n)}{(\alpha + \beta)^2 (\alpha + \beta + 1)} が確率変数 X の分散になります。
参考文献
久保川達也「現代数理統計学の基礎」共立出版