目次(まとめ)
◾️ ベータ・2項分布とは、ベータ分布と 2項分布からなる階層モデルに対する混合分布
◾️ 混合分布の平均や分散は、条件付き期待値の関係や条件付き分散公式を用いて計算できる
◾️ 参考文献
こんにちは、みっちゃんです。
以前の記事で、「ガンマ分布」と「ポアソン分布」からなる階層モデル、混合分布について紹介しました。
今回の記事では、階層モデルの例として、連続分布の「ベータ分布」と離散分布の「2項分布」からなる階層モデルを取り上げ、混合分布の平均や分散を求める方法について解説します。
ベータ・2項分布とは、ベータ分布と 2項分布からなる階層モデルに対する混合分布
ベータ分布は、以下のような確率密度関数で表現される連続分布です(詳細はこちらの記事をご覧ください)。
$$f_X(x | a, b) = \frac{1}{B(a, b)} x^{a-1} (1-x)^{b-1}$$
ベータ分布は、一般に、2つのパラメータ \(a\) と \(b\) を使って、\(Beta(a, b)\) と表現され、その平均は \(\frac{a}{a + b}\)、分散は \(\frac{ab}{(a + b)^2 (a + b + 1)}\) となります。
一方、2項分布は、以下のような確率関数で表現される離散分布です(詳細はこちらの記事をご覧ください)。
$$P(Y = k | n, p) = {}_n \mathrm{C}_k p^k (1-p)^{n-k} \qquad (k = 0, 1, 2, …, n)$$
2項分布は、一般に、試行回数 \(n\) と成功確率 \(p\) を使って、\(Bin(n, p)\) と表現され、その平均は \(np\)、分散も \(np(1-p)\) となります。
ここでは、以下のような階層モデルを考えます。
$$X | Y = y \sim Bin (n, Y) \qquad \qquad (1)$$
$$Y \sim Beta(\alpha, \beta)\qquad \qquad (2)$$
この階層モデルが意味するのは、確率変数 \(Y\) はベータ分布にしたがい、確率変数 \(Y\) の値 \(y\) は確率変数 \(Y\) を成功確率とする2項分布にしたがうということです。つまり、1つ1つの値 \(y\) は2項分布にしたがうけれども、\(Y\) 全体としてはベータ分布にしたがうというようなイメージです。
この階層モデルに対する確率変数 \(X\) の周辺確率関数は、以下のように与えられます。
$$f_X (x) = {}_n \mathrm{C}_x \frac{B(x + \alpha, n - x + \beta)}{B(\alpha, \beta)} \qquad (x = 0, 1, 2, …, n)$$
混合分布の平均や分散は、条件付き期待値の関係や条件付き分散公式を用いて計算できる
混合分布の平均や分散を計算するためには、条件付き期待値の関係や条件付き分散公式を使うことが有効です。
条件付き期待値の関係
$$E[X] = E[E[X|Y]]$$
条件付き分散公式
$${\rm Var}(X) = E[{\rm Var}(X|Y)] + {\rm Var}(E[X|Y])$$
例えば、ベータ・2項分布について、確率変数 \(X\) の平均(期待値)\(E[X]\) を算出する際には、まず \(E[X|Y]\) を考えます。
(1)式より、\(X|Y\) は2項分布 \(Bin (n, Y)\) にしたがうので、その平均 \(E[X|Y]\) は \(nY\) になります。
したがって、\(E[E[X|Y]] = E[nY] = nE[Y]\) となり、(2)式よりベータ分布 \(Beta(\alpha, \beta)\) の平均 \(\frac{\alpha}{\alpha + \beta}\) に \(n\) をかけた \(\frac{n \alpha}{\alpha + \beta}\) が確率変数 \(X\) の平均になります。
また、確率変数 \(X\) の分散は、条件付き分散公式をつかって求めます。
$${\rm Var}(X) = E[{\rm Var}(X|Y)] + {\rm Var}(E[X|Y])$$
$$\qquad = E[nY(1-Y)] + {\rm Var}(nY)$$
$$\qquad = nE[Y] - nE[Y^2] + n^2{\rm Var}(Y)$$
ここで、\(E[Y^2] = Var(Y) + (E[Y])^2\) という関係をつかって式を変形すると、\(\frac{n \alpha \beta (\alpha + \beta + n)}{(\alpha + \beta)^2 (\alpha + \beta + 1)}\) が確率変数 \(X\) の分散になります。
参考文献
久保川達也「現代数理統計学の基礎」共立出版