目次(まとめ)

◾️ ベータ・2項分布とは、ベータ分布と 2項分布からなる階層モデルに対する混合分布

◾️ 混合分布の平均や分散は、条件付き期待値の関係や条件付き分散公式を用いて計算できる

◾️ 参考文献


こんにちは、みっちゃんです。

以前の記事で、「ガンマ分布」と「ポアソン分布」からなる階層モデル、混合分布について紹介しました。

今回の記事では、階層モデルの例として、連続分布の「ベータ分布」と離散分布の「2項分布」からなる階層モデルを取り上げ、混合分布の平均や分散を求める方法について解説します。

ベータ・2項分布とは、ベータ分布と 2項分布からなる階層モデルに対する混合分布

ベータ分布は、以下のような確率密度関数で表現される連続分布です(詳細はこちらの記事をご覧ください)。
f_X(x | a, b) = \frac{1}{B(a, b)} x^{a-1} (1-x)^{b-1}
ベータ分布は、一般に、2つのパラメータ ab を使って、Beta(a, b) と表現され、その平均は \frac{a}{a + b}、分散は \frac{ab}{(a + b)^2 (a + b + 1)} となります。

一方、2項分布は、以下のような確率関数で表現される離散分布です(詳細はこちらの記事をご覧ください)。
P(Y = k | n, p) = {}_n \mathrm{C}_k p^k (1-p)^{n-k} \qquad (k = 0, 1, 2, …, n)
2項分布は、一般に、試行回数 n と成功確率 p を使って、Bin(n, p) と表現され、その平均は np、分散も np(1-p) となります。

ここでは、以下のような階層モデルを考えます。
X | Y = y \sim Bin (n, Y) \qquad \qquad (1)
Y \sim Beta(\alpha, \beta)\qquad \qquad (2)
この階層モデルが意味するのは、確率変数 Y はベータ分布にしたがい、確率変数 Y の値 y は確率変数 Y を成功確率とする2項分布にしたがうということです。つまり、1つ1つの値 y は2項分布にしたがうけれども、Y 全体としてはベータ分布にしたがうというようなイメージです。

この階層モデルに対する確率変数 X の周辺確率関数は、以下のように与えられます。
f_X (x) = {}_n \mathrm{C}_x \frac{B(x + \alpha, n - x + \beta)}{B(\alpha, \beta)} \qquad (x = 0, 1, 2, …, n)

混合分布の平均や分散は、条件付き期待値の関係や条件付き分散公式を用いて計算できる

混合分布の平均や分散を計算するためには、条件付き期待値の関係や条件付き分散公式を使うことが有効です。

条件付き期待値の関係
E[X] = E[E[X|Y]]
条件付き分散公式
{\rm Var}(X) = E[{\rm Var}(X|Y)] + {\rm Var}(E[X|Y])
例えば、ベータ・2項分布について、確率変数 X の平均(期待値)E[X] を算出する際には、まず E[X|Y] を考えます。

(1)式より、X|Y は2項分布 Bin (n, Y) にしたがうので、その平均 E[X|Y]nY になります。

したがって、E[E[X|Y]] = E[nY] = nE[Y] となり、(2)式よりベータ分布 Beta(\alpha, \beta) の平均 \frac{\alpha}{\alpha + \beta}n をかけた \frac{n \alpha}{\alpha + \beta} が確率変数 X の平均になります。

また、確率変数 X の分散は、条件付き分散公式をつかって求めます。
{\rm Var}(X) = E[{\rm Var}(X|Y)] + {\rm Var}(E[X|Y])
\qquad = E[nY(1-Y)] + {\rm Var}(nY)
\qquad = nE[Y] - nE[Y^2] + n^2{\rm Var}(Y)
ここで、E[Y^2] = Var(Y) + (E[Y])^2 という関係をつかって式を変形すると、\frac{n \alpha \beta (\alpha + \beta + n)}{(\alpha + \beta)^2 (\alpha + \beta + 1)} が確率変数 X の分散になります。

参考文献

久保川達也「現代数理統計学の基礎」共立出版

「確率分布」は以下の記事にまとめていきます