目次(まとめ)

◾️ 最尤法では、尤度関数を偏微分して得られる尤度方程式を使って推定する

◾️ 最尤法による点推定を「正規分布」を例に解説

◾️ 参考文献


こんにちは、みっちゃんです。

以前の記事で、母集団のパラメータを標本から推定する「点推定」の手法の1つである「モーメント法」について紹介しました。

今回の記事では、同じく「点推定」の手法の1つである「最尤法」について紹介します。

最尤法では、尤度関数を偏微分して得られる尤度方程式を使って推定する

確率変数 \(X\) がパラメトリック・モデル \(f(x | \theta_1, \theta_2, ...., \theta_k)\) にしたがうとき、その確率関数(離散型確率変数の場合)や確率密度関数(連続型確率変数の場合)に相当する \(f({\bf X} | {\bf \theta})\) を考えます。

ここで、\({\bf X} = (X_1, X_2, ..., X_n)\)、\({\bf \theta} = (\theta_1, \theta_2, ...., \theta_k)\) です。

この確率(密度)関数を用いて、同時確率(密度)関数を考えるとき、確率(密度)関数の積になるので、以下のような式になります。
$$f(X_1 | {\bf \theta}) \times f(X_2 | {\bf \theta}) \times ... \times f(X_n | {\bf \theta})$$
このように、同時確率(密度)関数を考えた関数を「尤度関数」といいます。

尤度関数は、より一般的には、以下のように表現されます。
$$L({\bf \theta} | {\bf X}) = \prod_{i = 1}^{n} f(X_i | {\bf \theta})$$
また、対数をとることで、以下のような「対数尤度関数」が得られます。
$$l({\bf \theta} | {\bf X}) = \sum_{i = 1}^{n} {\rm log} f(X_i | {\bf \theta})$$

例えば、確率変数 \(X\) がしたがう確率分布が「正規分布」であることがわかっていて、そのパラメータを推定したい場合には、\(\theta_1\) と \(\theta_2\)、つまり、\(\mu\) と \(\sigma^2\) の2つのパラメータを推定することになります。

この場合には、尤度関数、または、対数尤度関数を、推定したいパラメータ \(\theta_1\) と \(\theta_2\) について偏微分した式を構築します。

その式がゼロになるようにした「尤度方程式」を連立方程式と考えることにより、パラメータを推定します。

最尤法による点推定を「正規分布」を例に解説

ここでは正規分布を例にして説明するため、まず正規分布の確率密度関数を考えます。
$$f_X(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}}{\rm exp}\{-\frac{(x - \mu)^2}{2\sigma^2}\}$$
この式から、尤度関数を考えると、以下のように表現されます。
$$L(\mu, \sigma^2 | {\bf X}) = \prod_{i = 1}^{n} \{\frac{1}{\sqrt{2\pi \sigma^2}}{\rm exp}\{-\frac{(X_i - \mu)^2}{2\sigma^2}\}\}$$
同様に、対数尤度関数を考えると、以下のように表現されます。
$$l(\mu, \sigma^2 | {\bf X}) = \sum_{i = 1}^{n} {\rm log} \{\frac{1}{\sqrt{2\pi \sigma^2}}{\rm exp}\{-\frac{(X_i - \mu)^2}{2\sigma^2}\}\}$$
$$\qquad = \sum_{i = 1}^{n} {\rm log} \{{(2 \pi)}^{-\frac{1}{2}} {(\sigma^2)}^{-\frac{1}{2}} {\rm exp}\{-\frac{(X_i - \mu)^2}{2\sigma^2}\}\}$$
$$\qquad = -\frac{n}{2} {\rm log}(2 \pi) - \frac{n}{2} {\rm log} (\sigma^2) - \frac{1}{2\sigma^2} \sum_{i = 1}^{n} (X_i - \mu)^2$$
この式を \(\mu\) および \(\sigma^2\) で偏微分し、その式をゼロとおくことで、以下のような尤度方程式が得られます。
$$\frac{\partial}{\partial \mu} l(\mu, \sigma^2 | {\bf X}) = \frac{1}{\sigma^2} \sum_{i = 1}^{n} (X_i - \mu)^2 = 0$$
$$\frac{\partial}{\partial \sigma^2} l(\mu, \sigma^2 | {\bf X}) = -\frac{n}{2 \sigma^2}+ \frac{1}{2 \sigma^4} \sum_{i = 1}^{n} (X_i - \mu)^2 = 0$$
この2つの式から、\(\mu\) と \(\sigma^2\) の推定値 \(\hat{\mu}\) と \(\hat{\sigma^2}\) は以下のように得ることができます。
$$\hat{\mu} = \frac{1}{n} \sum_{i = 1}^{n} X_i = \overline{X}$$
$$\hat{\sigma^2} = \frac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2$$
以前の記事で紹介したように、正規分布にしたがう母集団から取り出した標本について、標本平均 \(\overline{X}\) と標本分散 \(S^2\) は以下のようになることがわかっています。

標本平均 \(\overline{X}\)
$$\overline{X} = \frac{1}{n} \sum_{i = 1}^{n}X_i$$
標本分散 \(S^2\)
$$S^2 = \frac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2$$
つまり、最尤法による点推定により、適切なパラメータを予測できていることがわかります。

参考文献

久保川達也「現代数理統計学の基礎」共立出版