目次(まとめ)

◾️ ラグランジュの未定乗数法を用いて、制約条件をつけて微分値がゼロになる点を探す

◾️ ラグランジュ関数を用いて、多項分布のパラメータに対する最尤推定量を求める

◾️ 参考文献

◾️ 関連記事


こんにちは、みっちゃんです。

今回の記事では、多項分布のパラメータを最尤法により推定する方法について、ラグランジュの未定乗数法と合わせて、紹介します。

ラグランジュの未定乗数法を用いて、制約条件をつけて微分値がゼロになる点を探す

ラグランジュとは、フランスで18世紀に活躍した数学者である、ジョゼフ=ルイ・ラグランジュ(Joseph-Louis Lagrange)から取られています。

Wikipediaによると、ラグランジュは、スイスのレオンハルド・オイラー(Leonhard Euler)とともに18世紀の著名な数学者であり、フランス国王ルイ16世の王妃として有名なマリー=アントワネットの数学教師であるとされています。

ラグランジュの未定乗数法の目的は「多変数実数値関数を微分した関数がゼロになる点を、変数間の制約条件下で求める」ことです。

例えば、制約条件がなければ、目的関数 \(f({\bf x})\) を \({\bf x} = \{x_1, x_2, ..., x_p\}\) のそれぞれについて偏微分して、得られた式がゼロになるように方程式を立てて解くことで、目的関数の停留点を求めることができます。

ここで、制約条件として、以下が与えられたとします。
$$h_i({\bf x}) = h_i(x_1, x_2, ..., x_p) = 0 \qquad (i = 1, 2, ..., m)$$
ラグランジュの未定乗数法では、以下のように、目的関数 \(f({\bf x})\) と制約条件 \(h_i({\bf x})\) を融合したラグランジュ関数 \(H({\bf x}, {\bf \lambda})\) を設定します。
$$H({\bf x}, {\bf \lambda}) = f({\bf x}) + \sum_{i = 1}^m \lambda_i h_i({\bf x})$$
このラグランジュ関数について、\({\bf x}\) と \({\bf \lambda}\) に関する停留点を求めれば、制約条件のもとで目的関数の停留点を求めることになります。

なお、等式からなる制約条件の他に、不等式からなる制約条件も取り入れてラグランジュ関数を設計することも可能です(詳細は、参考文献などをご覧ください)。

ラグランジュ関数を用いて、多項分布のパラメータに対する最尤推定量を求める

以前の記事で紹介したように、多項分布の確率関数は以下のように得られます。

確率関数
$$f_{X_1, ..., X_k}(x_1, ..., x_k | n, p_1, ..., p_{k-1}) = \frac{n!}{x_1! ... x_k!} p_1^{x_1} ... p_k^{x_k}$$

したがって、対数尤度関数は、以下のように得られます。

対数尤度関数
$${\rm log}L(p_1, ..., p_k) = {\rm log} \frac{n!}{x_1! ... x_k!} + x_1 {\rm log}p_1 + ... + x_k {\rm log}p_k$$
以前の記事で紹介したように、それぞれのパラメータの推定量は、対数尤度関数をそれぞれのパラメータで偏微分した式から尤度方程式を設定し、推定することができます。

しかし、ここで注意すべきなのは、多項分布では、パラメータに対して、以下の制約条件があることです。
$$p_1 + p_2 + .... + p_k = 1\qquad (*)$$
そこで、ラグランジュ関数を以下のように設計します。
$$H(p_1, p_2, ..., p_k) = {\rm log}L(p_1, ..., p_k) - \lambda(p_1 + p_2 + .... + p_k - 1)$$
このラグランジュ関数を、それぞれのパラメータで偏微分すると、以下のようになります。
$$\frac{\partial H}{\partial p_i} = \frac{x_i}{p_i} - \lambda\qquad (i = 1, 2, ..., k)$$
この式をゼロとおくことで、
$$p_i = \frac{x_i}{\lambda}\qquad (**)$$
が得られるので、\((*)\) 式に代入して、\(n = \lambda\) が得られます。ここで、\(x_1 + x_2 + ... + x_k = n\) という関係を用いています。この関係も、多項分布の条件として、与えられるものです。

したがって、\((**)\) 式より、
$${\hat p_i} = \frac{x_i}{n}$$
という最尤推定量が得られます。

結局、得られる最尤推定量は「2項分布」の最尤推定量と似た形になります(以前の記事をご覧ください)。

参考文献

- 久保川達也「現代数理統計学の基礎」共立出版
- 小西貞則「多変量解析入門 ー線形から非線形へー」岩波書店

関連記事