こんにちは、みっちゃんです。

以前の記事で、異なるグループのデータを判別する機械学習モデルの一つとして、「サポートベクトルマシン」を紹介しました。

今回の記事では、サポートベクトルマシンとよく似ている二つの手法、「フィッシャーの線形判別」と「マハラノビスの線形判別」を紹介したいと思います。

目次(まとめ)
- フィッシャーさんとマハラノビスさんが確立した判別分析法
- 線形判別は、観測データの"統計量"を使って、未来のデータをグループ分け
- サポートベクトルマシンとの違いは、"異なるグループ"の定義にあり
- 参考文献

フィッシャーさんとマハラノビスさんが確立した判別分析法

多くのデータを取り扱う学問「統計学」を学ぶ上で、有名な人がいます。

それは、今回紹介するフィッシャーさんとマハラノビスさんです。

フィッシャーさん(Sir Ronald Aylmer Fisher; 1890-1962)は、イギリス人。マハラノビスさん(Prasanta Chandra Mahalanobis; 1893-1972)は、インド人。2人とも同じ時代を生きた方ですが、どちらも統計学を確立した人として有名です。

今回紹介する判別分析の分野では、「フィッシャーの線形判別」と「マハラノビスの線形判別」というのが統計学の教科書に載るレベルで有名です。

線形判別は、観測データの"統計量"を使って、未来のデータをグループ分け

線形判別は、未来のデータをグループ分けしたいときに活用できます。

グループ分けするために、今手元にある観測データがどのグループに属するのかという情報が必要です。例えば、数学60点、英語90点のAくんは英語クラス、数学100点、英語50点のBくんは数学クラス、数学95点、英語30点のCくんは数学クラス、、、といった情報です。

このような観測データから「判別式」という数式を設計して、数学90点、英語70点の転校生Dくんのクラスを決定することが目的です。

判別式は、例えば以下のようなものです。
ここで、\(x_1\)を数学の点数、\(x_2\)を英語の点数に対応すると考えてもらえばいいです。(※係数は適当なので正しく判別できません)
$$h({\bf x}) = -1.5x_1 + 1.3x_2 + 0.5$$
\(h({\bf x})\)の値の正負によって、数学クラスか英語クラスかグループ分けしていきます。

サポートベクトルマシンとの違いは、"異なるグループ"の定義にあり

判別分析と同じようなものに、サポートベクトルマシンがあります(こちらをご覧ください)。

サポートベクトルマシンでは、それぞれのグループに対してサポートベクトルという"点"を設定し、それらが離れるようにグループを分離するように数式が設計されました。

一方、判別分析では、それぞれのグループに属しているデータの分布(平均や分散、重心)などを考慮して、グループを分離するように数式が設計されます。

興味のある方は、参考文献をごらんください。

参考文献

小西貞則「多変量解析入門 ー線形から非線形へー」岩波書店