こんにちは、みっちゃんです。
今回の記事では、統計学を勉強するにしろ、機械学習を勉強するにしろ、避けては通れない重要な定理「ベイズの定理」を紹介します。
目次(まとめ)
- 私たちの身近で活躍しているベイズの定理
- ベイズの定理を使って、発熱からインフルエンザを予測する
- 参考文献
私たちの身近で活躍しているベイズの定理
ベイズの定理とは、トーマス・ベイズ(イギリス人; 1702-1761)さんによって発見された定理です。今から、300年ほど前の発見ですが、今なお、統計学における重要な定理として君臨しています。
身近なところでは、迷惑メールを分類する際に、ベイズの定理が役立っています。事前知識として、受信メールが迷惑メールである確率、迷惑メールでない確率を知っておけば、受信メールの内容をもとに、それが迷惑メールかそうでないか分類することができます。
医療分野では、遺伝により発症する可能性がある疾患について、その遺伝確率を予測することも行われています。さらに、機械学習の分野でも、データを判別する際に用いられています。
ベイズの定理を使って、発熱からインフルエンザを予測する
ベイズの定理の例題として、「発熱のある患者さんが病院に来た時、その患者さんがインフルエンザか風邪か判断する」という問題を考えます。
ここで、「発熱のある患者さんで風邪と診断する確率」と「発熱のある患者さんでインフルエンザと診断する確率」を比較し、もし前者の「発熱のある患者さんで風邪と診断する確率」が高いのであれば、その患者さんは風邪だと判断します。
必要な情報は、以下の3種類の確率です。
(事前確率)
- 風邪発症の相対頻度(=風邪発症の確率→\(P(風邪)\))
- インフルエンザ発症の相対頻度(=インフルエンザ発症の確率→\(P(インフル)\))
※ここでは、一般的に、どれぐらいの患者がインフルエンザと診断されるのか、という割合を見ています。
(条件付き確率)
- 風邪によって発熱する確率→\(P(発熱|風邪)\)
- インフルエンザによって発熱する確率→\(P(発熱|インフル)\)
※ここが混乱しやすいと思いますが、ここで考えてるのは「風邪/インフル→発熱」です。ベイズの定理で考えたいのは「発熱→風邪/インフル」です。
(同時確率)
- 風邪の患者で発熱がある確率→\(P(発熱, 風邪)\)
- インフルエンザの患者で発熱がある確率→\(P(発熱, インフル)\)
これらの確率を用いて、「発熱のある患者さんで風邪と診断する確率」と「発熱のある患者さんでインフルエンザと診断する確率」を算出することができます。
(発熱のある患者さんで風邪と診断する確率)
$$P(風邪|発熱) = \frac{P(発熱|風邪)P(風邪)}{P(発熱|風邪)P(風邪) + P(発熱|インフル)P(インフル)}$$
(発熱のある患者さんでインフルエンザと診断する確率)
$$P(インフル|発熱) = \frac{P(発熱|インフル)P(インフル)}{P(発熱|風邪)P(風邪) + P(発熱|インフル)P(インフル)}$$
詳しい数式は参考文献などをご参照ください。
参考文献
小西貞則「多変量解析入門 ー線形から非線形へー」岩波書店