こんにちは、みっちゃんです。

今年、2020年は東京オリンピック・パラリンピックですね。わたしはMr.Childrenのファンなので、2008年の北京オリンピック・パラリンピックテーマソング(NHK)の"GIFT"は好きな曲の一つです。

「白か黒で答えろ」という難題を突きつけられ
ぶち当たった壁の前で僕らはまた迷っている
迷っているけど
白と黒のその間に 無限の色が広がってる

例えば病気になったとき、私たちは色々な検査を受け、検査結果から「病気でない」か「病気」か、白黒つけられます。でも、検査項目によっては、白黒つけられない場合も多いのではないかと思います。

今回の記事では、何かのデータから白黒つけたい、あるいは、どの程度黒なのか表現したいときに便利なモデルを紹介したいと思います。

目次(まとめ)
- 白か黒か予測する際に直線的なモデルは使えない
- 白黒のデータからロジスティック回帰モデルを作る
- ロジスティック回帰モデルは人工知能の分野でも活躍
- 参考文献

白か黒か予測する際に直線的なモデルは使えない

以前の記事で「データを表現できるような直線を引くモデルが基本」だと紹介しました。しかしながら、白か黒か予測するような、二者択一の問題には直線的なモデルは使えません。

例えば、ある検査項目の値を使って、別の検査項目の値を予測するようなモデルは、直線的なモデルで対応できるかもしれません。カルシウムの量が少ないから、骨の密度は低いだろうと予測するモデルなどが考えられます。

しかし、今回考えたいのは、ある検査項目の値を使って、病気かそうでないか予測するモデルです。違いは、「予測する対象が、数値なのかカテゴリー(病気、病気でない)なのか」という点です。

白黒のデータからロジスティック回帰モデルを作る

直線的なモデルの限界を解決するモデルの一つが、ロジスティック回帰モデルです。統計検定の取得を目指している方にはお馴染みだと思いますが、このモデルは、コインの表裏のでる確率を考えるためのベルヌーイ試行と繋がり、数式が構築されます。詳細は、参考文献をご参照ください。

モデルを作るためのデータとしては、例えば、血液の中の糖分が1.5グラムなら病気、1.3グラムなら病気でない、2.5グラムなら病気、、、という風なデータを用います(数字は適当です)。

一旦モデルが出来上がれば、さまざまな予測に用いることができます。例えば、次に測定した人の糖分が2.0グラムであれば、「病気」と判定するなどです。また、このときには、どの程度の確からしさで病気なのか、確率が得られます。

ロジスティック回帰モデルは人工知能の分野でも活躍

人工知能の分野では、ニューラルネットワークという技術が用いられます。例えば、囲碁や将棋において、次の手を予測する場合、「この手を指すべき」か「この手を指すべきでない」という二者択一の問題を解く必要があります。この場合に、ニューラルネットワークが用いられます。

ニューラルネットワークの詳細については、また違う記事で紹介したいと思いますが、ロジスティック回帰モデルと同様に二者択一の問題を解くための技術として捉えることができます。

人工知能について興味がある方は、ロジスティック回帰モデルの考え方を勉強してみてはいかがでしょうか。

参考文献

小西貞則「多変量解析入門 ー線形から非線形へー」岩波書店