こんにちは、みっちゃんです。
以前の記事で、「手持ちのデータを過度に表現できるモデルが良いモデルとは限らない」ということで、「正則化」について紹介しました。
今回の記事では、データから作ったモデルがどの程度良いモデルなのか?といった疑問に答えるために準備されているいくつかの指標について紹介したいと思います。
目次(まとめ)
- 誤差を小さくすることだけに注目しても、良いモデルは作れない
- 未来を予測できる可能性があるモデルを選択しよう
- 手持ちのデータを活用して、モデルの良し悪しを評価する
- 参考文献
誤差を小さくすることだけに注目しても、良いモデルは作れない
手元にあるデータからモデルを構築する、という目的を達成するために、モデルがデータを"適切に"表現できることは必須条件です。ただし、"適切に"というのは"厳密に(誤差を小さく)"という意味ではありません。
どのようなデータが与えられていても、モデルの次数を上げていけば、データを厳密に表現するモデル、つまり誤差が小さいモデルを構築することは可能です。ここで、"モデルの次数を上げる"とは、1次関数(直線)、2次関数、3次関数、4次関数、、のように、直線から曲線に、さらには曲線の山/谷の数が増えていくことに対応します。言い換えると、複雑なモデルを構築することに対応します。
ただし、モデルの次数が上げても、モデルを作るために用いたデータだけを表現するだけで、今は手元にないけれどこれから入手する予定のデータを表現することはできません。
未来を予測できる可能性があるモデルを選択しよう
そこで、「誤差が小さくなる」モデルを選ぶための指針だけでなく、「誤差が小さくて、複雑でない」モデルを選ぶための指針も用意されています。具体的には、赤池情報量基準(AIC)やベイズ情報量基準(BIC)などがあります。
これらの指標を使ってみると、「誤差が小さくなるように作ったモデル」と「AICやBICが小さくなるように作ったモデル」は全く異なるものになることがわかります。誤差以外の要素を使用することで、より未来を予測できる可能性があるモデルを選択することができます。
手持ちのデータを活用して、モデルの良し悪しを評価する
手持ちのデータから、何かの指標をもとに、モデルを作ったとしても、未来のデータに対してモデルがどの程度機能するかどうかはわかりません。したがって、どのモデルが良いモデルなのか、どの指標を使用するのが良いのか、などわからないという状況に陥ってしまいます。
そこで一般には、手持ちのデータを分けて、一方のデータを用いてモデルを構築し、他方のデータを用いてモデルを検証するということが行われます。これを、クロスバリデーション(交差検証)といいます。分割する際には、分割したもの同士でデータの特徴(分布など)が極端に異なるような状況を避ける必要があります。
クロスバリデーションは、モデルの評価だけではなく、開発手法の検証など、さまざまな現場で行われています。みなさんも是非活用してみてください。
参考文献
小西貞則「多変量解析入門 ー線形から非線形へー」岩波書店