目次(まとめ)

◾️ 手持ちのデータを過度に表現できるモデルが良いモデルとは限らない

◾️ モデルがデータをどの程度表現するべきなのか考慮する必要がある

◾️ 過適合を避けるために正則化項を導入

◾️ 参考文献


こんにちは、みっちゃんです。

みなさん、手持ちのデータから未来を予想したいと思ったことはありませんか?例えば、株の取引に興味がある方であれば、昨今の中東情勢に応じて、株の価格が将来上がるのか、下がるのか予想したいと思っているのではないでしょうか?

このように、いまこの瞬間までに得られるさまざまな情報(データ)を用いて将来を予測する、あるいは、データの傾向(例えば、中東情勢が悪ければガソリンの値段があがる、など)を理解することは、とても魅力的で面白い課題です。

そのために、データから「モデル」を作ることが必要です。この詳細は、こちらをご覧下さい。

今回の記事では、どうやって"良い"モデルを選べばよいのか?といった疑問に答えていきたいと思います。

手持ちのデータを過度に表現できるモデルが良いモデルとは限らない

わたしは自然科学系の研究者ですが、モデリングの対象は、生き物関係であることが多いです。

生き物から測定できるデータの中には、さまざまな誤差が含まれています。測定するための技術の限界による誤差などもその一つです。

このようなデータからモデルを作りたいと考えるとき、データを過度に表現するようなモデルは意味がありません。なぜなら、データに誤差が含まれているからです。

またモデルは作ればいいわけではなく、利用することに意味があります。手持ちのデータを使ってモデルを構築しますが、手持ちのデータだけに対応できるモデルは意味がないのです。

モデルがデータをどの程度表現するべきなのか考慮する必要がある

モデルが過度にデータを表現すること、つまり、モデルが過度にデータに適合することを、過適合(オーバーフィッティング)といいます。

良いモデルを選ぶ作業には、オーバーフィッティングを避ける度合いを決めることが重要な要素として含まれます。もちろん、モデルがデータに適合すること、フィッティングすることは必要なので、バランスが大事ということです。

過適合を避けるために正則化項を導入

正則化項は、回帰係数を決定する数式に追加されます。回帰係数とは、データに当てはまるようなモデル中の係数(パラメータ)のことを意味します。正則化項がなければ、モデルは過適合するのですが、正則化項のおかげで改善されます。

ここでは、例として、正則化項を用いるモデル推定手法、ラッソとリッジを紹介したいと思います(ラッソはlasso (least absolute shrinkage and selection operator)です)。

ラッソ推定とリッジ推定は、正則化項を用いるという点で共通していますが、それぞれL1正則化項とL2正則化項を使用します。

詳しい数式は省きますが、L1正則化項は絶対値、L2正則化項は平方根を用いて記述されます。参考文献などをご参照ください。

また、ラッソ推定は、"変数選択"をするために有用であることが知られています。冒頭に示した株の例では、株価の動きを説明するモデルを構築するために、非常に多くの要素(変数)を取り入れる必要性が考えられます。しかし、ラッソ推定により、多くの要素の中で「必要な要素」と「必要でない要素」を選択することができます。

みなさんも正則化を用いて、いいモデルを構築してみてください。

参考文献

小西貞則「多変量解析入門 ー線形から非線形へー」岩波書店