目次(まとめ)
◾️ 「理論値」と「観測値」の差を検定するカイ2乗適合度検定
◾️ 参考文献
◾️ 関連記事
こんにちは、みっちゃんです。
今回の記事では、「理論値」と「観測値」の差を検定するカイ2乗適合度検定について紹介します。
「理論値」と「観測値」の差を検定するカイ2乗適合度検定
例えば、1週間(月曜日から日曜日)のブログへのアクセス数を考えます。
理想的には、どの曜日にも一定のアクセス数があるのが良いのかもしれませんが、実際には曜日によってアクセス数の差が生まれることもあります(例えば、ブログのトピックが学生向けであれば、アクセスは平日に集中しがちかもしれません)。
このような状況で生まれる、「理論値」と「観測値」の差を検定するのが、カイ2乗適合度検定と呼ばれる検定です。
一般に、\(K\) 個のカテゴリー(曜日など)\(C_i ~(i = 1, 2, ..., n)\) があったときに、それぞれのカテゴリーに対して、何か(アクセス数など)が \(X_i ~(i = 1, 2, ..., n)\) 個ずつ観測されたとします。
また、\(\sum_{i = 1}^n X_i = n\) という関係が成り立っているとします。
理論的に、それぞれのカテゴリーに割り当てられる割合が \(\pi_i ~(i = 1, 2, ..., n)\) であるとき、それぞれのカテゴリーに割り当てられる数は \(n \pi_i ~(i = 1, 2, ..., n)\) と表現できます。
したがって、「実際に観測された数」と「理論的に観測されるはずの数」の差は、\(X_i - n \pi_i ~(i = 1, 2, ..., n)\) と表現できることがわかります。
実際には、マイナスの値をなくすために、その2乗値である \((X_i - n \pi_i)^2 ~(i = 1, 2, ..., n)\) を用いて、以下のような検定統計量を設定します。
$$Q({\bf X}, {\bf \pi}) = \sum_{i = 1}^K \frac{(X_i - n \pi_i)^2}{n \pi_i}$$
すべてのカテゴリーについて「観測値」と「理論値」が等しいとき、\(Q({\bf X}, {\bf \pi})\) は、自由度 \(K-1\) のカイ2乗分布に分布収束することがわかっているので、すべてのカテゴリーについて「観測値」と「理論値」が等しいという帰無仮説の棄却域として、以下を設定して検定を行います。
$$R = \{{\bf x} \in X ~|~ Q({\bf X}, {\bf \pi}) > \chi_{K-1, \alpha}^2\}$$
参考文献
久保川達也「現代数理統計学の基礎」共立出版