統計について調べていたら「カイ二乗検定」という単語が出てきたので調査。
カイ二乗検定とは
Wikipediaによるとカイ二乗検定とは上のような定義になります。
同じくWikipediaによると、以下のような統計学的検定法の総称のようです。
定義を読むだけでは難しいので、実際の問題を解きながら勉強してみようと思います。
カイ二乗検定の具体例
上のサイトを参考に勉強しました。
こちらのサイトの例2(サイコロを複数回振った結果を元に、サイコロが歪んでいると言えるか求める)の手順を見たところ、カイ二乗検定は下の手順で正しさを検証するようです。
- 期待する値(期待度数)、上の例だとサイコロのそれぞれの値が出る確率を算出する
- (“実際にある値が出た数” - 期待度数)の2乗 / 期待度数を算出する
- それぞれの値について、2で出した値を足し合わせる(この結果をカイ二乗値と呼ぶ)
- 今回の問題に関する自由度を求める(今回は項目数6なので6-1で5になる)
- 今回の問題に関する有意水準を決める(今回は5%)
- 自由度、カイ二乗値、有意水準、カイ二乗分布表を使ってサイコロが歪んでいるかどうかの判断をする
上の手順を参考に、実際に自分でも問題を解いてみようと思います。
以下のような問題を定義してみました。
問題
あるグループの血液型分布は下のようなものになった。
血液型 | 人数 |
---|---|
A型 | 18人 |
B型 | 13人 |
0型 | 14人 |
AB型 | 5人 |
これは日本全体の血液型分布と異なると言えるか。
日本全体の血液型分布は「A型40%、B型20%、O型30%、AB型10%」と仮定、有意水準は5%とする。
回答
まずは期待度数を算出します。
日本全体の分布は「A型40%、B型20%、O型30%、AB型10%」なので期待度数は以下のようになります。
血液型 | 人数 |
---|---|
A型 | 20人 |
B型 | 10人 |
0型 | 15人 |
AB型 | 5人 |
それぞれの血液型の (観測結果 - 期待度数)の2乗 / 期待度数 は以下のようになります。
血液型 | 人数 |
---|---|
A型 | 0.2 |
B型 | 0.9 |
0型 | 0.67 |
AB型 | 0 |
カイ二乗値はそれらを足した数なので、1.77になります。
そして自由度は4-1で3となります。
カイ二乗分布表によると、自由度3で5%の確率の値は7.81になります。
今回算出したカイ二乗値はそれより低いので、このグループの血液型分布は日本全体の血液型分布と同じだと言えそうです。