円周率1,000,000桁で各数字が等確率で出現するか問題
- 0から9の各数字が、円周率1000桁に等確率で出現するかを仮説検定してみる
一般に、
ある属性Aによって、n個の個体がk種のカテゴリー へ分類されるとき
各カテゴリーへ属する観測度数が であるとする
これが、各カテゴリーの理論確率 に適合するかを見るには、これが正しければ生じるであろ
う理論度数 を、観測度数と比べ、K.ピアソンの適合度基準
で判断すればよい。
この適合度のχ^2統計量χ^2はnが大きいとき、自由度 k-1 の χ^2 分布 に従う。
帰無仮説を
とするとき、
ならば、"観測度数は理論確率分布 に適合している" という仮説は、有意水準で棄却される。ここで、自由度=カテゴリー数(k)-1である。
円周率1,000桁でやってみる
計算
# observed frequency of 0, 1, ..., 9 (これは適当にスクリプトでカウントした) freq <- c(93,116,103,102,93,97,94,95,101,106) # expected probability p <- 0.1 # number of observations n <- 1000 np <- n * p chi <- sum((freq - np)^2 / np) # => 4.74 qchisq(0.95, 9) # => 16.91898
chiの値(4.74) < (16.91898) なので、有意水準5%で棄却されない(0, ..., 9 は等確率で出現している)。
1,000,000桁でもやってみる
# これは適当にスクリプトでカウントした freq <- c(99959,99758,100026,100229,100230,100359,99548,99800,99985,100106) p <- 0.1 n <- 10^6 np <- n * p chi <- sum((freq - np)^2 / np) # => 5.50908 qchisq(0.95, 9) # => 16.91898
(5.50908) < (16.91898) なので、棄却されない。
同じ事だけどp値の計算でやると
pchisq(5.50908, 9, lower.tail=F) # => 0.7878669
参考文献
- 無駄な知識などない:円周率って完全に乱数なのかな。0~9の中で偏ってたりしないのか?
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る