Skinerrian's blog

論理学・哲学・科学史・社会学などに興味があるので、その方面のことを書きます。更新は不定期。

t検定

『みんなのR』という本(初版)を使って、統計とプログラミング言語のRを並行して勉強している。しかし、やり始めて分かったが、この本は統計についての解説が分量的にかなり貧弱で、すでに理解のある人でないと読みこなすのが難しい。私の場合、初心者に毛が生えた程度の統計リテラシーなので、どうしても不安が残る。

例えば、t検定について解説してる15.3節。従業員が一日に受け取ったチップの金額のリストが与えられたとき、その平均金額が2.5ドルであるという仮説をt検定にかけて棄却する、という具体例を提示している。しかし、ここで気になるのはそんなに安易にt検定を適用していいのか、である。この種の問題でt検定を使用する条件には、母集団が正規分布に従うという前提が入っていると思う。それで、従業員のチップが正規分布に従ってるかどうかを、シャピロ・ウィルク検定(shapiro.test)にかけると統計的に有意なので棄却されてしまう…。大丈夫なのだろうか?

安易な手段ではあるが、wikipediaで「t検定」について調べたところ、次のように書いてあった。

中心極限定理によると、母集団の分布が正規分布に従わない標本でさえも、サンプル数が多くなればなるほど、標本平均は正規分布に近似していく。…母集団が正規分布から完全に逸脱した分布に従っていて、標本サイズが十分に大きな場合(大学の初等の統計の教科書などではn>30などと載っている場合があるが、勿論多ければ多いほど良い)、Z検定で近似的な確率を計算できる。ただしt値は自由度が上がるとZ値に近似するため、計算上はt検定を用いても殆ど大差ない結果を得られる(哲学的には異なるが)。それがt検定が頑強(robust)であると言われる所以である。

先の具体例では標本のサイズが244だったので、十分に大きい。よって、母集団分布が正規じゃないけどt検定を使ってもいいだろう、ということなのだろう、おそらく。