統計的仮説検定をするときのサンプルサイズの決め方

こんにちは。データサイエンスチーム tmtkです。
この記事では、統計的仮説検定をするときのサンプルサイズの決め方の入門的解説を行います。
この記事は、永田靖『サンプルサイズの決め方』を参考に書かれています。

統計的仮説検定の枠組み

最初に、統計的仮説検定について復習します。
まずは身近な例で説明します。いま、表と裏が等確率で出るとされているコインがあるとします。このコインを10回投げて、10回とも全部表が出たとしたら、コインの表が出る確率が裏が出る確率より高いと疑うのではないでしょうか。実際、表と裏が等確率で出るコインを10回投げて、10回連続で表が出る確率は

{}_{10} \mathrm{C}_{10} (\frac{1}{2})^{10} (\frac{1}{2})^0 \approx 0.001

です。つまり、表裏が等確率で出るコインを投げて表が10回連続で出たとすると、0.1%程度の確率しかないことが起こっているということになります。この場合、非常に低確率なことが起こっているので、「このコインはおかしい」と判断することができそうです。統計的仮説検定はこのような判断を統計的に正しく行う枠組みです。

統計的仮説検定をより正確に説明します。ここでは、母分散が既知の正規分布について、母平均を両側検定する場合について説明します。現実には母分散が既知であることは考えづらいのですが、話が簡単になるため学習用によく持ち出される設定です。
いま、データx_1, x_2, \ldots, x_nが独立に正規分布N(\mu, \sigma_0^2)にしたがっているとします。ここで、母分散\sigma_0^2は既知であるとします。統計的仮説検定では、帰無仮説H_0 \colon \mu = \mu_0(多くの場合、\mu_0として、母平均として信じられてきたが母平均であることを否定したい値を設定する)が成り立っていると仮定し、有意水準\alphaを(通常は\alpha=0.05と)設定し、検定統計量

u_0 = \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}}

が上側\alpha/2z_{\alpha/2}に対して

|u_0| \geq z_{\alpha/2}

を満たしていれば、帰無仮説H_0棄却し、\mu \neq \mu_0を結論づけます。これが統計的仮説検定の(母分散が既知の正規分布の母平均を両側検定する場合の)枠組みです。

z_{\alpha/2}のイメージ)

以下、統計的仮説検定を単に仮説検定と呼びます。
また、サンプルの大きさをサンプルサイズと呼びます。上のコイン投げの例でいう10、正規分布の母平均の仮説検定の例でいうnがサンプルサイズです。

なぜサンプルサイズを決める必要があるか

サンプルサイズが大きくなればなるほど、推定量の精度は高くなることが多いです。たとえば、正規分布N(\mu, \sigma^2)に独立にしたがうデータx_1, x_2, \ldots, x_nに対して、もとの正規分布の母平均\muの推定量として標本平均\overline{x} = \frac{1}{n}\sum_{i=1}^n x_iを考えます。このとき、推定量\overline{x}は正規分布N(\mu, \frac{\sigma^2}{n})に従うことが知られています。サンプルサイズnが大きくなれば大きくなるほど、平均\muの推定量\overline{x}の母分散が小さくなっていき、推定量\overline{x}は真の値\muに近い値をとる確率が高くなっていきます。このような推定量を、一致推定量といいます。
サンプルサイズが大きくなれば、推定の精度はどんどん上がっていきます。精度は高ければ高いほどいいので、統計的仮説検定を行うサンプルサイズは大きければ大きいほどよいようにも思えます。

しかし、現実には仮説検定でつかうサンプルサイズは大きすぎないほうがよいといわれています。なぜでしょうか。
その答えは、仮説検定は帰無仮説H_0 \colon \mu = \mu_0が成り立つかどうかを判定するだけであり、母平均\muが帰無仮説での値\mu_0からどれだけ離れているかを判定することはしないからです。標語的になってしまいますが、別のいいかたをすれば、サンプルサイズをいくらでも大きくできれば、どんな仮説検定でも棄却できるということもできます。以下で詳しく説明します。

帰無仮説の母平均と真の母平均が\frac{1}{2}\sigma_0離れている場合

例として、母分散が既知の正規分布の母平均の両側検定について考えます。有意水準\alpha\alpha =0.05とします。簡単にするため、既知である母分散が\sigma_0^2 = 1^2であり、帰無仮説の母平均が\mu_0 = 0に従うとしましょう。つまり、考えている分布は帰無仮説のもとでは標準正規分布N(0, 1^2)です。
ここで、真の母平均\mu\mu = \frac{1}{2}\sigma_0 = 0.5となっていたとします。つまり、真の分布はN(0.5, 1^2)であったとします。この状態でサンプルサイズをn=100として仮説検定をおこなったとき、帰無仮説が棄却される確率1-\beta(これを検出力といいます)はいくつでしょうか。
この設定のもとでは、検定統計量

\displaystyle\begin{aligned} u_0 &= \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}} \\ &= \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}} + \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}} \\ &= \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}} + 5 \end{aligned}

は正規分布N(5, 1^2)にしたがいます。帰無仮説が棄却されるのは|u_0| > z_{\alpha/2} = 1.96のときですから、この条件のもとで帰無仮説が棄却される確率は、標準正規分布に従う確率変数の値が-3.04より大きいか、-6.96より小さい場合の確率に等しいです。後者の場合の確率は無視できるほど小さく、前者の場合の確率は、正規分布の数値表から約99.88\%だとわかります。
したがって、まとめると、真の母平均と帰無仮説の母平均が\frac{1}{2}\sigma_0ぶんだけ離れていて、サンプルサイズがn=100のとき、検出力1-\beta=99.88\%の確率で帰無仮説を棄却できることがわかりました。
この場合は99.88\%という高確率で帰無仮説を棄却でき、仮説検定が威力を発揮することができます。

帰無仮説の母平均と真の母平均が\frac{1}{10000}\sigma_0離れている場合

次に、前の例と同様にして、今度は真の分布がN(0.0001, 1^2)であった場合について考察しましょう。
前の例と同様の計算で、サンプルサイズがn=100の場合には、統計検定量u_0は正規分布N(0.001, 1^2)に従います。したがって、帰無仮説が棄却される確率は、標準正規分布に従う確率変数の値が1.959より大きいか、-1.961より小さい場合の確率に等しいです。これは約5\%です。つまり、この場合には帰無仮説の母平均と真の母平均がほとんど等しいので、検出力1-\beta \approx 0.05が有意水準\alpha = 0.05とほとんど同じになっています。帰無仮説\mu_0 = 0から母平均\muがたったの0.0001\sigma_0だけ間違っていたからといって、帰無仮説\mu_0 = 0が間違いだと判断したいことは少ないでしょうから、この場合に検出力がほとんどないことは望ましいことです。
しかし、サンプルサイズを莫大にして、n = 25\times 10^8 = 2500000000とした場合にはどうなるでしょうか。
この場合には、統計検定量u_0は正規分布N(5, 1^2)にしたがいます。二つ前の計算と同様にして、この場合の検出力は99.88\%となります。
母平均がたったの0.0001\sigma_0ずれているだけなのに、帰無仮説H_0\colon \mu = \mu_0が高確率で否定されてしまうことになりました。サンプルサイズを大きくしすぎたために、仮説検定が微小すぎる差まで検出して帰無仮説を棄却してしまうという望ましくない状態になっています。

これまで見てきたように、サンプルサイズを大きくすれば大きくするほど、検出力は上がります。サンプルサイズをいくらでも大きくすれば検出力をいくらでも大きくすることができるため、帰無仮説で設定した母数が非常に小さい誤差0.00\cdots 001だけでもずれていれば、サンプルサイズを大きくすることによって帰無仮説を棄却することができます。世の中で出てくる値にはたいてい小さくとも誤差があるため、標語的にいえば、どんな仮説検定でもサンプルサイズを大きくすれば帰無仮説を棄却できるということができます。
これの現象を防ぐためには、サンプルサイズを調節して、帰無仮説と真の値で意味のある差があれば帰無仮説を棄却できる程度にサンプルサイズを大きく、意味のない微小な差なら帰無仮説が棄却されない程度にサンプルサイズを小さく設定する必要があります。これがサンプルサイズを決めることが必要な理由です。

サンプルサイズの決め方(母分散が既知の正規分布の母平均を仮説検定する場合)

それでは、母分散が既知の正規分布の母平均を仮説検定する場合について、サンプルサイズの決め方を説明します。とはいっても、上でやった計算とほとんど同じです。上の計算ではサンプルサイズから検出力を計算しましたが、サンプルサイズを設計するときには逆に検出力からサンプルサイズを計算します。
これまでと同様に、母分散が既知の正規分布の母平均を仮説検定する場合について考えます。
これまでと同じように、既知の母分散は\sigma_0^2で、帰無仮説H_0は母平均\mu = \mu_0とします。いま、検出力の設定として、真の母平均が\muだったときに検出力1-\betaで帰無仮説を棄却したいとします。このとき必要なサンプルサイズを計算します。求めるサンプルサイズをnとおきます。
帰無仮説が棄却されるのは統計検定量

\displaystyle u_0 = \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}}

|u_0| \geq z_{\alpha/2}

を満たすときでした。ここで、\alphaは有意水準です。
この条件|u_0| \geq z_{\alpha/2}を満たす確率が検出力1-\betaとなるようにサンプルサイズnを設定すればいいわけです。統計検定量u_0を変形すると、

\displaystyle\begin{aligned} u_0 &= \frac{\overline{x} - \mu_0}{\sqrt{\sigma_0^2/n}} & \\ &= \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}} &+ \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}} \\ &= u &+ \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}}\end{aligned}

となります。ただし、

\displaystyle u = \frac{\overline{x} - \mu}{\sqrt{\sigma_0^2/n}}

とおきました。するとuは標準正規分布N(0, 1^2)にしたがい、統計検定量u_0は正規分布N(\frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}}, 1^2)にしたがいます。
したがって、帰無仮説が棄却される確率は

\displaystyle\begin{aligned} P(|u_0| \geq z_{\alpha/2}) &= P(|u + \frac{\mu - \mu_0}{\sqrt{\sigma_0^2/n}}| \geq z_{\alpha/2}) \\ &= P(u \leq -z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) + P(u \geq z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) \end{aligned}

となります。これが検出力1-\betaと等しくなるnが求めるサンプルサイズnです。サンプルサイズは以上のようにして計算します。

具体例

具体的な数値を使って、計算方法を実際に確認してみましょう。有意水準を\alpha=0.05、母分散を\sigma_0^2=1^2、帰無仮説をH_0\colon \mu = \mu_0 = 0とします。母平均が\mu = 0.5のとき、検出力1-\beta = 0.8で検出できるような仮説検定をしたいとします。このとき必要なサンプルサイズnを計算しましょう。
ここで成り立つべき式は

\displaystyle\begin{aligned} 1-\beta &= P(u \leq -z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) + P(u \geq z_{\alpha/2} - \sqrt{n}\frac{\mu-\mu_0}{\sigma_0}) \end{aligned}

ですから、今回の値では

\displaystyle\begin{aligned} 0.8 &= P(u \leq -1.96 - 0.5\sqrt{n}) + P(u \geq 1.96 - 0.5\sqrt{n}) \end{aligned}

が成り立つようにサンプルサイズnを定めます。

P(u \leq -1.96 - 0.5\sqrt{n}) + P(u \geq 1.96 - 0.5\sqrt{n}) \approx P(u \geq 1.96 - 0.5\sqrt{n})

が成り立つと仮定して計算を進めると、これが検出力1-\beta = 0.8と等しくなるためには

1.96 - 0.5\sqrt{n} = z_{0.8} = -0.842

が成り立てばよいことがわかります。これを計算すると

n \approx 31.4

となるので、サンプルサイズn

n=31

とすればよいことがわかります。また、上でおいた仮定の近似が成り立っていることも確認できます。
上のほうでサンプルサイズをn=100とすると検出力が1-\beta = 99.88%となることを見ましたが、検出力が1-\beta = 0.8でいいならば、サンプルサイズはn=31だけでよいことがわかりました。

以上がサンプルサイズの計算の仕方です。

まとめ

この記事では、サンプルサイズを決める必要性についての説明と、母分散が既知の正規分布の母平均を仮説検定する場合のサンプルサイズの決め方について解説しました。
母分散が既知の正規分布の母平均を仮説検定する状況は現実にはあまりありませんが、別の状況でもここで説明した考え方を応用することができます。たとえば、A/Bテストのサンプルサイズの決定に応用することが考えられます。ただし、ユーザの多いウェブサービス上でのA/Bテストの場合は、非常に大きいサンプルサイズを取得することができることが多いため、統計的仮説検定やサンプルサイズの決定などの手続きを踏む必要性が低い場合があります。

参考

  • 倉田博史、星野崇宏『入門統計解析』
    統計学の入門書です。仮説検定の枠組みなど基本的なことがわからない場合は参照してください。
  • 永田靖『サンプルサイズの決め方』
    サンプルサイズの決め方について書かれた本です。この記事はこの本を参考に書かれました。
AWS移行支援キャンペーン

あなたにおすすめの記事