本章では,統計の世界で非常に重視される p=0.05 という〈線引き〉がいかに微妙なものであるかについて述べます。
- 有意水準 5 % の「理由」:特にない。感覚的,慣例的に決められた。
- 有意水準 5 % の「感覚」:実力が互角のチームが 50 戦したとき,32 勝 18 敗まではありうる。33 勝 17 敗からはあり得ない。
確率の解釈
確率の解釈というのは,どうしても観念的なものになってしまいます。たとえば私たちは普段,5%という確率についてどう考えるでしょうか。
状況次第で確率の価値は変わる
同じ 5% という確率でも,状況によっては大きく感じることもありますし,小さく感じることもあるでしょう。確率それ自体が絶対的な数値として得られても,それを解釈する人の思考は相対的なものです。
この飛行機が事故を起こす確率は,5%です!
そう言われて,「わずか 5%なら 安全だね!」と感じる人は稀でしょう。しかし
この抗癌剤が癌を根治する確率は,5%です!
と言われると「僅かでも効く可能性があるならトライしてもいいかな」という人が出てきます。確率というのは状況(起きる現象のインパクト)や解釈する人次第で相対的に価値が変わる概念です。
- |期待値が重要
- この点に関しては,詰まるところ「期待値計算が重要である」と言い換えることができるかもしれません。確率が低くても,影響が大きいとき,「確率」×「影響の大きさ」=「期待値」は無視できない数字となるからです。
統計の世界で絶対視されがちな「5%」という確率
とくに 5%という確率は,しばしば非常に重要な判断基準とされています。実際サイエンスの世界では P 値(という確率)が 5% を超えるかどうかだけで,〈統計的に有意〉かそうでないか(=帰無仮説を棄却するか採択するか)という判断が行われることが多くあります。
本来この「統計的に有意かどうか判定すること」は,「その仮説を真実と考えること」と同義ではありません。そもそも P 値は統計モデルと手元のデータとの矛盾度 incompatibility を算出したものに過ぎません。統計モデルが不適切であったり,そもそもバイアスされた標本データであれば P値はそれだけで小さくなります。
ですから ① P値を計算することと ②その介入の本質的な意義を考えることは別段階として明確に分けるべきなのですが,なかなか誤解も多く,統計学的に有意(=significant)であることが重要(=significant)で,そうでなければ重要でないかのような誤った言説も流布しており,米国統計協会(ASA)も声明を出して警告しています。
こうした問題についてはASA 声明に譲るとして,ここではよく使われる「5%」という線引きの妥当性,またその感覚について考えてみたいと思います。
その線引きは妥当なのか?
例えば私たちは,以下のような状況について,どのような判断を行うでしょうか?
- コインを 5 回連続で投げた時,5 回連続でオモテまたはウラが続いた。
このとき私たちは「イカサマ」を疑うか? - ある2つの野球チームが 15 回連続で試合をした時,戦績は10勝5敗だった。
このとき,2チームの実力には「差がある」と言えるか?
実際に計算を交えながら考えてみましょう。
そのコインはイカサマか?
私たちは感覚的に,コイントスが何回連続オモテになったら,イカサマを疑うでしょうか?
4回連続オモテだったら?
5回連続オモテだったら?
6回連続オモテだったら?
あるいは10回連続オモテだったら? ……これはさすがに怪しいですね。
「このコインはイカサマだ」ということを論理的に主張するためには,どうしたらいいでしょうか。
イカサマコインの証明
順を追って考えてみましょう。
まず,いま私たちが疑っているのは,「コインがイカサマである」という仮説です。つまりこれが検証すべき仮説ということになります。しかし直接的にコインがイカサマであることを証明するのはなかなか困難です。
感覚的には,6回,7回,あるいは10回連続でオモテの面が出るような状況はあり得ないと感じる人が多いと思いますが,明確な線引きはありません。どこから「イカサマだ!」と主張して良いのか,直接的手法ではなかなか見えてきません。
そこで逆に考えます。本当に公平なコインなら,そのように連続オモテとなる確率は,どの程度低いのか?と考えるのです。つまり,
コインがイカサマでないなら,こんなにも連続でオモテ(またはウラ)が続くはずはない!なぜなら,そんなことが起きる確率は XX % しかないからだ!
というように,背理的な証明を試みます。
帰無仮説と対立仮説
ここで「コインがイカサマでないならば」の部分を帰無仮説(H0)と呼び,検証したい「コインはイカサマだ!」という仮説を対立仮説(HA)と呼びます。
- 帰無仮説 H0:「コインはイカサマではない = 表裏の確率は 50 %」
- 対立仮説 HA:「コインがイカサマである」
この時重要なのは,コインがイカサマでない(=帰無仮説が正しい)にもかかわらず,連続でオモテまたはウラが続く可能性も,確率的にはあり得るということです。
そのような確率を実際に計算してみると,以下になります(▼)。
- 「2回投げて,2連続オモテ または 2連続ウラ」は 50 %
- 「3回投げて,3連続オモテ または 3連続ウラ」は 25 %
- 「4回投げて,4連続オモテ または 4連続ウラ」は 12.5 %
- 「5回投げて,5連続オモテ または 5連続ウラ」は 6.25%
- 「6回投げて,6連続オモテ または 6連続ウラ」は 3.125%
5回連続で同じ面,はイカサマか?
「5回連続オモテまたはウラ」は,感覚的には 滅多に起きないような気もしますが,こうして計算してみると6.25 % で起こりうるようです。「5回コインを連続で投げる」という試行を100回繰り返せば,6回くらいは起きうる現象だということですね。
このとき「5%」という値で線引きをすると,これでは「有意」となりません。つまりこの現象は偶然でも起こり得るとみなします。帰無仮説は棄却されません。
公平なコイントスであっても,まあ 5回連続同じ面が続くことくらい,たまにはあるだろう。実際,同じ試行を100回繰り返したら,6回くらいはあるわけだし(p=0.0625)。
そういう結論に落ち着くわけです。
6 回連続で同じ面,はイカサマか?
では「6 回連続オモテまたはウラ」という状況はどうでしょうか。
これは先ほど計算した通りコインにイカサマがない状況でも 3.125 % の確率で起きうる現象ですが, 5%(p=0.05) という〈水準〉は下回っています。
つまり「前提の確率モデル(50%でオモテが出る)とは矛盾度が大きい」(=統計学的に有意)とみなすことになります。そのため帰無仮説は棄却され,コインにイカサマがある可能性を考えることになります。
どこからがイカサマか?
ここまでの確率を元にした推計をまとめると,以下のようになります。
コインにイカサマがないとき,5回連続は「ありうる」が,6回連続は「おかしい」(前提条件との矛盾度が大きい)
── 有意水準 5% の場合
さてこの判断基準は,私たちの感覚と合致しているでしょうか?
この問題は少し心の片隅に置いておいて,そもそもなぜ「5%」なのか?ということについてもう少し掘り下げていきたいと思います。
推測統計で重要な「5%」という確率
ここまで「コインはイカサマか?」という命題に対する検証手順を見てきましたが,これは実際,そのまま新薬のエビデンス創出などにも通ずる考え方です。
コイン投げは最も単純な確率統計モデルであるため直感的に解釈しやすいものですが,統計モデルをもう少し複雑にすれば,科学論文で検証するような仮説を扱うことができます。
たとえば,ある新薬 A は従来薬 B と比べて本当に「効く」のか? ある新しい広告 A は,古い広告 B よりも本当に「売り上げを上げる」のか?── そうした仮説検証も,「このコインはイカサマか?」について検証した手順の延長線上の手法で検証が可能です。
推測統計の手順
私たちが,
この介入(新しい薬,新しい広告,etc.. )には本当に効果があるのか?
ということを調べたいとき,直接的に母集団(=古今東西のあらゆる対象者)を調べ尽くすことができるのであれば,【真実】はたちどころに明白となります。
しかしそうした大規模調査には膨大なコストがかかってしまうため,現実的にはほとんど不可能です。そこで,
- 低コストでアクセスできる手ごろな標本(対象者)を ランダム抽出
- その標本の中での効果を検証し
- その結果から母集団でも効果があるのか推定する
という手続き(=推測統計)を行うのでした。
この推測統計の世界観では,
- |より正確には
- より正確には,上記の帰無仮説の下での『特定の統計モデル内』において,ランダム性のみによって手元の標本データ以上に極端な値が得られる確率です。統計モデルやその前提条件が大きくズレている時にも P 値は極端に小さくなるため注意が必要です。
なるものを算出します。そして,その P 値が十分低いとみなせる時に,
そんな偶然は滅多に起きないんだから,さすがに ”標本のランダム性” のみでは説明できない!前提条件(=本当は効果がない)の部分がおかしいんだ!
きっと本当に(母集団でも)差があるぞ!
と背理法的に推論するのでした。これはまさに,先ほどのコインのイカサマの話と同じ流れです。
〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]
なぜ 5% なのか?
この時,「得られたP 値が十分低いとみなせるかどうか」という線引き・閾値のことを 〈有意水準〉significance level と呼び,その確率を α と設定します。
そして,この有意水準 α として最もよく使われるのが,先ほどから繰り返し強調している5%という数字です。
しかしこれは完全に慣例的なものであって,何か科学的な根拠があるものではない,とも言われています。これには有名な小噺があって,ASA(アメリカ統計学会)のポータルで学生が
Q:なぜ 5% で線引きをするんですか?
と尋ねたところ,その問いに対する答えは結局
A:それは大学でそう教えているからです
となったくらいだと言います。
これはさすがに誇張的なエピソードかもしれませんが,ともかく 5% とは,そのように慣例的な線引きに過ぎません。しかし結局私たちはその「慣例」に従って,5%という水準を境に重大な決断を迫られることになります。
- |最初はフィッシャー?
- 5% が有意水準として使われ始めた最初のルーツとしては,現代統計の父と言われるフィッシャーが「5%の判断が “便利だ” 」と言ったから,という説もあるそうです。
5 %を切れば結果は「有意」に
実際には,P 値がある値(有意水準)を超えるか超えないか,というただその1点のみにおいて結果の「有意性」が判定されることには問題も多くあります。
- P 値が 5% 以下となるデータでは「そんなことはあり得ないので前提がやっぱりおかしい」と切り捨てる(=帰無仮説を棄却)。
- P 値が5%を超えるのであれば「そんなこともあるかもね」と結論する(=帰無仮説を棄却できない)。
──こうした論理はしばしば認めますが,実際にはそんな単純な話ではありません。 5% という慣例的な基準だけを頼りに「本当に母集団でも効果があるのか?」という推論に対し二者択一の答えを出すことは危険です。
まずあくまで母集団のごく一部のサンプル(標本)のデータを見ているに過ぎない,という謙虚さは常に必要です。
- |P 値函数
- P 値は「観察データと特定の統計モデルが矛盾する程度を示す指標」ですが,その特定の統計モデルは多数ある中で「効果は0である」のP 値のみを計算して唯一の指標とする慣習は不十分ではないかという議論があります。たとえば「効果はxである」という仮説のP 値をxを動かして計算してプロットするべきだという説もその1つです。つまり P 値函数(p-value function)を使うべきだという議論です。/参考文献
「5%」ってどの程度の確率?
ただそうは言っても慣例的に 5%水準が用いられ続けている以上,私たちがこの数字に明るくなっておく必要があるのも事実です。
実際 5%というのは,どの程度の数字感覚・肌感覚のものなのでしょう?先ほどのイカサマコインの例では,有意水準 α = 0.05 とする場合,
- 5回連続で同じ面になる(p=0.063)ことはあり得る
┗▶︎ 帰無仮説を棄却できない - 6回連続で同じ面ということ(p=0.031)は,さすがにない
┗▶︎ 帰無仮説を棄却する
という結論になるのでした。もう少し別のケースでも考えてみましょう。
阪神・巨人の実力は五分五分か?
プロ野球で,阪神と巨人が 15回試合をした時のことを考えます。
この時,私たちは感覚的に,どちらが何勝したら「こりゃ明らかに実力差があるな」と感じるでしょうか?
帰無仮説と対立仮説
今ここで検証したいのは「阪神と巨人の実力には差がある」という仮説です。コイントスの時と同様,「実力差がある」ことを直接的に証明するのはなかなか難しいので,
「実力差がない」ならこんな戦績にはならないんじゃないのか?
という背理法的な証明を試みます。
つまり「実力に差がない」というのが帰無仮説(H0)で,「実力に差がある」というのが検証したい対立仮説(HA)です(▼)。
- 対立仮説 HA:「阪神と巨人の実力には差がある」
- 帰無仮説 H0:「阪神と巨人の実力は五分五分である = 勝率 50 %である」
実際の計算の例
一応,確認のため実際に阪神が 4 勝する確率について計算してみましょう。
実力が五分五分という条件であれば,勝率は 1/2 であるはずですから,阪神が4勝する確率の求め方は
となります。
実際の確率分布は?
さて,このように「勝利数がいくつになるか?」という確率を算出し続け,その確率分布をグラフにまとめると,以下(▼)のようになります。

実力が五分五分なので,当然,15 戦 7 勝や 8 勝という状況が一番起きやすくなっています(19.6 % + 19.6 %)。そこから離れて極端な戦績になればなるほど,確率が小さくなっていくことが一目でわかります。
本当に実力が五分五分なら,0勝(0.003 %)や15勝(0.003 %)ということは,1000回 やっても 6回くらいしか起き得ないということです。
〈線引き〉はどこから?
さて,では実際に私たちは「どの程度の戦績」から,
実力が五分五分ならこんな戦績はあり得ない!
と考えはじめるでしょうか。実際の確率を計算してみて,感覚と照らし合わせてみましょう。
例えば,阪神が4勝以下しかできなかったとします。これは,両チームの実力が五分五分だった場合,どの程度の確率で起きうる現象でしょうか?
阪神が 4 勝以下となる確率は?
実力が五分五分という前提において,阪神の戦績が 15 戦 4 勝「以下」となる確率について求めてみましょう。
計算は単純で,4勝・3勝・2勝・1勝・0勝の確率を求め,その総和を算出すればOKです。それで「15戦4勝以下」という戦績になる確率が算出できます(▼)。
&\quad+…+\frac{{}_{15} C_{0}}{2^{15}} = 0.059 \end{split}$$
この確率は,5.9 % です。
全体の戦績が「4 勝 11 敗」より極端になる確率は?
ここで巨人が強いか阪神が強いかはともかくとして,「4勝11敗」という最終戦績よりも極端な戦績で終わる確率はいくつでしょうか。
先ほどお示ししたグラフからわかる様に,戦績の確率分布は左右対称性で,
となっています。そこで
と算出できます。
要するに,どちらが強いかはさておき「11勝 4敗」という戦績で終わる確率は約 12 % と計算できました。
実力が本当に五分五分のチームが対戦したとしても, 12 %ほどの確率で,「11 勝 4 敗」という極端な戦績になりうる,ということです。
同様に,戦績が「12 勝 3 敗」以上に極端となる確率についても,以下のように算出できます(▼;途中式割愛)
計算結果まとめ
以上をまとめますと,
- 「阪神の勝ちが 4 回以下または 11 回以上となる確率」p=0.119(11.9%)
- 「阪神の勝ちが 3 回以下または 12 回以上となる確率」 p=0.035 (3.5%)
- 「4勝11敗」は実力が五分五分でも 11.9 % の確率で起こり得る
- 「3勝12敗」は実力が五分五分でも 3.5 % の確率で起こり得る
ということです。
どこからが「有意」な勝利差か?
さて,ここでまた,5%という線引き(有意水準 α)を用いてこれらの数字を解釈してみましょう。そうすると,
「4勝11敗」は実力が五分五分でも起こりうるが,「3勝12敗」となるのは非常にまれ(5%未満)であり,実力が五分五分という前提は間違っていると考えられる
つまり
「4勝11敗」は “有意” な勝利差ではないが
「3勝12敗」は “有意” な勝利差である
とみなすことになります。
有意水準を 5% と取るということは,このような感覚で P 値を判定する,ということです。
実力が五分五分のチームなら,4勝11敗まではありうるかもしれないが,さすがに3勝12敗ということはないだろう。
いかがでしょうか。
この感覚は,私たちの感覚に近いものでしょうか?
5勝10 敗は 30% もありうる
ちなみに同様の手順で「15戦:5勝10敗」という戦績になる確率を求めると,実は30%もあります(p=0.30)。これはつまり
ということです。
なんとなくリアルな世界観では信じがたいと言いますか,それだけの戦績がつくのであればさすがに実力差は明白だろうと言ってしまいたくなりますよね。
しかし α=0.05 まで許容する世界観では,15回試合を行って5勝10敗でも,「実力差がある!」と断言することはできないのです。それはランダム性によるバラツキ を見ただけかもしれないからです。あと5回やったら,負けていた側が5連勝して,10勝10敗に追い上げるかもしれません。ですから,もっと明白な差がつくまでその可能性を棄却してはいけないのです。
このあたりの数字感覚は絶妙なところですね。
実力が五分五分のチームが,50回試合をしたら?
もう少し深く検討するために,さらに試合数を増やして考えてみましょう。巨人と阪神が,50回試合を行います。両者の実力が五分五分である,という前提に立った時,巨人の勝利数の確率は,以下のようになります。
そしてこの確率分布をまとめたものが下図(▼)です。

先ほどの例で,15回試合を行った場合よりも,さらになだらかなカーブとなっています。
どこからが「有意」な勝利差か?
この時,どちらがたくさん勝つかはさておき
- 「17 勝 33 敗」の確率:3.20% (1.60 % × 2)
- 「18 勝 32 敗」の確率:6.48% (3.24 % × 2)

と計算できます。
これを有意水準 5 %に照らして考えてみると,以下の様になります。
本当に実力が五分五分なら,どちらかのチームが 50戦中 33勝以上することは 3.2%しかない。これは 5% 以下という非常に小さい確率だから,前提条件がおかしいんだ!実力は五分五分ではない!
でも 32勝までなら,実力が五分五分でも起きうる現象だ!(=6.4%)
要するに,50戦 32勝まではありうるのに,33勝以上はあり得ないとみなすわけです。
これが『有意水準 5 %で線引きをする』ということです。この感覚は,いかがでしょうか。私たちの感覚に合った判断基準でしょうか?
両側検定と片側検定
両側検定とは?
なお,これまでの例を見てきて,阪神・巨人の話にしろ,コイントスの話にしろ,5%水準と言っておきながら,実質的には確率分布の片側 2.5 %のすそ野で判定しているということにお気づきになったかもしれません。
こうした検定の手法を 両側検定 two-sided test (two-tailed test) と呼びます。
これは巨人の方が強い場合と阪神の方が強い場合,いずれのパターンも考えながら仮説検証を行っている,ということです。
どちらが強くても構わないので,とにかく 2つのチームの実力に「差がある」ということを主張するための検定になっています。
このとき「実力に差がない」という帰無仮説を棄却できるかどうか,有意かどうかの判定は,帰無分布の「両すそ野」の和で考えることになるのです(▼)。

片側検定
別の考え方として,仮説に一定の方向性をつけたものを片側検定 one-sided test (one-tailed test)と呼びます。
今回の例で言えば,「巨人の強さ<阪神の強さ」というケースのみを考え,逆のパターンは考えないということです(▼)。

片側検定・両側検定:どちらが妥当か?
なぜこの2つの検定方法の違いが重要かというと,同じ有意水準 5% だとしても,両側検定と片側検定では,仮説の棄却域が変わってくるからです。
両側検定だと,確率分布の片側のすそ野が 2.5 % 以下でないといけないのに対し,片側検定だと確率分布の片側のすそ野が 5%まで許されてしまうのです。
つまり片側検定の方が,有意水準が実質的にユルくなってしまうのです。
ユルくて有意になりやすいなら良いじゃん!という風に思われるかもしれませんが,有意水準が 2倍 ユルいということは αエラーを 2倍許容することになってしまうので,好ましいものではありません。
また,そもそも一般に統計の世界では「どちらかが絶対に優れている!」というような決めつけのもとで仮説検定を行うことは滅多にありません。
検定を行うまでは「従来薬の方が結果がよかった!なんてこった!これは失敗治験だ!」なんてこともないとは言い切れません。ですから,原則的には両側検定を行うべきとされています。
不自然に片側検定をおこなっている論文を見かけたりした場合,どのような科学的妥当性があってそのような検定を行なっているのか,読者は疑ってかかる必要があります。
まとめ
- 公平なコイントスなら,5 回連続同じ面はありうるが,6 回連続は無い
- 実力が同じなら,11 勝 4敗まではありうるが,12 勝 3 敗からは無い
- 実力が同じなら,32 勝 18 敗まではありうるが,33 勝 17 敗からは無い
このまとめで,5%での線引きが結構「微妙な」線引きであることを,具体的にイメージいただけたのではないかと思います。
今回の記事では帰無仮説に沿った確率分布が二項分布になる場合しか扱っていませんが,他の確率分布で検討するときも,基本的には同じ考え方となります。
〈統計的に有意〉あるいは〈統計的に有意ではない〉という言葉を耳にした時
そもそもそのラインでバツンと線引きしちゃって本当にいいの?
ということを,情報の受け取り手はよく考えた方が良いかもしれません。結局,きちんと元データ・元文献を読みましょう,ということですね。