〈統計学的に有意な差〉とは?
今やどんな研究論文でも,あるいはビジネスシーンでも,必ず目にする
〈統計学的に有意〉 significant という言葉。
「統計学的に有意」ってどういう意味?
と人に聞かれた時,皆様はその意味をポン,と答えることができるでしょうか?
平易な言葉でまとめてしまえば,
と片付けてしまえるかもしれません。
しかし,これを何となく理解しているつもりでも,

匿名
と聞かれてしまうと,この本質を人に説明するのは意外と難しいのではないでしょうか。
今回は今更ながら 〈統計学的に有意〉とは何なのか? について,その本質に触れながら,なるべく平易な言葉でまとめてみたいと思います。
そのために,まずは以下の2つの前提知識(▼)から解説して参ります!
- 標本調査と推測統計とは何か?
- 統計学的仮説検定において「帰無仮説を棄却する」とはどういうことか?
標本調査と推測統計
〈統計学的に有意な差〉という言葉の意味は,
標本調査の結果で得られたこの〈差〉は,偶然のものではなさそう。
きっと本当に(母集団でも)〈差〉がありそうだよ!
と言えるくらいの〈差〉です。
〈標本調査〉,〈推測統計〉,〈母集団〉。
まずはこれらについて知識を整理していきましょう。
推測統計とは?
いきなりですが,実際に私たちが調査や実験でヒトを扱う時のことを考えてみましょう。
お魚をたくさん摂っていると,どうやら心筋梗塞になりにくいぞ
という学説を目にした研究者が,そのお魚から栄養素を抽出して,サプリメントにすることを検討しました。
そのお魚栄養サプリメント A の内服に,「本当に効果があるのか?」を調べるため,次のような試験をデザインしたとします。
- 一般の健常市民 100 人を集める
- 「サプリメント A」を内服する群 50 人と,「何の効果もない偽薬 B」を内服する対照群(コントロール群) 50 人に,ランダムに割り付ける
- それぞれ 3年追跡し,心筋梗塞のイベント発生率が変わるか解析する
さてこの時,研究者は本当なら,
古今東西の何億人という人(=母集団)全員を対象とした試験をおこなって,実際に〈効果〉(=心筋梗塞発症率の差)が確認できるかを見たいところです。
そうすれば〈効果〉があるかどうかは一目瞭然。
母集団全てを対象にして得られたデータは,事実そのものになります。
しかし,そのような大規模調査は倫理的にも経済的にも現実的ではありません。
- | 経済と倫理
- 医学研究の場合は特に問題で,効果があるかどうか分からない薬やサプリメントの効果を検証する「人体実験」に,不必要にたくさんの人を巻き込むわけにはいきません(倫理的問題)。それに数億人規模の大規模な RCT なんて組もうものなら,膨大な資金が必要になってしまいます(経済的問題)。
そこで研究者はやむなく「すぐ手の届く範囲にいる 100 人や 1000人くらいの被験者」を集めて,標本(sample)として利用するわけです(下図)。

- 図注|正規分布でないことも多い
- 実際には,評価する変数によっては母集団のデータが正規分布になっていないことは多いです。が,簡単のため以降の図は母集団を正規分布で表現させて頂いています
知りたいのはあくまでも母集団
この時,
100人の標本調査データでは,サプリ内服群の方が偽薬群と比べて 5% 心筋梗塞の発症リスクが低かったです!やったね!
と結論して終わる研究者はいません。
研究者が知りたいのは,抽出した100人ぽっちにおいて効果があったかどうかではないのです。
本当に知りたいのは,
このサプリは古今東西どの人が内服しても(=母集団でも)本当に意味があるものなのか?
ということです。
標本調査は,母集団調査の代用としておこなっているものに過ぎません。
ですから研究者は,標本調査の結果から「母集団ではどうなりそうか?」ということを必死で推測します。
限定的な標本の調査で得られた結果から,「母集団でも同じような傾向がみられるのではないか?」と推論しようとする わけです。
このように「標本調査から母集団を推定する」という手法を,一般に【推測統計】と呼びます。
- 補足|記述統計
- 一方,この100人の標本では平均値○○でした,この集団では標準偏差が○○でした,といった「実際のデータの要約だけを行う統計学」を【記述統計】と呼びます。
その結果から,母集団でも効果が得られそうか推定する
人間にしろネズミを用いた実験にしろ,個体差などによるバラツキがある集団を対象とする時,本当なら母集団すべてを調査しなければ【真実】はわかりません。
しかし母集団すべてを直接的に調べるのは,現実には困難です。
そこで,なんとかして手元の小さな標本データから,母集団における【真実】を推し量るのです。
テレビ視聴率・内閣支持率
尚,ここまでもっぱら医学研究を例にとって【推測統計】の手続きについて解説してきましたが,やはり最も身近な推測統計と言えばテレビ視聴率でしょう。
テレビ視聴率も,実際に日本中の数千万世帯のリアルタイムの視聴番組(=母集団)を調査しているわけではありません。
そんなことをずっとやっていたら,とんでもないコストになってしまいます。
ですから,実際にはその母集団からランダムに抽出した,数 1000 世帯という標本で調査を行います。
まず標本での平均視聴率を求め,その値から母集団の平均視聴率を推定し,それを「テレビ視聴率」と呼んでいるのです。
また,電話調査で行われる「内閣支持率調査」も,実際に日本中の全世帯(=母集団)に鬼電 ☎︎して「支持してますかァ?!」と調査しているわけではありません。
これも一種の推測統計で,一定数の標本調査から,母集団(=全有権者)での支持率を推定しようとする試みである,と言えます。
コラム:推測統計は味噌汁の味見

シロ

クロ

シロ

ミケ

シロ

クロ
ランダム化比較試験における推測統計
あらゆるエビデンスの基本とされるランダム化比較試験(RCT)も,この【推測統計】の枠組みに沿って行われています。
ここで再び,先ほどのサプリメントの臨床試験に戻って考えてみましょう。
研究者は,下記(▼)の手順に沿って研究を進めることにしました。
- 一般の健常市民(母集団)から被験者(標本)をランダムに抽出
- ランダムに「介入群;サプリ群」と「対照群;偽薬群」に割り付けて
- それぞれ 3年間追跡し
- 両者で心筋梗塞の発症率(アウトカム)に差があるか集計
- その差が〈統計学的に有意な差〉か検討して
- 有意な差があった時に「この介入には意味がある!」と喜ぶ
さて,ここでなぜ研究者は ⑥ で「この介入には意味がある!」と喜べるのでしょうか。
これは,
- サンプルが適切に(ランダムに)集められ
- 両群への割り付けが適切に(ランダムに)行われ
- 途中脱落なども偏りなくフォローされていれば
両群に割り振られた人の属性はきちんと揃っているはずだからです。
- | 補足
- 逆にこのプロセスのどれか1つでもバイアスされれば,得られる結果もバイアスされてしまう,と言うのは RCT の重大な弱点です
介入以外がフェアであることが重要
均質な集団同士のフェアな比較になっているはずなので,「アウトカムの差」は他ならぬ「介入の有無によって生じた差」と言うことができるのです。
その他の要因で「アウトカムの差」をきたしうるものは,全て両群均質に ”ならされている” わけです。
そのため,今回の例で言えば,「サプリを飲んだか偽薬を飲んだかの違い」が,そのまま「心筋梗塞発症リスクの差」を出したと考えられます。
こうした論理展開によって,
この介入(サプリA 内服)には意味がある!
と喜べるわけです。
これが,ランダム化比較試験の最大の特長なのでした。
この記事には案内役としてネコが登場します。この記事では 「RCT の定義」「RCTであるための要件」 について掘り下げて解説しています(▼)。RCTの満たすべき条件ランダム化されている比較対照(control群)がある[…]
標本では効果の〈差〉がありそう!されど・・
しかしここで大きな問題があることに気づきます。
RCTの結果で,一見 差がありそうとなったところで,結局のところこれは「標本調査の結果」でしかない,ということです。
そもそも 被験者(標本 sample)というのは母集団(population)のごく一部を持ってきたものに過ぎません。

その被験者の集団で〈効果〉があったからと言って,現実世界に実在する大勢の人を実際に対象にした時にも「本当に効果がある」と言い切って良いのでしょうか?
実際問題,【真実】は誰にも分かりません。
全員を調査したわけではないからです。
標本は母集団をきちんと代表しているか?
その上,標本調査では
母集団を代表できるようランダムに標本を選び出した(あるいはそのように努力した)つもりであっても,「得られた標本が母集団の平均から偏った集団である可能性」がある
という問題もあります。
これはサンプリングの限界で,どうしても確率的に一定程度起きうる現象です。

この時,偏った標本から得られたデータを用いては,正しく母集団での結論(真実)を推定することはできません。
入り口からズレてしまっているので,当然の帰結です。
標本調査から母集団での結論を求めようとする【推測統計】を行う際,偏ったサンプリングから誤った結論を導き出してしまう可能性を,私たちは常に抱えているのです。
割り付けのときに偏ってしまうこともある
さらに,問題はこれだけではありません。
仮にサンプリングの時点では適切に母集団を代表できる標本になっていても,その次のステップである「ランダム割り付け」の際に,
「被験者の属性が両群均等にならず,片側有利に偏ってしまう」
ことも確率的にあり得ます。
フォローアップ中の途中脱落もある
また,フォローアップ中に途中抜けしてしまう人の数に大きな偏りがあった場合も,最終的に両群が均質とならず,フェアな比較になりません。
このようにして,RCT ではその1つ1つのプロセスにおいて,結果を大きく歪めかねない現象が 確率的に 起きうるのです。
全てがランダムなら確率計算に落とし込める
しかしこれらが本当に全て「ランダムに」「確率的に」起きたものであるならば,
どの程度の「確率」でそういう偏ったデータが得られるのか?
ということは確率論的なモデルに当てはめて推定できるはずですよね。
この「確率」こそが知る人ぞ知る p値であり,p値 をもとにして「母集団でも差があるかどうか検討する」という手続きが,次項で述べる【統計学的仮説検定】です。
- 標本抽出時点:一定確率で 偏ったサンプリングをする
- ランダム割り付け時点:一定確率で 偏った割り付けをする
- フォローアップ時点:一定確率で 偏った途中脱落(転居など)が起きる
- 補足
- これらのプロセスにおいて「確率的に」ではなく,何か構造的な問題があって,何度行っても「系統的に」偏りが起きてしまう場合は,バイアスと呼びます。バイアスがある場合も当然間違った結論の原因となります。
ここまでのまとめ
一旦,ここまでの内容をまとめます。
- 母集団:古今東西,想定しうる全ての対象
- 標本:母集団から抽出した一定数
- 推測統計:標本調査の結果から母集団での効果を推定する一連の手続き
- 統計学的に有意な差:
母集団でも『差』があるだろうと推定できる程の,標本調査での『差』
推測統計の問題点
- あくまで母集団の “推定” に過ぎず,真実は誰にも分からない
- 得られた標本が偏っている可能性がある(確率的にもバイアス的にも)
- 偏った標本から,母集団について間違った推定をしてしまう可能性がある
統計学的仮説検定とは?
それでは,〈統計学的に有意〉という言葉を正しく理解するための2本目の柱に話をうつしていきましょう。
繰り返しになりますが,〈統計学的に有意な差〉とは,標本から母集団を推定する推測統計学という枠組みにおいて,「母集団でも差があると言えそうな”差”」なのでした。
これが1つ目の大きなポイントで,本項前半で扱った内容です。
ここから先は,
では標本調査でどのような差があれば「母集団でも差がありそう」と言って良いのか?
という話になります。
その証明の一連の手続きを【統計学的仮説検定】と呼びます。
以下ではこの手続きについて,詳しくみていきましょう。
一応,最初に流れをお示ししておきます(▼)が,ゴチャゴチャしていますので,ひとまずここではサラリと読み流してください。
- 示したい仮説(対立仮説)と,反対の仮説(帰無仮説)を設定する
- 標本からデータを得る
- 帰無仮説が正しい場合に,標本の “ランダム性” のみによって偶然そのようなデータが得られる確率(= p値)を求める
- p値が十分低いとみなせるかどうか検討する
- p値が十分低いとみなせる時,帰無仮説を棄却する(=統計学的に有意!)
以下,詳しく解説していきます!
帰無仮説とp値
研究者は「本当は母集団そのものを調査したい」のですが,とても現実的ではないため,「手頃な標本を抽出してきて調査する」のでした。
知りたいのはその標本におけるデータそのものではなく,その背景にある母集団のデータです。
「この新薬が効く!」という RCTを組むのは「この100人や200人では有効でした!」ということを示すためではありません。
その100人や200人の標本データをもってして,古今東西のあらゆる人(=母集団)を対象としても「この新薬が本当に効くのか?」ということを推定したいのです。
検証する 2 つの仮説
つまり研究者が本当に証明したい仮説は,下記の仮説 H1(▼)となります。
しかし,母集団を直接調べているわけではない以上,直接的なアプローチでこの仮説を実証することは困難です。
そもそも一体何人の被験者で〈差〉を示せたら「母集団でも差があるよ」と主張して良いのか,わかったものではありません。
そこで,真逆のアプローチをとることにします。
この仮説 H0 が正しい,と一旦考えてみるのです。
そして
この仮説が正しい前提で計算を進めていくと,おかしなことになる。
だからこの前提がおかしいんだ!
という背理法的なアプローチで攻めてみるわけです。
p値という「確率」
この背理法的なアプローチで主役となるが p値;p-value
という概念です。
p値とは,
- 補足
- 厳密には
このような データ以上に極端な データが得られる確率の総和
を示したものです。
つまり
今,目の前の標本調査で得られたデータには,一見〈差〉があるように見える。しかし実際には「介入」によって〈差〉など生じない(仮説H0)。これは「介入の有無による差」ではなく,サンプリングや割り付けの際に 確率的に 生じる “標本のランダム性” によって「偶然生まれたに過ぎない差」である
とみなした上で,
では “標本のランダム性” のみによって
このような データが得られる「確率」はどの程度だろうか?
と計算してみた 「バーチャルな確率」が,p値; p-valueと呼ばれるものです。
背理法的な証明
こうして算出された p値が十分に小さい(と研究者が感じる)時,やはり「差がない」という仮説自体が間違っていたのだ,としてこの 帰無仮説 H0 を棄却 reject します。
いやこんな小さい確率が偶然に起きたなんてありうる??
ないよね?!
「差がない」っていう前提がおかしいんだよねコレは?!
と背理法的に考える,ということです。
「本当は(母集団では)差がない」という仮説 H0 を棄却したのですから,「本当に(母集団でも)差がある」という仮説 H1 を採択することになります。
こうして,標本調査の結果に過ぎないにもかかわらず,母集団でも効果があると推論できる のです。
そして,繰り返しになりますが,「帰無仮説が棄却できる」つまり「母集団でも本当に効果があるだろうと推論できる」ときに,〈統計学的に有意〉という言葉を使います。
- 補足:p 値算出の前提条件
- この図から明らかなように, p 値を求めるにあたって非常に重要となる前提条件があります。それが,サンプリング・割り付け・欠測データの「ランダム性」です。サンプリングも割り付けもフォローアップからの脱落もバイアスなく無作為に(=確率的に)起きた,ということが極めて重要なのです。無作為だからこそ,確率モデルに当てはめて p 値を計算できるわけです。もしサンプリングや割り付けや追跡データの欠測が何者かの意図によって構造的に行われる(バイアスされる)と,以降の「確率的推論」は全てパァ👐です。実際には確率的に起きたものではなく系統的に起きた現象であるため,p 値という「確率」を考える意味がなくなってしまうのです。
p値は十分低いか? ー アナタが判断する
帰無仮説を棄却できるかどうかというのは,p値がどの程度小さい値であるか,というところで決まるのでした。
つまり,
得られた p値が十分に小さい(と研究者が感じる)時,「本当は差がない」という仮説自体が間違っていたのだ,としてこの 仮説 H0 を棄却する
という手続きの部分が重要となります。
この点について,もう少し深く掘り下げていきましょう。
どのラインから「有意」なのか?
〈統計学的に有意〉かどうか,というのは,実は非常に感覚的な基準で決められています。
帰無仮説が正しいという前提で標本データから計算された p値という「確率」を見て,それが十分に小さい時,
こんな「確率」は滅多にないから,前提条件がおかしいんだ!
と,私たちは
みなし始めるわけですが,実際そのラインは固定的なものではないのです。
「こんな確率は滅多にない」というのは感覚的・慣例的なものに過ぎません。
この線引きの閾値は〈有意水準 significance level〉と呼ばれ,慣例的に 5% という値が最もよく用いられます。
p値がこの水準を下回れば,〈統計的に有意〉という扱いになり「その介入には意味がある」という結論になるわけです。
この記事では〈αエラー〉と〈βエラー〉とは何なのか?ということについて,基本的内容に絞ってまとめます。さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]
有意水準は観念的なもの
しかし「5%なんて確率は滅多にない!」と感じる人もいれば,「5%なんてまあまあな確率じゃん・・」と感じる人もいるでしょう。
そもそも 5% という数字自体,慣例的なもので,科学的根拠に基づくものではありません(研究によっては 1% を有意水準とすることもあります)。
結局は私たちがその確率をどう捉えるか?という非常に観念的なものなのです。
ここまで一生懸命研究をしてきて,その結果の解釈,
最後の最後の部分がこうした非常に感覚的・慣例的な線引き(=有意水準)によって左右される,ということを私たちはよく知っておく必要があります。
本章では,統計の世界で非常に重視される p=0.05 という〈線引き〉がいかに微妙な、、、ものであるかについて述べます。本章で扱う内容有意水準 5 % の「理由」:特にない。感覚的,慣例的に決められた。有意水準 5 % の「感覚[…]
- 補足
- なお,研究者たちは,研究をデザインする時点から予め「有意水準」を決めて明記・提出しておくことが求められます。結果ありきの後出しジャンケンで,得られた p = 0.04 だったら 有意水準を 0.05 として「有意」と主張し,得られた p = 0.06 だったら有意水準を 0.075 にして「有意」と主張する,といったことは許されません。
また,有意水準(α)を緩くしすぎると,「本当は母集団では差がない」にもかかわらず「統計学的に有意!」と誤った推定を行ってしまうリスクが高くなる,という問題もあります(=αエラー)。
p値は小さければ良いのか?
加えて問題となるのは,p値は人為的にいくらでも小さくすることができる ということです。
標本サイズ(対象者の数)を増やせば増やすほど,標本調査の結果は母集団調査の結果に近似していきます。
そのためどんどん「標本のランダム性」による誤差は小さくなっていき,結果としてp値も小さくなるのです。
これは「効果があるから」p値が小さくなったということではなく,「標本が増えてデータのバラつきの幅が小さくなったから」数学的にp値が小さくなったというだけのことです。
無数にたくさんの被験者(100万人くらい)を対象にした研究では,以下のようなことも容易に起こり得ます。
この新薬で血圧がなんと平均 2 mmHg も低下しました!(p=0.0001)
しかしそんな薬を飲むことに,果たして意味はあるでしょうか?
ありませんよね。
〈統計学的に有意〉(p値が十分低い値)であることと,【臨床的に有意】(リアルワールドで価値のある違い)であることは,全く異なる概念なのです。
サンプルサイズを大きくしすぎると,p値は小さくなるかもしれませんが,こういう何の価値もないノイズデータも「有意差」として拾ってしまう可能性があります。
臨床的に(実際的に)有意でないものが,統計学的に有意な差を示したからと言って,何の価値もないことは言うまでもありません。
p 値を規定する要因は複数ある
p値が小さくて統計学的に有意だ!という時,以下(▼)のどの理由によるものなのか,よく吟味する必要があるでしょう。
- 実際に大きな〈効果〉・大きな〈差〉がある
- サンプルサイズが大きい(=結果のバラつきの幅が小さい)
- 標本抽出・割り付け・脱落などが実はランダムでない(バイアスがある)
- 再現性に乏しい非常に偏ったデータが奇跡的に得られただけ(=まぐれ)
本当は ② や ③ や ④ のため p 値が計算上小さくなっているだけなのに,これは ① だ!と決めつけてしまうと,本当は価値がないものを取り上げてぬか喜びすることになりかねません。
〈統計学的に有意〉という言葉を見聞きするたび,こうした問題,限界を想起する必要があるのです。
総まとめ
まとめです!
- 標本調査から母集団を推測する【推測統計】の枠組みの中で
- 母集団でも “差” が出ると言える(=帰無仮説を棄却できる)ほどの 差
- 言い換えれば,p値が有意水準 α(通例 5%)を下回るほどの 差
おわりに:統計学的に有意-だから?
〈統計学的に有意〉とは結局,標本データから算出されたp値というバーチャルな「確率」が,自分たちの考える基準(=有意水準)よりも低いかどうかという,非常に観念的な概念でしかありません。
くどいようですが,母集団を直接調査していないので,真実は誰にも分からないのです。
そもそも p=0.05 というたった1つの線引きで「有意か」「有意でないか」という両極端な結論を得ること自体,研究手法として妥当なのか? という意見もあります。
実際,p = 0.049 だと「母集団でも差がある!」と言えるのに, p = 0.055 だと「母集団でも差があるとは言えない!」というのも些か奇妙な感覚です。
しかし現実問題としてこれ以上妥当な推測統計の手段が確立されておらず,普及もしていないという状況であるため,この手法の限界を知ってリテラシーを身につけるほかありません。
こうした問題点をよく理解しないままに【有意】significant という言葉に囚われ過ぎてしまうと,大きな判断間違いをしてしまうことに繋がりかねません。
有意という言葉のウラには,数多くの「限界」が隠れていることを忘れないようにしましょう。
- p値は人為的に小さくできる
- 勝手な線引き(有意水準)を境にして,両極端な解釈をしている
- 結局は母集団の “推測”にすぎず,真実は不明
┗ 得られた標本が偏っていた可能性がある(確率的にもバイアス的にも) - 推測の結果と真実は異なるかもしれない(αエラーとβエラー)
- 〈本質的に有意〉あるいは〈臨床的に有意〉とは全く別問題
次はこれらの問題について踏み込んだ記事をまとめてみたいと思います!