〈統計学的に有意な差〉とは?
今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし
「統計学的に有意な差」ってどういう意味ですか?
と聞かれた時,その意味を端的に答えるのは,実は容易ではありません。
一般向けの平易な言葉でまとめてしまえば,
と片付けてしまえるかもしれませんが,「つまりどう言うことか」と聞かれてしまうと,説明に窮してしまうこともあると思います。
もう少し本質的なことばで表現すれば
とも言えますが,この表現が「腑に落ちる」ためには一定程度の前提知識が必要になります。
そこでこの記事では 〈統計学的に有意〉とは何なのか? について,その本質に触れながら,なるべく平易な言葉でまとめてみたいと思います。
以下の2つの前提知識(▼)から整理していきましょう。
- 標本調査と推測統計とは何か?
- 統計学的仮説検定において「帰無仮説を棄却する」とはどういうことか?
標本調査と推測統計
はじめに,最も重要な前提知識である〈標本調査〉と〈母集団〉についてまとめます。
推測統計とは?
私たちが調査や実験でヒトのデータを扱う時のことを考えてみましょう。たとえば
お魚をたくさん摂っていると,どうやら心筋梗塞になりにくいぞ
という学説を目にした研究者が,そのお魚から栄養素を抽出して,サプリメントにすることを検討したとします。そのお魚栄養サプリメント A の内服に,「本当に効果があるのか?」を調べるため,次のような試験をデザインしました。
- 一般の健常市民 100 人を集める
- 「サプリメント A」を内服する群 50 人と,「何の効果もない偽薬 B」を内服する対照群(コントロール群) 50 人に,ランダムに割り付ける
- それぞれ 3年追跡し,心筋梗塞のイベント発生率が変わるか解析する
この時研究者は,本当なら古今東西の何億人という人(=母集団)全員を対象とした試験をおこなって,実際に〈効果〉(=心筋梗塞発症率の差)が確認できるかを見たいところです。
そうすれば〈効果〉があるかどうかは一目瞭然。母集団全てを対象にして得られたデータは,事実そのものになります。
しかしそのような大規模調査は倫理的にも経済的にも現実的ではありません。そこでやむなく「すぐ手の届く範囲にいる 100 人や 1000人くらいの被験者」を集めて,標本(sample)として利用するわけです。
- | 経済と倫理
- 医学研究の場合は特に問題で,効果があるかどうか分からない薬やサプリメントの効果を検証する「人体実験」に,不必要にたくさんの人を巻き込むわけにはいきません(倫理的問題)。それに数億人規模の大規模な RCT なんて組もうものなら,膨大な資金が必要になってしまいます(経済的問題)。
知りたいのはあくまでも母集団
重要な点は,研究者が知りたいことは「抽出した100人ぽっちの標本での成績」ではないということです。あくまで本当に知りたいのは,
このサプリは古今東西どの人が内服しても(=母集団でも)本当に意味があるものなのか?
ということです。
標本調査は,母集団調査の代用としておこなっているものに過ぎません。ここでの目的は「標本調査を介して母集団を推定する」ことです。
このように「少ない標本から母集団を推定する」手法を,一般に〈推測統計〉と呼びます(▼)。
- 補足|記述統計
- 一方,この100人の標本では平均値○○でした,この集団では標準偏差が○○でした,といった「実際のデータの要約だけを行う統計学」を〈記述統計〉と呼びます。
テレビ視聴率・内閣支持率
〈推測統計〉の最も身近な実例は「テレビ視聴率」です。
テレビ視聴率も実際に日本中の数千万世帯のリアルタイムの視聴番組(=母集団)を調査しているわけではありません。そんな大規模調査を常に行なっていたら大変なコストになってしまいます。ですから実際にはその母集団からランダムに抽出した,数 1000 世帯という標本で調査を行います。ランダム抽出した標本での平均視聴率を求め,その値から母集団の平均視聴率を推定し,それを「テレビ視聴率」と呼んでいるのです。
また,電話調査で行われる「内閣支持率調査」も,実際に日本中の全世帯(=母集団)に鬼電 ☎︎して「支持してますかァ?!」と調査しているわけではありません。これも一種の推測統計で,一定数の標本調査から,母集団(=全有権者)での支持率を推定しています。
コラム:推測統計は味噌汁の味見
シロ
クロ
シロ
ミケ
ランダム化比較試験と推測統計
エビデンスの代表格として知られるランダム化比較試験(RCT)も,この〈推測統計〉の枠組みに沿って行われています。
先ほどのサプリメントの臨床試験であれば,以下(▼)のような手順で研究が進められることになります。
- 一般の健常市民(母集団)から被験者(標本)をランダムに抽出
- ランダムに「介入群;サプリ群」と「対照群;偽薬群」に割り付けて
- それぞれ 3年間追跡
- 両者で心筋梗塞の発症率(アウトカム)に差があるか集計
- その差が〈統計学的に有意〉か(=母集団に一般化できそうか)検討
この記事には案内役としてネコが登場します。 この記事では 「RCTとは何か?」その定義や基本的理念・原則 についてまとめます(▼)。 RCTが満たすべき基本原則 ランダム化されている 比較対照(control群)がある 明確な評[…]
ランダムだからフェアな比較が可能
RCT では,被検者それぞれの特性がまだらであったとしても,「集団同士」としてはフェアに均されることになります。
これにより「アウトカムの差」は他ならぬ「介入の有無によって生じた差」という解釈やモデリングが可能になるわけですが,ここで最も重要なポイントがランダム(無作為)という部分です。
- 被検者(標本)がランダムに集められ
- 両群への割り付けがランダムに行われ
- 途中脱落なども偏りなく完遂された(ランダムな脱落に限られる)
こうした前提条件があるからこそ,介入群とコントロール群が「比較可能な集団」同士とみなせるからです。
ランダムだから確率モデルに落とし込める
ただし,仮に作為的・構造的に生じた「偏り」がなかったとしても「標本抽出や割り付け,途中脱落などが偶然偏ってしまうことがある」という問題はあります。
- 標本抽出時点:一定確率で 偏ったサンプリングをする
- ランダム割り付け時点:一定確率で 偏った割り付けをする
- フォローアップ時点:一定確率で 偏った途中脱落(転居など)が起きる
標本は母集団をきちんと代表しているか?
たとえば母集団から標本をランダム抽出したつもりでも,「実際に得られた標本が母集団の平均から大きく偏った集団になってしまった」ということは確率的に起き得ます。
この時,偏った標本から得られたデータを用いては,正しく母集団での結論(真実)を推定することはできません。入り口からズレてしまっているので,当然の帰結です。
これでは味噌汁の味見をしようと1口すくったのに味噌玉の塊部分を持ってきてしまったようなものです。鍋の中身の全体的な味を正しく想像することは不可能でしょう。
標本調査から母集団での結論を求めようとする〈推測統計〉を行う際,偏ったサンプリングから誤った結論を導き出してしまう可能性を,私たちは常に抱えています。
割り付けやフォロー中に偏ってしまうこともある
また仮にサンプリングの時点では適切に母集団を代表できる標本になっていても,その次のステップである「ランダム割り付け」の際に,「被験者の属性が両群均等にならず,片側有利に偏ってしまう」ことも確率的にあり得ます。
加えてフォローアップ中に途中抜けしてしまう人の数に大きな偏りがあった場合も,最終的に両群が均質とならず,フェアな比較になりません。
このように RCT ではその1つ1つのプロセスにおいて,結果を大きく歪めかねない現象が 確率的に 起き得ます。
全てがランダムなら確率モデルに落とし込める
とはいえこれらが本当に全て「ランダムに」「確率的に」起きるものでしかない(=系統的な偏りがない)ならば,こうした問題はある程度確率モデルの中で処理できると考えられます。
その「確率モデル」で登場するのが後に述べる P 値であり,P 値 をもとにして「母集団でも差があるかどうか検討する」という手続きが,次項で述べる〈統計学的仮説検定〉です。
ここまでのまとめ
一旦,ここまでの内容をまとめます。
- 統計学的に有意な差:
母集団でも『差』があるだろうと推定できる程の,標本調査での『差』 - 母集団:古今東西,想定しうる全ての対象
- 標本:母集団から(ランダム)抽出した一定数
- 推測統計:標本調査の結果から母集団での効果を推定する一連の手続き
推測統計の問題点
- あくまで母集団の “推定” に過ぎず,真実は誰にも分からない
- 得られた標本が偏っている可能性がある(確率的にもバイアス的にも)
- 偏った標本から,母集団について間違った推定をしてしまう可能性がある
結局,研究で集められた標本データの結果は,「限られた標本」での調査結果でしかなく,母集団ではどうか?という【真実】は分かりません。全員を調査したわけではないからです。
ですから研究結果を「実在する大勢の人」(=母集団)に一般化するには,標本調査の結果から〈母集団〉を推定する手法(=推測統計の手法)が必要だということです。
統計学的仮説検定とは?
結局のところ〈統計学的に有意な差〉があると主張するときには,
という心理が働いているのでした。これが1つ目の大きなポイントで,本項前半で扱った内容です。
ここから先は,では標本調査でどのような差があれば「母集団でも差がありそう」と言って良いのか?という話になります。その点について考える一連の手続き(▼)を〈統計学的仮説検定〉statistical testing と呼びます。
- 示したい仮説(対立仮説)と,反対の仮説(帰無仮説)を設定する
- 標本からデータを得る
- 帰無仮説を前提とした統計モデルにおいて,”ランダム性” のみによって偶然そのようなデータ以上に極端なデータが得られる確率(=P 値)を求める
- P 値が十分低いとみなせるかどうか検討する
- P 値が十分低いとみなせれば帰無仮説を棄却する(=統計学的に有意)
以下ではこの手続きについて,詳しくみていきましょう。
帰無仮説の設定
繰り返しになりますが,私たち(や研究者)が知りたいのはあくまで母集団の情報で,標本調査はその代用でに過ぎません。
「本当は母集団そのものを調査したい」ものの,とても現実的ではないため,「手頃な標本を抽出してきて調査する」のでした。
「この新薬は効くか?」ということの検証目的で RCTを組むのは「この100人や200人では有効でした!」ということを示すためではありません。その100人や200人の標本データをもって「世界中の幅広い対象者」(=母集団)でもその新薬が効くと言えそうか推定したいのです。
検証する 2 つの仮説
たとえば医学系の研究であれば,研究者が証明したい仮説は,多くの場合下記の仮説 H1(▼)となります。
しかし,母集団を直接調べているわけではない以上,直接的なアプローチでこの仮説を実証することは困難です。
そもそも一体 何人の被験者で〈差〉を示せたら「母集団でも差があるよ」と主張して良いのか,わかったものではありません。
そこで,真逆のアプローチをとることにします。
この仮説 H0 が正しい,と一旦考えてみるのです。そして
この仮説が正しい前提で計算を進めていくと,おかしなことになる。
だからこの前提がおかしいんだ!
という背理法的なアプローチで攻めてみるわけです。
P 値という「確率」
この背理法的なアプローチで主役となるが P 値;p-valueという概念です。
を示したものです。つまり
今,目の前の標本調査で得られたデータでは,一見〈差〉があるように見える。しかし本当は「介入」によって〈差〉など生じない(=帰無仮説H0が正しい)。これは「介入の有無による差」ではなく,サンプリングや割り付けの際に 確率的に 生じる “標本のランダム性” によって「偶然生まれたに過ぎない差」である
とみなした上で,
では “標本のランダム性” のみによって
このような データ以上に極端なデータが得られる「確率」はどの程度だろうか?
と計算してみた 「バーチャルな確率」が,P 値と呼ばれるものです。
厳密には帰無仮説(効果θ=θoである)以外の全ての特定の値(効果θ=θiである)に対しても P値は算出可能ですから,「帰無仮説を前提にした統計モデルで算出する P 値」のことは特別に null P値 と読んで区別する場合もあります。
背理法的な証明
こうして算出された P 値(null P値)が十分に小さい(と研究者が判定する)時,やはり「差がない」という仮説自体が間違っていたのだ,としてこの 帰無仮説 H0 を棄却 reject します。
いやこんな小さい確率が偶然に起きたなんてありえないよね?「差がない」っていう前提がおかしいんだよねコレは?
と背理法的に考えるわけです。
「本当は(母集団では)差がない」という仮説 H0 を棄却したのですから,「本当に(母集団でも)差がある」という仮説 H1 を採択することになります。
こうして,標本調査の結果に過ぎないにもかかわらず,母集団でも効果があるのでは?と推論する のです。
そしてこの「帰無仮説が棄却できる」つまり「母集団でも本当に効果があるだろうと推論する」ときに,〈統計学的に有意〉という言葉を使います。
以上が,古典的なネイマン・ピアソン流の統計学的仮説検定の流れです。
- |注:P 値算出の前提条件
- 上図から明らかなように, P 値を求めるにあたって非常に重要となる前提条件があります。それが,サンプリング・割り付け・欠測データの「ランダム性」です。サンプリングも割り付けもフォローアップからの脱落もバイアスなく無作為に(=確率的に)起きた,ということが重要です。これらが無作為だからこそ,統計モデルに当てはめて P 値を計算できるわけです。もしサンプリングや割り付けや追跡データの欠測が何者かの意図によって構造的に行われる(バイアスされる)と,以降の「確率的推論」は全てパァ👐です。実際には確率的にではなく「系統的に起きた現象」に対し,偶然性のみを前提とした P 値という「確率」を考える意味がなくなってしまうためです。
P 値と有意水準
では具体的にはどのラインから「P値は十分低い」と判断できるのでしょうか。
どのラインから「有意」なのか?
実はこれに関しては,ある程度慣例的な基準で決められています。
この線引きの閾値は〈有意水準 significance level〉と呼ばれ,慣例的に 5% という値が最もよく用いられます。
5%なんて「確率」は滅多にないから,前提条件がおかしいんだ!
と,私たちは
- |有意水準は固定的なものではない
- なお有意水準は固定的なものではありません。あくまで慣例として 5 %を基準とすることが多いというだけであって,業界によっては 1%とすることもあります。また多重比較・多重検定をする場合には有意水準をより厳しく判定することが求められます。
この記事では 〈αエラー〉と〈βエラー〉とは何なのか? ということについて,基本的内容に絞ってまとめます。 さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]
P 値の限界・注意点
しかしここで問題となるのは,P 値は人為的に小さくすることができる ということです。
たとえば,サンプルサイズ(被検者の数)を増やせば増やすほど,標本調査の結果は母集団調査の結果に近似していきます。そのためどんどん「標本のランダム性」による誤差は小さくなっていき,結果としてP 値も小さくなるのです。
これは「効果があるから」P 値が小さくなったということではなく,「標本が増えてデータのバラつきの幅が小さくなったから」数学的にP 値が小さくなったというだけのことです。
無数にたくさんの被験者(100万人くらい)を対象にした研究では,以下のようなことも容易に起こり得ます。
この新薬で血圧がなんと平均 2 mmHg も低下しました!(p=0.0001)
しかし血圧を 2 mmHg しか下げない薬に臨床的価値がないことは明白です。
〈統計学的に有意〉(P 値が十分低い値)であることと,「臨床的に有意」(臨床上価値のある差)であることは,全く異なる概念です。
サンプルサイズを大きくしすぎると,P 値は小さくなりますが,こういう何の価値もないノイズデータも「有意差」として拾ってしまう可能性があります。しかし臨床的に(実際的に)有意でないものが,統計学的に有意な差を示したからと言って,何の価値もないことは言うまでもありません。
この記事では,ランダム化比較試験 RCT における サンプルサイズ(n)の重要性 についてまとめます。 例によって,最初にこの記事のまとめを示します! この記事のまとめ サンプルサイズは小さ過ぎても大き過ぎても問題 […]
P値を小さくする複数の要因
また,他にも P 値を小さくする要因はあります。
そもそも P 値とは「手元のデータと特定の統計モデルが適合する程度(=compatibility)を示す指標」でしかありません。
統計学的仮説検定を行うとき,その統計モデルにおいては「効果が0である(=帰無仮説が正しい)」という前提で確率計算を行うわけですが,その他にも複数の前提条件を置いています(どのような統計モデルを利用するかによって異なります)。
たとえば先述した様に「標本の途中脱落に恣意的な偏り」があったり「介入以外の治療がフェアになっていない」といった様々なバイアスは,当然計算外のことです。確率的に起きる(=ランダムに起きる)標本データのバラツキ以外の要素は,基本的に加味していないのです(▼)。
ですから P値が小さい(=統計モデルと手元のデータの間の矛盾度合いが大きい)ということは必ずしも「効果が0ではない(=帰無仮説の棄却)」ということを意味しません。その他の前提条件が満たされていなかったり,選択した統計モデル自体に問題があったり,大きなバイアスを反映していたりすることがあります。
また当然,「手元の標本データでは “たまたま偶然” 非常にいい結果が得られた」という純粋なミラクルも確率的に起きうるわけで,その際にも P値は低くなります。
つまり P 値が小さくて統計学的に有意だ!という時,以下(▼)のどの理由によるものなのか,よく吟味する必要があるでしょう。
- 実際に大きな〈効果〉・大きな〈差〉がある
- サンプルサイズが大きい(=結果のバラつきの幅が小さい)
- 標本抽出・割り付け・脱落などが実はランダムでない(バイアスがある)
- 再現性に乏しい非常に偏ったデータが奇跡的に得られただけ(=まぐれ)
本当は ② や ③ や ④ のため P 値が計算上小さくなっているだけなのに,これは ① だ!と決めつけてしまうと,本当は価値がないものを取り上げてぬか喜びすることになりかねません。
〈統計学的に有意〉という言葉を見聞きするたび,こうした問題,限界を想起する必要があるのです。
二値的な扱いには議論も
また,より根元的な問題として,P値を二値的にカテゴライズする(=有意水準を超えた超えないかの2択でのみ解釈する)ことの是非自体,業界では大きな反論があります。
Valentin Amrhein, Sander Greenland, Blake McShane and more than 800 signatories call for an end to hyped claims and the dismissal of possibly crucial effects.|Nature 567, 305-307 (2019)
普通に考えれば,p = 0.049 だと「母集団でも差がある!」と推論する一方で p = 0.051 だと「母集団でも差があるとは言えない!」と推論するなど,とても合理的な判断とは思えません。
あくまで重要なのは臨床的な有意性(=介入による効果量)にきちんと着目することです。統計的な有意性にばかり囚われるべきではありません。
たとえば p=0.06 だとしても,劇的に効きそうなデータなのだとしたら,「有意差なし」と切り捨てるのではなく,サンプルサイズ不足によるβエラーなどの可能性も念頭におく必要があります。逆に p=0.0001 だとしても,先述したように「別の理由によって」P値が小さくなっているだけの可能性もあります。
繰り返しになりますが,P値が小さいということは「手元のデータと特定の統計モデル」の矛盾度合いが大きい(=incompatible)ということ以上の何の情報も私たちに与えてはくれません。そしてそれを更に 0.05 という恣意的基準の前後でぶった切って判断するなどということは,大変乱暴な行為です。
P値の大小と,そのデータを「私たちが実際に意味があるものと考えるかどうか」は切り分けて考える必要があります。P値だけに着目する「有意主義」には陥らないようにしなければなりません。
P値が低いことは,私たちに何の「科学的お墨付き」も与えてくれません。そこからわかるのは「統計モデルと手元のデータが適合しなかった」というだけのことなのです。
本章では,統計の世界で非常に重視される p=0.05 という〈線引き〉がいかに微妙な、、、ものであるかについて述べます。 本章で扱う内容 有意水準 5 % の「理由」:特にない。感覚的,慣例的に決められた。 有意水準 5 % の「感覚[…]
- |P値関数という提案も
- この議論に対する提案の1つとしては「効果は0である(=帰無仮説が正しい)」ときの P値だけを計算して唯一の指標とする慣習をやめよう,というものがあります。つまり「効果が0である」ことを前提とした統計モデル計算だけではなく,「効果はxである」という仮説のP値をxを動かしながら計算してプロットするべき──つまり P値函数(p-value function)を使うべき──だという議論です。今後こうした運用も実用面で整理されていくのかもしれません。【参考】
総まとめ
まとめです!
- 標本調査から母集団を推測する〈推測統計〉の枠組みの中で
- 母集団でも “差” が出ると言える(=帰無仮説を棄却できる)ほどの 差
- 言い換えれば,P 値が有意水準 α(通例 5%)を下回るほどの 差
- 実際の意思決定は,P値や有意性のみに基づいて下されるべきでない
おわりに:統計学的に有意-だから?
〈統計学的に有意〉とは結局,標本データから算出されたP 値というバーチャルな「確率」が,自分たちの考える基準(=有意水準)よりも低いかどうかという,非常に観念的な概念でしかありません。
くどいようですが,母集団を直接調査していないので,真実は分からないのです。統計学的仮説検定は,あくまで「推測」の手段でしかありません。
しかし現実問題としてこれ以上の手法が普及していないという状況であるため,まずはこの手法の限界を知ってリテラシーを身につけるほかありません。
とにかく有意という言葉のウラには,数多くの「限界」が隠れていることを忘れないようにしましょう(▼)。