【解説】サンプルサイズと検出力|Power Analysis(検出力分析)とは?

この記事では,RCT を読む時の必須知識の1つ,

〈検出力分析〉パワー分析;power analysis

について解説します。

最初に本項のまとめを示します(▼)

パワー分析に関するポイントまとめ
  • パワー分析 ──〈統計学的に有意な差〉を示すために必要十分なサンプルサイズを予め計算しておくこと
  • サンプルサイズ不十分
    ┗━ 本当に「差がない」のか「差を検出できていない」のか不明
  • サンプルサイズ過剰
    1. リソースの無駄使い
    2. 実質的意味のない差まで検出
    3. 何か重大なバイアスを見落としている可能性

順に見ていきましょう!

そもそも Power:検出力 とは?

そもそも,Power;検出力とは何なのでしょうか。

先に定義を述べてしまいますと,以下になります(▼)。

Power(検出力)とは
  • 本当に「差がある」とき,正しく「差がある」と言い切れる確率
  • βエラーを起こさない確率,つまり(1ーβ)

つまり,検出力を理解するためには,まず「βエラーとは何か?」ということを理解する必要があります。

まずはこの前提知識からおさらいしていきましょう!

αエラーとβエラー

私たちが実験でヒトのデータを扱う時のことを考えてみます。

試験のプロセス
  1. 試験参加者(標本;サンプル)を募る
  2. 参加者を〈介入群〉と〈対照群〉にランダムに分ける
  3. 両方の群を,一定期間追跡する
  4. 興味のある〈アウトカム outcome〉について,差が出るか確かめる

しかしこのとき,被験者(標本:sample)というのは母集団(population)のごく一部を持ってきたものに過ぎません

本当なら,「古今東西の何億人という人」(=母集団)全員を対象とした試験をおこなって,実際に「効果」が確認したいものです。

しかし,そのような大規模調査は倫理的にも経済的にも現実的ではありません。

|倫理と経済
医学研究の場合は特に問題で,効果があるかどうか分からない薬の効果を検証する「人体実験」に,不必要にたくさんの人を巻き込むわけにはいきません。それに一億人規模の大規模な RCT なんて組もうものなら,膨大な資金が必要になってしまいます。

代用としての標本調査

そこで私たちはやむなく「すぐ手の届く範囲にいる 100 人や 1000人くらいの被験者」を集めて,標本(sample)として利用するわけです。

そして,その限定的な標本を対象とした調査の中で得られた結果から,「母集団でも同じようことが一定程度言えるのではないか?」と推論しようとする(▼)。

これがランダム化比較試験 RCT であり,〈推測統計学〉の考え方を用いた試験方法です。

─ ads ─

推測統計における必然的限界

ここには必然的な限界が存在します。それはつまり,

〈母集団〉を代表できるようランダムに〈標本〉を選び出したつもりでも,得られた〈標本〉が実際には〈母集団〉の平均的な部分から大きくズレた集団になっていることがありうる

ということです。

ランダムに〈標本〉を集めてきている以上,そうした「母集団を代表できない標本抽出」は一定の可能性で ──つまり確率的、、、に── 起き得る現象であると言えます。

この時,その〈標本〉から得られたデータをもとにした結論は,〈母集団〉での結論(真実)と一致しなくなってしまう可能性があります。

これは避けようがない〈誤差エラー〉ですが,サンプルサイズを大きくしていくと,その〈誤差〉の幅を小さくすることが可能です。標本はサイズが大きくなればなるほど母集団に近似していくからです。これは『中心極限定理』というカッコいい名前の定理で数学的にも証明されている現象です。
|補足:エラーとバイアス
一方,確率的、、、にではなく,なにか構造的な問題があって確実に系統的、、、ズレた、、、標本抽出をしてしまうような状況を「選択バイアス」と呼びます。こちらはサンプルサイズを大きくしても解消されません。

αエラーとβエラー

この様なときに,母集団に関して「誤った推定」をしてしまうパターンとして,2 通りのものが考えられます。

それがαエラーとβエラーなのでした(▼)。

αエラー( I 型エラー)
  • 本当は(母集団では)差なんてないのに,手元の標本から得られたデータを基にして「差がある」と判断してしまうこと
┗━ 通称「あわてん坊の α」
βエラー( II 型エラー)
  • 本当は(母集団では)差があるのに,手元の標本から得られたデータを基にして「差がない」と判断してしまこと
┗━ 通称「ぼんやりさんの β」

標本をランダムに選んだきている以上,α,β はいずれも確率的に規定されます。

問題はどこまで許容するか,という研究者(ないし読者)の判断基準の方です。

一般的には,αエラーの許容範囲は 5 % まで,βエラーの許容範囲は 10〜20 % までとされています。

合わせて読みたい

この記事では 〈αエラー〉と〈βエラー〉とは何なのか? ということについて,基本的内容に絞ってまとめます。 さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]

βエラーを起こさない確率が Power

βエラーの概念を復習したところで,話を〈検出力パワー〉に戻しましょう。

〈検出力〉=「差があるものを差があるとキチンと言い当てる」力

なのでした。

つまり〈検出力〉は,βエラーを起こさない確率(=1-β)だと言えます(▼)。

パワー分析とは何か?

以上を踏まえると,パワー分析とは何かというのが見えてきます。

Power 分析とはつまり,

βエラーを小さくするために必要なサンプルサイズを考えること

に他なりません。

Power 分析の考え方

繰り返しになりますが,βエラーとは,標本データが母集団の真実から「確率的にブレてしまう」ことで,母集団に関する推定を誤ってしまう(差がないと判断してしまう)ことです。

しかし先述したように「データのブレ幅」はサンプルサイズを大きくすればするほど小さくすることができるのでした。サンプルサイズ(n)が増えれば増えるほど,その標本は母集団そのものに近づいていくからです。

そして,その性質を利用したのが power 分析の考え方です。

つまり,サンプルサイズを必要十分、、、、な大きさにすることで,ブレ幅を適度に、、、小さくし,その差を〈有意差〉として検出できるようにしてあげよう,というわけです。

補足|βエラー は確率
重要なのは,標本データは「確率的に」ブレてしまう,という部分です。そしてβエラーもそれによって「確率的に」起きるということがポイントです。「確率」であるのなら,その「確率」をどこまで小さくすることができるか?というのも逆算することができるというわけです。

パワー分析の流れ

研究にもよりますが,通例,

βエラーの許容範囲は 10〜20%(= power の許容範囲は 80〜90 %)

とされています。

Power の許容範囲は元から大体決まっている

つまり Power analysis と言いながら,求められる power はあらかじめ上記のように固定化されているので,本質的には必要サンプルサイズの計算を行うことになります。

Power(検出力)を一般的な許容範囲である 80 〜 90 % に収めるため,必要なサンプルサイズを計算することが,Power analysis というわけです。

サンプルサイズ計算に必要な情報

実際にこのサンプルサイズ計算に必要とされる情報は主に3つです。

  1. αエラーの許容範囲
  2. βエラーの許容範囲(=power の許容範囲)
  3. 期待される〈効果量〉(とそのバラツキ)

多くの科学論文では通例αエラーの許容範囲(=有意水準)を 5 %,βエラーの許容範囲を 10〜20 %(= power を80〜90 %)と設計することが慣例となっていますから,①② はほぼ固定です。

あとは先行研究の結果から ③:その介入の〈効果量〉とバラツキの情報を得れば,〈有意差〉を検出するために必要十分なサンプルサイズが計算できるというわけです。

過去のパイロット試験や後ろ向きの研究結果をもとに,ある介入に「どの程度の効果があるか」は予めある程度、、、、の予測が可能です。

その予測された〈効果量〉から逆算し

この RCT では何名の被験者を集めれば primary outcome(主要評価項目)について〈統計学的に有意〉となるだけの十分な〈差〉が出ると見込まれるか

という推算を行っておく ── そうした一連のプロセスを power analysis と呼ぶわけです。

なぜパワー分析が必要?

中規模以上の(いわゆる検証的な)ランダム化比較試験 RCT をデザインする際には,この

power が十分担保されるようなサンプルサイズ(=被験者数)をあらかじめ推測しておき,その人数を集めること

がほとんど必須のプロセスとされています。

その理由は単純に,〈仮説検証〉のための RCT においては,サンプルサイズが小さすぎても大きすぎても問題があるからです。

サンプルサイズの問題

たとえばサンプルサイズが小さすぎると,

  • 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
  • ランダム割付で,うまく重要な因子が均等にならないことが多い

といった問題があります。

また,サンプルサイズが無駄に大きすぎると,

  • 単純に人的/金銭的リソースの無駄遣い
  • 被験者が多過ぎるのは倫理的にも問題
  • あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

といった問題を抱えることになります(▼)。

サンプルサイズは小さ過ぎても大き過ぎても問題

そのため「必要十分でちょうどよいサンプルサイズ」を計算してから RCT を開始する,ということが非常に大切なプロセスとされているのです。

合わせて読みたい

この記事では,ランダム化比較試験 RCT における サンプルサイズ(n)の重要性 についてまとめます。 例によって,最初にこの記事のまとめを示します! この記事のまとめ サンプルサイズは小さ過ぎても大き過ぎても問題 […]

|批判的吟味ポイントとしても重要
ランダム化比較試験 RCT の論文を読むときの注意点としては,こうした power 分析が行われていたかどうか,また,行われていたのであれば「どのようなデータをもとにして推算したか」その経緯の記載を確認することも大切です。大規模な RCTであれば,必ず methods の項に記載されています。ある程度打ち切りになる人のことを見込んで,多めに参加者を募った旨などが記載されていることと思います。

パワー分析はよく外れる

しかし残念ながら この「アテ」はよく外れることが知られています。

そもそもPower 分析は,非常に「手探り」的な行為です。

完全にデザインの異なる過去の研究データにおける〈効果量〉から推算したサンプルサイズが,現在行っている研究においても本当に妥当なものなのかどうかは,誰にも分かるはずがありません。

以降は

  • パワー計算が「見通し不足だった」とき
  • パワー計算が「過剰すぎた」とき

それぞれの問題についてまとめてみます。

サンプルサイズ不足の問題

まずはパワー計算が見通し不足だったときのことを考えてみましょう。

「有意差なし」の問題

きちんとサンプルサイズを事前に見積もった(=power analysis)にもかかわらず,蓋を開けてみたら

差がありそうだけれど〈統計学的には有意な差〉にならなかった

というとき,私たちは結果をどう解釈すべきでしょうか。

「有意差なし」=「差なし」ではない

まず誤解してはならないのは,ここから

この介入には(本当に)意味がない!

と言えるわけではない,ということです。

パワー計算が「見通し不足だった」ために,有意差として検出できなかった(=βエラー)可能性があるからです。

そもそも〈統計学的有意差がある〉とは,

「(母集団では)差がない」という〈帰無仮説〉を棄却できること

なのでした。

逆に言えばその〈統計学的有意差〉が出ない,ということは,〈帰無仮説〉を棄却できない,ということに過ぎません。

つまり,このランダム化比較試験 RCT から得られる結論は

「(母集団では)差がない」という仮説は棄却できない、、、、、、、、、、、、

という何とも歯切れの悪い結論になってしまいます。要するに差があるともないとも言えません。

誤解されがちな問題ですが,

 有意差がない ≠ 本当に母集団でも差がない

ということは重要なポイントです。

「有意差がない」とき,母集団では「差がある」とも「差がない」とも言えない

というのが正しい解釈です。

有意差がないときの2つの可能性

要するに〈有意差〉が出なかったときには,以下の2つの可能性を検討しなければなりません(▼)。

統計学的に有意な差がないときの2つの可能性
  1. サンプルが少なかったから差を検出できなかった(=βエラー)
  2. 効果が小さすぎ,あるいは全然ないから有意差が出なかった(=その介入には本当に意味がない)

もう少し平易なことばに言い換えると

  • 本当は(母集団では)効くのに,ただその差を検出できなかっただけなのか
  • 本当に(母集団でも)無価値な介入なのか

どっちかわからない,ということです。

この場合,その試験の結果の解釈は非常に困難になってしまいます。

とはいえ「これはよほど ② だろうな,サンプルをどれだけ増やしても相当厳しいだろうな」といえるケースはあります。
〈有意差〉(=母集団でどうか)以前に,実データ(=標本集団)の時点で差が全く付いていない,それどころかコントロール群に負ける結果になっている場合などが該当します。

標本集団では効果がありそうなとき困る

特に問題となるのが,

生データを見ると(=標本集団では)確かに差がありそうなのに〈統計学的有意〉には至らなかった(=母集団でも差が出るとは言えなかった)

という場合です。

そのときは先述の通り,サンプルサイズ不足によるβエラーだったのか,本当に効果がない薬なのか「この研究からは分からない」という結論になります。

改めて検証するためには,サンプルサイズを増やした研究を追加する必要があります。結局「本当に(母集団でも)意味があるのか?」という疑問に対する結論は,先延ばしとなってしまいます。

サンプルサイズ不足になる理由

では,研究者はなぜ Power 分析の際,必要サンプルサイズについて「甘い見通し」をしてしまうのでしょうか。

その原因の代表的なものとしては,以下の2つが挙げられます。

サンプルサイズ計算が甘くなってしまう原因
  1. 新薬に先行研究で期待されたほどの〈効果〉が出なかった
  2. コントロール群の成績が想像していた以上によかった

1. 先行研究で期待されたほどの〈効果〉がなかった

第一は「そもそも新薬の効果が過剰に期待されすぎていた」というものです。「実際よりもかなり効く、、と誤認してしまっていた」わけです。これは先行研究のデータの質が低く,間違った推算を招いてしまったために起きる悲劇です。

RCT に先行する研究のデータというのは,大抵が後方視的な観察研究や,他の大規模 RCT のサブ解析データ,あるいはパイロット試験(極めて少数例のデータ)などです。こうした研究はそもそもバイアスリスクが高いため,介入の効果を過剰に「効く」と判断してしまうことはままあることです。

また,大きな問題となるようなバイアスがなくとも,サンプルサイズが小さい研究の場合,結果が極端に偏ることはよくあります(バラツキの幅が大きい)。

そうした先行研究で示された〈効果量〉と同等のものを期待して power 計算を行うと,思っていたほどの〈結果〉が出ず,Power不足(サンプルサイズ不足)になってしまうわけです。

実際,後方研究や他の RCT のサブグループ解析の結果からは〈効果〉が強く期待されていたけれど,検証的な RCT をしっかりデザインしてみたら全然でした,なんて研究は山ほどあります。

2. コントロール群の成績が良かった

見通しがあまくなる原因の2つ目は,「いざ RCT をしてみやらコントロール群の成績がよくて差がつかなかった」というパターンです。

この場合は,新薬群は実際に「効果」を出しています。しかしコントロール群が想像以上に良すぎたのが問題です。

実際にありうる状況としては,以下のようなものが挙げられます。

コントロール群の成績が予想以上に良くなってしまう原因
  • プラセボでも効果が出る(特に自覚症状がアウトカムの試験)
  • RCTに参加することで,人は更に健康志向が高まる(ホーソン効果)
  • RCTに参加する人はそもそも健康志向が高いことによるバイアス
  • そもそも無介入でも滅多に起きないイベントをアウトカムにした場合

定期的にお医者さんに見てもらえる,研究者に見てもらえる,定期的に採血をしてもらえる,それらしい薬を飲んでいる。それだけでコントロール群の人も,リアルワールドの人のデータと比べて,結果が良くなってしまうものです(▼)。

プラセボ効果とホーソン効果

さらに,RCT に参加してくれるような人の多くは健康志向が高いため,そうでない対象者に行われた過去のデータとは「対象者」がそもそもズレてしまっているわけです。

結果として,新薬群はコントロール群と差をつけにくくなってしまいます。

稀で重篤なイベントはさらに難しい

またそれに加え,死亡などの「稀で重篤」,あるいは「臨床的意義の大きい」ハードアウトカムを primary outcome にした試験では非常に有意差がつきにくくなります。

仮に新薬群にイベント予防効果がしっかりあっても,そもそもコントロール群でほとんど死亡が起きないのであれば「死亡割合」で「差をつける」ことは困難だからです

逆に言えば,そのように稀で重要なイベントを〈検証〉する RCT でキッチリと有意差を出す(=十分な Power を得る)ためには,膨大なサンプルサイズが必要である,ということです。

|ハイリスク群のみで RCT
なお,この問題に対処するため,最近の RCT では非常にリスクの高い 患者層を対象とすることで「有害イベントの数を稼ぐ」ということがよく行われます。つまり「心血管イベントをいかにも起こしやすそうな人」や「死亡リスクがいかにも高そうな人」を対象に RCT を行うわけです。そうすると,新薬に本当に効果があった時,イベント数の削減効果を〈有意差〉として検出しやすくなるためです。ハイリスクな人ばかりを集めて実験をするのは倫理的にどうなのかという声もあるところですが,参加者がきちんと合意しているのであれば,統計的には合理的な手段と言えます。

サンプルサイズ過剰の問題

有意差が出ればいいのか問題

ここまで「見込みが甘くてβエラー」ということについて述べてきましたが,当然,全く逆のパターンもあります。つまり見込み違いで「サンプルサイズが過剰になりすぎた」という誤算です。

これはこれで問題なのですが,しかし実際この場合,現場ではほとんど問題として認識されないことが多いようです。

なぜなら「サンプルサイズが過剰」ということは,〈統計学的有意差〉はしっかり出せている(P 値は十分小さい)ということだからです。

虫取り網でトンボを取った後に,この網はガバガバすぎたんじゃないか?とは心配しないことと同じです。ですから

有意差が出ているから,とりあえずサンプルサイズは十分でした!よかったよかった,チャンチャン。

と片付けてしまわれがちなのです。

しかし,見込みと大きくズレて P 値が小さくなり過ぎることにも,やはり問題があります。

予想以上に結果が「良すぎる」方が怖い

先述したように,ある RCT で必要な症例数を計算する(Power analysisを行う)時,先行した研究のデータを用います。

この時,先行研究というものは,サンプルサイズの小さいパイロット試験であったり,後ろ向きのデータだったりして,バイアスリスクの高い試験です。

しばしばこれらの試験は「薬の効果を過剰に効くように見せがち」なので,どちらかと言えば 中規模以上の検証的な RCT では「思ったより効かなかった」ということの方が多いものです。

このような状況下で,むしろ逆に

思ったより効きすぎちゃって,予定より少ないサンプルサイズで p=0.001 としっかり有意差がついちゃいました!

というパターンの方が,実は危険です。なぜなら,その背景にバイアスが隠れている可能性があるからです。

参加者の組み入れ,盲検化,割り付け,途中脱落者の取り扱い,データ解析,などのプロセスの中で深刻なバイアスがあり,結果を「過大評価」してしまっている可能性を検討する必要があります。

そうでなくても,やはりたまたま偶然のブレ(偶然誤差ランダムエラー)によって極端なデータが得られている可能性もあります。

いずれにしても,再現性のない極端な結果になってしまっている可能性があり,解釈の際には注意を要します。

「中間解析で途中終了」の怖さ

極端な有意差がついて途中終了した試験は全てこの問題を抱えています。

「すごく差がついた」なら良いことのように思えますが,実際には「予定より小さなサンプルサイズで途中終了」という行為は,試験結果の信頼性を貶める重大なリスクとなります。

たまたまタイミングの良いところでデータを切り抜いた過ぎない(=random high の切り抜き)という可能性が否定できないからです。もしそのまま試験を続けていたら,さほど大きな差にならなかったかもしれない,ということは否定できません。

しかし倫理的に「少しでも早く薬を行き渡らせるように」という意図だったり,経済的に「これ以上コストをかけずに済むように」といったことのため,しばしば行われる行為です。

近年では COVID-19 対象薬のモルヌピラビルがこの好例でした。
合わせて読みたい

以下の内容は 2021.11.30 時点の公開データ(FDA審議資料)を元に作成しています モルヌピラビル(molnpiravir; MOV)は,COVID-19 に対する世界初の経口内服治療薬として期待されている新薬です。 1[…]

|中間解析は事前規定が必須
なお,「恣意的な基準」で「今切り上げるとメッチャいい感じのデータになるな〜」というようなところで途中終了されてしまうことがないよう,〈中間解析〉interim analysis を基にした決断については非常に厳格な基準を求められます。

サンプルサイズ過剰になる理由

以上をまとめると,サンプルサイズ過剰 ──いわば Power 計算が過剰 ── となってしまうときの原因としては,以下のものが考えられます。

サンプルサイズ過剰になったときの原因
  1. 新薬が先行研究で期待された以上に「めちゃ効く」薬だった
  2. 先行研究データと乖離した極端なデータが得られた
    • まぐれ当たりの可能性:偶然のブレ(偶然誤差)でそうなっただけであり,次に同じような研究をしても再現性がない
    • バイアスの可能性:参加者の組み入れ,割り付け,途中脱落者の取り扱い,データ解析などに深刻なバイアスがあった

この時,楽観的に ① だ!と決めつけて「試験早期終了」などにしてしまうのは危険を伴う行為です。

ほとんどの場合は先行研究も「薬の効果を効く側に誤解していることが多い」という前提に立って考えれば,先行研究データとかけ離れた「それ以上の効果」が出た際には,② の可能性を考えなければならないのです。

この理由を突き詰めず,研究者や製薬会社にとって都合の良い基準で「効く」と早とちりしてしまうことは,避けなければなりません。多くの場合,期待される効果量は割り引いて考えてるのが無難だと思います。

まとめ

パワー分析に関するポイントまとめ
  • パワー分析 ──〈統計学的に有意な差〉を示すために必要十分なサンプルサイズを予め計算しておくこと
  • サンプルサイズ不十分
    ┗━ 本当に「差がない」のか「差を検出できていない」のか不明
  • サンプルサイズ過剰
    1. リソースの無駄使い
    2. 実質的意味のない差まで検出
    3. 何か重大なバイアスを見落としている可能性

検出力分析は難しい

サンプルサイズは過剰でも少な過ぎても問題で,「ちょうどいい数」になるように設計する必要があります。

しかし Power Analysis は結局のところ「手探り」であり,正確な推定は非常に難しいものです。先行データのみからそのような妥当な設計が必ずしもうまくできるかと言えば,そうとは限りません。

とはいえ,まずはこの推定を行わなければ,これから行うべき臨床試験の規模の見通しが立ちません。倫理的・経済的観点からも,必須の手続きです。

生物統計家の新谷歩先生が著書「今日から使える医療統計」の中でこれを非常にわかりやすく表現されておられましたので,最後に紹介させていただきます。

症例数計算は,真っ暗な部屋の中で真っ黒の服を着て黒猫を探すようなものです。(中略)黒猫がいる保証はどこにもなく,多くの場合電気をつけてみると黒猫はいなかったということもあるのです。先行研究や論文を参考に効果やデータのバラつきを見積もりますが,それが自分の研究で同じことが起こるという保証は何もないのです。それでも,私たちは黒猫を探さなければなりません。倫理的に最善を尽くすため,リソースを有効に利用するため,あらんばかりの力を振り絞って。

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG