【解説】サンプルサイズ (n) の重要性|ランダム化比較試験 RCT

この記事では,ランダム化比較試験 RCT における

サンプルサイズ(n)の重要性

についてまとめます。

例によって,最初にこの記事のまとめを示します!

この記事のまとめ

  • サンプルサイズは小さ過ぎても大き過ぎても問題

サンプルサイズは小さ過ぎても大き過ぎても問題

サンプルサイズの影響力

ランダム化比較試験 RCT について考える際,非常に重要な考え方の1つが

「サンプルサイズは必要十分、、、、か?」

です。

必要十分、、、、というのがポイントです。

なぜならサンプルサイズは大きすぎても小さすぎても弊害をきたすからです。

サンプルサイズは小さすぎても大きすぎても問題

サンプルサイズが小さすぎると,

  • 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
  • ランダム割付で,うまく重要な因子が均等にならないことが多い
  • 再現性のない極端なデータが得られやすい

といった問題があります。

また,サンプルサイズが無駄に大きすぎると,

  • 単純に人的/金銭的リソースの無駄遣い
  • あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

といった問題があります。

順に詳しく見ていきましょう!

サンプルサイズが小さい時の問題

─ ads ─

問題1.結果のブレが大きく有意差が得られにくい

サンプルサイズが小さい(=被験者が少ない)RCT では,どうしても結果のブレ幅(=誤差の幅)が広くなってしまいます。

誤差の幅エラーバー(95 % 信頼区間)がガバガバになってしまえば,当然「結果の信頼性」は低くなります。

結果がどうであれ 『偶然そうなっただけかもしれない』 と言う余地が増えるということです。

コインを 300 回投げて 240 回オモテが出たら「何か偶然らしからぬ関係」を疑ってしかるべきだと思いますが,コインを 5 回投げて 4 回連続オモテが出たと言われても「そういう偶然もあるかもしれないな」となる。そんなイメージです。

これにより,本当は意味がある介入でも,〈有意差〉を検出できない(=βエラー)ことが増えてしまいます。

原理上〈統計学的に有意な差〉が出にくくなってしまっているのです。

合わせて読みたい

〈統計学的に有意な差〉とは?今やどんな研究論文でも,あるいはビジネスシーンでも,必ず目にする〈統計学的に有意〉 significant という言葉。「統計学的に有意」ってどういう意味?と人に聞かれた時,皆様はその意味を[…]

問題 2.群間不均衡を起こしやすい

また,サンプルサイズが小さいと,重要な因子がうまく均等に割り振られない〈群間不均衡〉を起こしてしまうリスクも高くなります。

つまり

ランダムに割り付けたハズなのに,蓋を開けてみたら明らかにA群に有利になる様な偏りが出てしまっていた

ということも(偶然に)起きやすくなってしまうのです。

完全に公平なコイントスを 10 回行なっても,8 回や 9 回 オモテが出てしまうことがあるのと同様,こうした現象は起き得ます。

しかしそうなってしまうと,アウトカムの差が〈介入による成果〉なのか〈群間不均衡〉によるものなのかわからなくなってしまいます。

そのような無視できない〈群間不均衡〉があるにもかかわらず,両群を均一な集団とみなしてしまうと,大きなバイアスになります。

場合によっては,「極端によい結果」や「極端に悪い結果」になってしまうこともありえます。

この様なリスクを回避する手っ取り早い手法は,やはりサンプルサイズを増やすことです。

一応,サンプルサイズを増やす他にも,層別化ランダム割り付けや,割付後に結果を adjust する手法もあります。

基本的に,サンプルサイズが増えれば増えるほど「ランダムに割り付けたのに偏ってしまった」というリスクは小さくできます。

これは,「コインを 100 回 投げて 80 回 オモテが出てしまう確率」が「10 回 投げて 8 回 オモテが出てしまう確率」よりも低いのと同じ理屈です。

この辺りは直観的に理解できる部分ではないでしょうか。

|補足:ランダムなバラツキ
現実にはあり得ませんが 「試験参加者をランダムに A 群と B 群に割り付ける」という試行を,RCT 開始前に 100 回やり直せるとします。そうすると当然,毎回ランダム化の結果は異なります。「大事な要素(たとえば年齢)が物凄〜く均等に割り振れた」場合もあれば,「結構片方に偏っちゃったな…」ということもあり得るわけです。これも一種の〈偶然誤差〉で,サンプルサイズが大きくなればなるほど,その「バラツキ」は小さくなります。

問題 3.極端な結果が得られやすい

これまで述べてきたような問題があるため,

サンプルサイズの小さい試験は結果が極端になりやすい

ことが知られています。

たとえば,第 II 相試験などの小規模な RCT で〈二次評価項目〉に据えられたハードエンドポイントにおいて「すごく効く!」という結果が出ることがあります。

しかし〈群間不均衡〉を補正して計算してみたり,実際により大規模な試験で検証し直されると,期待されたほどの効果とならないことは多いものです。

少ないサンプルでは母集団を代表できない

結局のところサンプルサイズが小さいということは,

抽出された〈標本〉が〈母集団〉をうまく代表できていない可能性が高い

というのが問題です。

これは,被験者が少ない分「ひとりひとりの結果」の占める割合が大きいことも一因です。極端なケースがあった場合にそのインパクトに平均値が引っ張られてしまいやすいわけです。

そのため,逆に,

小さなサンプルサイズでの結果を〈母集団〉に一般化は困難

となってしまいます。

個々の被験者を見てみれば,実際には,効果を出すケースもあるでしょうが,出さないケースもあるでしょう。

しかしトータルで(確率論的に)見た時,どの程度の効果が期待できるかは,その集団の平均を見なくてはなりません。

いわゆる著効例やチャンピオンケースばかりを見て期待してしまうことは,実際の〈効果の期待値〉から大きく外れてしまうことになります。

〈母集団〉というのは非常にヘテロで大規模な集団です。小さな〈標本〉の結果をそのまま一般化することはできません。

サンプルサイズを増やせば増やす(=母集団に近づいていく)ほど『平均への回帰』という現象も起きやすく,得られる結果は極端ではなくなっていくことが知られています。

効果テキメンだったケースも〈母集団〉という膨大な数の中に入れ込むと,薄められてしまうイメージです。

そのため,

サンプルサイズが小さい試験の結果が非常に良かった場合:ほぼ眉唾

と思って読むくらいがよいかもしれません。

出版バイアスも受けやすい

また,サンプルサイズが小さい試験は〈出版バイアス〉の影響も受けやすいことが知られています。

つまり,同じような小規模の試験が世界中でいくつもおこなれていて,うまくいったものだけが論文化されている可能性がある,ということです。

そのため公表されている時点、、、、、、、、、で注意が必要かもしれません。

同じくらい小規模の試験で,よい結果が出なかったものが,実際には複数あるかもしれません(公表されず闇に葬り去られているだけという可能性)。

うまくいった研究ばかりが論文化される出版バイアス

サンプルサイズが大きい時の問題

では,サンプルサイズが大きい時はどうでしょうか。

当然ながら,大きなサンプルサイズを対象にして出た結果は,結果のブレ幅(=偶然誤差)が小さくなります。そのため結果の信頼性は高くなります。

では RCT のサンプルサイズは大きければ大きいほどよいのでしょうか?

サンプルサイズは大きければよいか?

実際には そう単純でもありません。

不必要に「数の力」に頼りすぎると,今度は以下のような不都合が生じます(▼)。

  1. 単純に人的/金銭的リソースの無駄使い
  2. あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

問題 1.単純にリソースの無駄使い

まず第一に,基本的な問題です。

少ないサンプルサイズで済むものに,大きな人的コストをかけて大規模な study を組むことはリソースの無駄使いです。

また,倫理的にも「必要以上の人数をいわゆる人体実験に巻き込む」というのは問題です。

暴力的な数のサンプルサイズを集めればいつか必ず〈有意差〉は出ますが,そこに大きな意味はありません(後述)。

適切にリソースを使って,意味のある結論を得ようとすることが大切です。

問題 2.臨床的意味のない差を検出してしまう

また,サンプルサイズを極限まで大きくすれば,どんどん『誤差によるブレ幅』が小さくなるので,どこかで必ず〈統計学的な有意差〉が得られます。

しかしそれは,ただ『ブレ幅』が小さくなったから統計的には有意になった,というだけのことです。

エラーバーが小さくなることで重なりにくくなるからです

いつか必ず〈有意差〉にはなるが‥

統計学的に〈有意〉だからといって「劇的に効く」という意味ではありません。

この場合はむしろ真逆で「実世界ではほとんど意味のない差」まで〈有意〉として検出してしまった,ということにもなりかねません。

小さな〈差〉を見つけても実利がない

たとえば,ほとんど効果のない抗癌剤でも,5000 人 vs 5000人などの大規模 RCT で比較すれば,以下のような結果が出るかもしれません(▼)。

新しい抗がん治療 A は,従来型の抗がん治療 B に対して〈統計学的に有意に〉生存期間を伸ばした(両群の生存期間の差の平均:0.3ヶ月, p=0.01

しかし平均たった 0.3ヶ月(=10 日間)の寿命のために,「とってもお高い」上に「臨床現場での使用経験が集まっていないため未知のリスクがある」新しい抗癌剤を使うか?と言われれば,普通の臨床医は使いません。

統計的に有意 ≠ 臨床的に有意

ということです。

補足:へたくそな譬え話
バードウォッチングを目的として森に入るとして,見つけたいのは鳥であって,持ち込むべきは双眼鏡です。ここで誤って顕微鏡を持ち込んでしまうと,鳥ではなく小さな羽虫を見つけに行くことになってしまいます。
あるいは部屋の汚れを探す時,顕微鏡でくまなく探せば小さな汚れは無限に見つかります。しかしこれは「見過ぎによる見つけ過ぎ」であって,意味のある汚れではありませんよね。
もうちょっといい喩えができれば良いのですが……笑
いいアイディアがあったら教えてください!

まとめると

過剰なサンプルサイズの試験は,リソースの無駄遣いであるはかりでなく,「見過ぎによる見つけ過ぎ」の問題を孕むことになるため,好まれない,ということです。

そこで,

「臨床的な有意差」を適度に検出するため必要十分、、、、なサンプルサイズを集める

ことを求められるわけですが,実はこれがムチャクチャ難しいのです。

あらかじめ Power Analysis

実際に多くの中規模〜大規模 RCT は,最初のデザイン時点で

このくらいの人数を集めれば統計学的な有意差が出せそうだな

というサンプルサイズが推算されています(パワー分析 power analysis )。

不必要に大きなサンプルサイズを集めても,必要以上にコストがかさむばかりですから,あらかじめ目安を設定しておくわけですね。

Power 分析にも限界がある

しかし〈パワー計算〉 power analysis の結果が見込み違いで,サンプルサイズが小さすぎると〈統計学的有意差〉が出ず,何も言えない結果になってしまう,ということも少なくありません。

計算の際に用いる既報データと今回の RCT の setting が異なるモノである以上,どうしても計算はズレてしまいます。

生物統計家の新谷歩先生はこれを

暗闇の中で黒猫を探すくらいの手探り行為

と形容されており,さすがの表現だと感じました。

特に,計算に用いる過去データというのは後方視研究だったりパイロット試験(ごく小規模な介入研究)だったりと,バイアスリスクが高く「結果を極端にしやすい」研究であることが多いものです。

そこでの効果をそのまま期待して中規模以上の RCT を設計すると,思った以上に〈効果〉が出ない,ということは往々にしてよくあります。

とはいえ,当てずっぽうな数の被験者を集めるわけにはいかないので,中規模以上の RCT であれば必ず行われている重要な手続きの1つです。

詳細は別記事をご参照ください!

Power Analysis にまつわる問題については,別記事(▼)
合わせて読みたい

この記事では,RCT を読む時の必須知識の1つ,〈検出力分析〉パワー分析;power analysisについて解説します。最初に本項のまとめを示します(▼)パワー分析に関するポイントまとめパワー分析 ──〈統計学的[…]

まとめ

まとめです!

サンプルサイズが小さ過ぎる時の問題

  1. 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
  2. 重要な因子がうまく均等にならないことが多い
  3. 再現性のない極端なデータが得られやすい

サンプルサイズが大き過ぎる時の問題

  1. 単純に人的/金銭的リソースの無駄遣い
  2. あまりに小さく意義に乏しい〈差〉まで〈有意〉と検出してしまう

サンプルサイズは小さ過ぎても大き過ぎても問題

1つの RCT で結論は危険

サンプルサイズは小さすぎると結果の信頼性が低く,大きすぎると実質的意味のない差まで〈有意差〉として検出してしまう。

この問題を踏まえると,あまり1つの RCT 結果にこだわっても意味がないかもしれない,ということがお分かりいただけると思います。

一つの RCT の結果をみただけで「この介入には意味がない!」だとか「この介入は効く!」などと飛びつく前に,サンプルサイズや power についてよく検討することが必要です。

[おすすめ本紹介]

ファクトフルネス FACTFULNESS


ビル・ゲイツが希望者全員に配布したことで有名な世界的超ベストセラー。スウェーデン医師・国際保健学教授である筆者が,誰もが勘違いしている「世界の事実」を1つ1つ挙げながら,本質を歪めて見てしまう人間の本能・バイアスを列挙していきます。脳髄に金槌で釘を打ち込まれるくらいの衝撃を何度も与えてくれる名著です。やや分厚い本ですが,Audible なら通勤時間で聞けてしまうので,大変オススメです。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG