【解説】サンプルサイズ (n) の重要性|ランダム化比較試験 RCT

この記事では,ランダム化比較試験 RCT における

サンプルサイズ(n)の重要性

についてまとめます。

例によって,最初にこの記事のまとめを示します!

この記事のまとめ
  • サンプルサイズは小さ過ぎても大き過ぎても問題

サンプルサイズは小さ過ぎても大き過ぎても問題

サンプルサイズの影響力

ランダム化比較試験 RCT について考える際,非常に重要な考え方の1つが

「サンプルサイズは必要十分、、、、か?」

です。

必要十分、、、、というのがポイントです。なぜならサンプルサイズは大きすぎても小さすぎても弊害をきたすからです。

サンプルサイズは小さすぎても大きすぎても問題

サンプルサイズが小さすぎると,

  • 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
  • ランダム割付で,うまく重要な因子が均等にならないことが多い
  • 再現性のない極端なデータが得られやすい

といった問題があります。

また,サンプルサイズが無駄に大きすぎると,

  • 単純に人的/金銭的リソースの無駄遣い
  • あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

といった問題があります。

順に詳しく見ていきましょう!

サンプルサイズが小さい時の問題

─ ads ─

問題1.結果のブレが大きく有意差が得られにくい

サンプルサイズが小さい(=被験者が少ない)RCT では,どうしても結果のブレ幅(=誤差の幅)が広くなってしまいます。

つまり全くの偶然であっても取りうる値の幅が広くなるということです。

そうした 誤差の幅エラーバー(95 % 信頼区間)がガバガバになってしまえば,当然「結果の信頼性」は低くなります。

結果がどうであれ 『偶然そうなっただけかもしれない』 と言う余地が増えるということです。

コインを 300 回投げて 240 回オモテが出たら「何か偶然らしからぬ関係」を疑ってしかるべきだと思いますが,コインを 5 回投げて 4 回連続オモテが出たと言われても「そういう偶然もあるかもしれないな」となる。そんなイメージです。

これにより,本当は意味がある介入でも,〈有意差〉を検出できない(=βエラー)ことが増えてしまいます。原理上〈統計学的に有意な差〉が出にくくなってしまっているのです。

合わせて読みたい

〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]

問題 2.群間不均衡を起こしやすい

また,サンプルサイズが小さいと,重要な因子がうまく均等に割り振られない〈群間不均衡〉を起こしてしまうリスクも高くなります。

つまり

ランダムに割り付けたハズなのに,蓋を開けてみたら明らかにA群に有利になる様な偏りが出てしまっていた

ということも(偶然に)起きやすくなってしまうのです。

完全に公平なコイントスを 10 回行なっても,8 回や 9 回 オモテが出てしまうことがあるのと同様,こうした現象は起き得ます。

しかしそうなってしまうと,アウトカムの差が「介入による成果」なのか「群間不均衡によるもの」なのかわからなくなってしまいます。

重大な〈群間不均衡〉があるにも関わらず,両群を「比較可能な集団」とみなしてしまうことは,大きなバイアスになります。そのせいで見かけ上「極端によい結果」や「極端に悪い結果」に見えてしまうことは十分起き得ます。

シンプルな解決策

この様なリスクを回避する手っ取り早い手法は,やはりサンプルサイズを増やすことです。

基本的に,サンプルサイズが増えれば増えるほど「ランダムに割り付けたのに偏ってしまった」というリスクは小さくできます。

これは,「コインを 100 回 投げて 80 回 オモテが出てしまう確率」が「10 回 投げて 8 回 オモテが出てしまう確率」よりも低いのと同じ理屈です。

この辺りは直観的に理解できる部分ではないでしょうか。

他にも,層別化ランダム割り付けや,割付後に結果を多変量解析にかけて補正 adjust する手法もあります。
|ランダムなバラツキ
現実にはあり得ませんが 「試験参加者をランダムに A 群と B 群に割り付ける」という試行を,RCT 開始前に 100 回やり直せるとします。そうすると当然,毎回ランダム化の結果は異なります。「大事な要素(たとえば年齢)が物凄〜く均等に割り振れた」場合もあれば,「結構片方に偏っちゃったな…」ということもあり得るわけです。そしてサンプルサイズが小さければ小さいほど,その「バラツキ」は大きくなってしまいます。

問題 3.極端な結果が得られやすい

これまで述べてきたような問題も含め,とにかく

サンプルサイズの小さい試験は結果が極端になりやすい

ことが知られています。

たとえば,第 II 相試験などの小規模な RCT で〈二次評価項目〉に据えられたハードエンドポイントにおいて「すごく効く!」という結果が出ることがあります。

しかし〈群間不均衡〉を補正して計算してみたり,実際により大規模な試験で検証し直されると,期待されたほどの効果とならないことは多いものです。

少ないサンプルでは母集団を代表できない

なぜこのようなことが起きるかというと,結局サンプルサイズが小さいということは,

抽出された〈標本〉が〈母集団〉をうまく代表できていない可能性が高い

からです。これは,被験者が少ない分「ひとりひとりの結果」の占める割合が大きいことも一因です。極端なケースがあった場合にそのインパクトに平均値が引っ張られてしまいやすいわけです。

薬剤などの効果は「変化量の平均同士、、、、」で比較されることが多いのですが,平均値自体が「外れ値」に引っ張られやすいという数学的特性を持っています。

重要なのは集団としての「期待値」

臨床試験を行うとき,個々の被験者に着目していくと,実際には効果を出すケースもあるでしょうが,出さないケースもあるでしょう。しかしトータルでどの程度の効果が期待できるかは,その「集団の平均」を見て判断することになります。

このときいわゆる著効例やチャンピオンケースばかりに引っ張られてしまうと,実際の〈効果の期待値〉から大きく外れてしまうことになります。

〈母集団〉というのは非常にヘテロで大規模な集団ですから,小数例でたまたま得られた「劇的な効果」をそのまま期待することはできません。

集団へもたらす効果──あるいはその中にいる「あなた自身」にもたらす効果──として期待できるのは,そうしたチャンピオンケースではありません。「劇的に効いた人」から「全然効かなかった人」までの「平均的なところ」を期待するのが妥当です。それが「妥当性の高い期待値」です。

きっと平均へ回帰する

サンプルサイズを増やせば増やす(=母集団に近づいていく)ほど『平均への回帰』という現象も起きやすく,得られる結果は極端ではなくなっていきます。効果テキメンだったケースも〈母集団〉という膨大な数の中に入れ込むと,薄められてしまうイメージです。

しかしそうして得られる「あまりパッとしない期待値」こそ,私たちやあなた自身に期待できる「平均的な効果」である可能性が高いのです。

そのため

サンプルサイズが小さい試験の結果が非常に良かった場合:眉唾

と思って読むくらいがよいかもしれません。

小さなサンプルサイズでの結果は〈母集団〉に一般化し難い

ということです。

出版バイアスも受けやすい

尚これは余談ですが,サンプルサイズが小さい試験は〈出版バイアス〉の影響も受けやすいことが知られています。小規模試験は事前のプロトコル開示やデータベース登録を行わずに施行されることが多いためです。

もしかしたら同じような小規模試験が世界中でいくつもおこなれた中「うまくいったものだけ」が論文化されているかもしれない,ということです。

同じくらい小規模の試験で,よい結果が出なかったものが,実際には複数あるかもしれない(公表されず闇に葬り去られているだけという可能性)というのは,非常に重要な視点です(▼)。

うまくいった研究ばかりが論文化される出版バイアス

サンプルサイズが大きい時の問題

ここまでサンプルサイズが小さい場合の問題点について述べてきましたが,サンプルサイズが大きい時はどうでしょうか。

当然ながら,大きなサンプルサイズを対象にして出た結果は,結果のブレ幅(=偶然誤差)が小さくなります。そのため結果の信頼性は高くなります。

しかし RCT のサンプルサイズが大きければ大きいほどよいかと言えば,実際には そう単純でもありません。不必要に「数の力」に頼りすぎると,今度は以下のような不都合が生じます(▼)。

  1. 単純に人的/金銭的リソースの無駄使い
  2. あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

問題 1.単純にリソースの無駄使い

まず第一に,基本的な問題です。

少ないサンプルサイズで済むものに,大きな人的コストをかけて大規模な臨床試験を組むことはシンプルにリソースの無駄使いです。また倫理的にも「必要以上の人数をいわゆる人体実験に巻き込む」というのは問題です。

適切にリソースを使って,意味のある結論を得ようとすることが大切です。

問題 2.臨床的意味のない差を検出してしまう

第二に,暴力的なサンプルサイズを集めればいつか必ず〈有意差〉は出ますが,そこにさしたる意味はない,という問題があります。

いつか必ず〈有意差〉にはなるが‥

サンプルサイズを極限まで大きくすれば,どんどん『誤差によるブレ幅』が小さくなりますから,どこかで必ず〈統計学的な有意差〉が得られます。

しかしそれは,ただ『ブレ幅』が小さくなったから統計的には有意になった,というだけのことです。

エラーバーが小さくなることで重なりにくくなるからです

統計学的に〈有意〉だからといって「劇的に効く」という意味ではありません。

この場合はむしろ真逆で「実世界ではほとんど意味のない差」まで〈有意〉として検出してしまった,ということにもなりかねません。

小さな〈差〉を見つけても実利がない

たとえば,ほとんど効果のない抗癌剤でも,5000 人 vs 5000人などの大規模 RCT で比較すれば,以下のような結果が出るかもしれません(▼)。

新しい抗がん治療 A は,従来型の抗がん治療 B に対して〈統計学的に有意に〉生存期間を伸ばした(両群の生存期間の差の平均:0.3ヶ月, p=0.01

しかし平均たった 0.3ヶ月(=10 日間)の寿命のために,「とってもお高い」上に「臨床現場での使用経験が集まっていないため未知のリスクがある」新しい抗癌剤を使う意義には疑問が生じます。

統計的に有意 ≠ 臨床的に有意

ということです。

補足:へたくそな譬え話
バードウォッチングを目的として森に入るとして,見つけたいのは鳥であって,持ち込むべきは双眼鏡です。ここで誤って顕微鏡を持ち込んでしまうと,鳥ではなく小さな羽虫を見つけに行くことになってしまいます。
あるいは部屋の汚れを探す時,顕微鏡でくまなく探せば小さな汚れは無限に見つかります。しかしこれは「見過ぎによる見つけ過ぎ」であって,意味のある汚れではありません。

まとめると

過剰なサンプルサイズの試験は,リソースの無駄遣いであるはかりでなく,「見過ぎによる見つけ過ぎ」の問題を孕むことになるため,好まれない,ということです。

そこで,「臨床的な有意差」を適度に検出するため必要十分、、、、なサンプルサイズを集めることが求められるわけですが,実はこれがムチャクチャ難しいのです。

あらかじめ Power Analysis

実際に多くの中規模〜大規模 RCT は,最初のデザイン時点で

このくらいの人数を集めれば統計学的な有意差が出せそうだな

というサンプルサイズが推算されています(パワー分析 power analysis )。

不必要に大きなサンプルサイズを集めても,必要以上にコストがかさむばかりですから,あらかじめ目安を設定しておくわけですね。

Power 分析にも限界がある

しかし〈パワー計算〉 power analysis の結果が見込み違いで,サンプルサイズが小さすぎると〈統計学的有意差〉が出ず,何も言えない結果になってしまう,ということも少なくありません。

計算の際に用いる既報データと今回の RCT ではセッティングが異なるモノである以上,どうしても計算はズレてしまいます。

特に,計算に用いる過去データというのは後方視研究だったりパイロット試験(ごく小規模な介入研究)だったりと,バイアスリスクが高く「結果を極端にしやすい」研究であることが多いものです。

そこでの効果をそのまま期待して中規模以上の RCT を設計すると,思った以上に〈効果〉が出ない,ということは往々にしてよくあります。

とはいえ当てずっぽうな数の被験者を集めるわけにはいかないので,中規模以上の RCT であれば必ず行われている重要な手続きの1つです。

逆にこのプロセスを経ずに行われた RCT は,結果の信頼性が一段落ちてしまいます。

Power Analysis の詳細は,別記事にまとめています(▼)
合わせて読みたい

この記事では,RCT を読む時の必須知識の1つ, 〈検出力分析〉パワー分析;power analysis について解説します。 最初に本項のまとめを示します(▼) パワー分析に関するポイントまとめ パワー分析 ──〈統計学的[…]

まとめ

まとめです!

サンプルサイズが小さ過ぎる時の問題
  1. 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
  2. 重要な因子がうまく均等にならないことが多い
  3. 再現性のない極端なデータが得られやすい

サンプルサイズが大き過ぎる時の問題

  1. 単純に人的/金銭的リソースの無駄遣い
  2. あまりに小さく意義に乏しい〈差〉まで〈有意〉と検出してしまう

サンプルサイズは小さ過ぎても大き過ぎても問題

1つの RCT で結論は難しい

サンプルサイズは小さすぎると結果の信頼性が低く,大きすぎると実質的意味のない差まで〈有意差〉として検出してしまう ── こうした問題を踏まえると,1つの 研究結果が「有意かそうでなかったか」に執着し過ぎても仕方ないということが分かります。

結局,研究が扱うのはすべて「仮説」です。その仮説の検証は様々な理由でうまくいったりうまくいかなかったりします。

その様な中で,単一研究をもとに「この介入には意味がない!」だとか「この介入は効く!」などと飛びつきすぎることには一定の危険性を伴います。

そうした知見の「限界」について解像度高く認識するためにも,きちんと原著を読み,サンプルサイズや power についてもよく検討しながら,批判的に吟味する心がけが必要です。

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG