前回の記事では,RCTの特長についてまとめました(▼)。
- バイアスを排除する力が強い
- 交絡因子を排除する力が強い
- 前向き研究であり直接〈因果関係〉を〈検証〉できる
|この記事では RCT の長所 について解説します。 RCT の長所 前回の記事で,ランダム化比較試験 RCT の満たすべき条件として,以下の4つを挙げました。 ランダム化されている 比較対照(control群)がある 明確[…]
これらのために,ランダム化比較試験 RCT はエビデンスの王道とされています。
しかしそうは言っても,RCT も万能ではありません。以下のような「限界」があり,結果を鵜呑みにすべきでない場面が非常に多い,というのが実情です。
今回はそれら〈RCTの限界〉についてまとめてみたいと思います。
RCTの限界
- 莫大なコストがかかる
- 資金源バイアス・実験効果により結果が誇張されやすい
- サンプルサイズの影響が大きい
- 希少なものは相手にできない
- ただ1つの仮説しか〈検証〉できない
順に見ていきましょう!
限界①:莫大なコストがかかる
これは文字通りのことで,説明不要かもしれません。
RCT を行うためには,以下のプロセス(▼)1つ1つにおいて,膨大な人的コストがかかります。検査や薬剤にかかる費用はもちろんのこと,膨大な人件費を要するわけです。
- 試験の周知
- 被検者の募集
- それぞれの地域の担当者との連絡
- 治療者(医師)との連絡
- 薬剤やプラセボなどの準備
- 隠蔽性の保たれたランダム割付システムの構築
- 外部の評価機構への依頼
資金源は?
その膨大なコストがどこから調達されるのかと言えば,
- 製薬会社資本
- 公的資本(公費・グラントなど)
の 2 つに大別されます。製薬会社が莫大な資本を投じておこなう RCT の代表は,自社で開発した薬剤の第 III 相試験です(▼)。
そこで「承認」までこぎつけることができれば,一気にそれまでの投資を回収することができる「大勝負」の場面ということです。
逆に言えば「見込みの薄い」あるいは「採算の取れない」薬剤や,製薬会社にメリットのないような RCT には彼らの資本が投下されることなどありません。そういう領域においては,専ら公的資本を用いた RCT が(主に医師主導で)行われることになります。
限界②:資金源バイアスや実験効果による誇張
そこで問題になるのが資金源バイアスです。
これは「製薬会社など営利団体資本の臨床試験は,そうでない臨床試験に比べて,当該団体の利益につながるような結果を出しやすい」というバイアスのことです。
先述した「莫大なコストがかかる」というところから容易に連想できることですが,多額コストをかけた肝入り試験の結果が
特に効果はなさそうでした!
では採算が合いません。
なんとしても〈有意差〉を出さなければ・・!
というモチベーションになってしまうのは,やむを得ない部分でもあります。
完全に非営利でも・・
またこの問題は,スポンサーが営利団体である場合のみに限りません。
研究者や実施団体が非営利組織であったとしても,油断できません。なぜなら RCT 実施の際には,”この研究の価値”を証明したいがために,研究者らが「より大きな効果」を計測するよう努力してしまうものだからです。
また試験参加者の側も,観測者に「見られている」ことで普段以上に頑張ってしまう(=ホーソン効果)という弊害もあります。
なにより RCT に参加するような人は「それだけ健康的な余力がある人」です。体力のない高齢者や,元気のない人,健康意識の低い人はそもそも RCT に参加しません(=選択バイアス)。
こうした影響が総合されることで,
ことが知られています(これを〈実験効果〉と呼びます)。
この〈実験効果〉のために
RCT では非常に良好な成績を弾き出した薬剤や介入が,いざ現実世界で広く適応されると,想定していた程には効果を出さなかった
ということは少なくありません。
葬り去られる negative study
さらに,そもそも
という出版バイアスの問題もあります。
公的資金を使った大規模研究などは,結果がどうであれ報告されることが多いのですが,特に企業主導などの RCT はそうもいきません。
プラセボとうまく差をつけられなかった第 II 〜 III 相試験などで「わざわざ悪かった結果を論文化して報告まではしない」ということはしばしばあります。そっと「なかったことにされる」ということです。あるいは仮に論文になったとしても,major 誌に投稿されず,注目度が低いままそっと闇に消えていくというパターンもあります。
いずれにしても,結果を出した RCT のウラには,実は『似た様な設計で行ったのに結果が出なかった RCT』がたくさん埋もれているかもしれないということです。
これは複数のRCTの結果を合わせて考える時(=メタアナリシス),非常に大きな問題になってきます。特に小規模なRCTばかりを集めて解析したメタアナリシスは,報告バイアスの影響を受けている可能性がある,という点に注意が必要です(▼)。
- |データベース登録が必須に?
- なお,この問題を防ぐため,近年では RCT を施行する前に公的データベース(clinicaltrials.gov など)への登録が強く推奨されるようになってきています。逆にそうしたデータベースに登録していない場合,大手の医学誌は accept してくれない,という風潮です。これにより,結果が negative study だろうが positive study だろうが「RCTが行われた」という事実がきちんと蓄積されていき,いざメタ解析という時に「結果がよかった研究ばかりが統合される」という大きなバイアスの予防になるのではと期待されています。
限界③:サンプルサイズの影響が大きい
ランダム化比較試験 RCT の 限界,3つ目として「サンプルサイズの影響が大きい」というものを取り上げます。
です。必要十分というのがポイントです。サンプルサイズは大きすぎても小さすぎても弊害をきたすからです。
サンプルサイズは小さすぎても大きすぎても問題
サンプルサイズが小さすぎると,
- 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
- ランダム割付で,うまく重要な因子が均等にならないことが多い
- 再現性のない極端な結果が出やすい
といった問題があります。
また,サンプルサイズが無駄に大きすぎると,
- 単純に人的/金銭的リソースの無駄遣い
- あまりに小さく意義に乏しい〈有意差〉まで検出してしまう
といった問題があります。
この記事では,ランダム化比較試験 RCT における サンプルサイズ(n)の重要性 についてまとめます。 例によって,最初にこの記事のまとめを示します! この記事のまとめ サンプルサイズは小さ過ぎても大き過ぎても問題 […]
小規模 RCT の結果は眉唾モノ
以上のような問題があるため,
と言えます。結果のバラツキの幅が大きすぎるのです。
たとえば,第 II 相試験などの小規模な RCT で〈二次評価項目〉に据えられたハードエンドポイントにおいて「すごく効く!」という結果が出ることがあります。しかし〈群間不均衡〉を補正して計算してみたり,実際により大規模な試験で検証し直されると,期待されたほどの効果とならないことはしばしばあります。
サンプルサイズが小さい試験の結果は鵜呑みにせず,眉唾だと思って読んだ方が無難だと言えるでしょう。
サンプルサイズは大きければよいか?
では,サンプルサイズが大きい時はどうでしょうか。
当然ながら,大きなサンプルサイズを対象にして出た結果は,結果のブレ幅(=偶然誤差)が小さくなります。そのため結果の信頼性は高くなります。
しかしサンプルサイズを極限まで大きくすれば,どんどん『誤差によるブレ幅』が小さくなるので,どこかで必ず〈統計学的な有意差〉が得られます。
これはただ『ブレ幅』が小さくなったから統計的には有意になった,というだけのことです。
統計学的に〈有意〉だからといって「劇的に効く」という意味ではありません。
この場合はむしろ真逆で「実世界ではほとんど意味のない差」まで〈有意〉として検出してしまった,という可能性があります。
というのは非常に重要なポイントです。
そこで 「臨床的な有意差」を適度に検出するため必要十分なサンプルサイズを集めて研究デザインを行うことが求められるわけですが,実はこれがムチャクチャ難しいのです。
あらかじめよく計算して被験者を募る
実際に多くの大規模 RCT は,最初のデザイン時点で
このくらいの人数を集めれば統計学的な有意差が出せそうだな
というサンプルサイズが推算されています(パワー分析 power analysis )。
不必要に大きなサンプルサイズを集めてもコストばかりかかって実利がないので,あらかじめ目安を設定しておくわけですね。
Power 分析にも限界がある
しかし〈パワー計算〉 power analysis の結果が見込み違いで,サンプルサイズが小さすぎると〈統計学的有意差〉が出ず,何も言えない結果になってしまう,ということも少なくありません。
既報のデータをもとに推算するだけなので,その既報と今回の RCT の setting が多少違うだけで計算は大きくズレてしまいます。
power analysis を行ったとしてもサンプルサイズが適切にならないことはよくあります。そしてサンプルサイズは小さすぎても「信頼性が低く,有意差も検出しにくい」という問題があり,大きすぎても「リソースの無駄だし意味のない差まで検出してしまう」という問題があるため,その結果の解釈には様々な前提知識が必要になります。
こうした限界をよく理解した上で RCT の結果を読まないと騙されてしまいますので,注意が必要です。
この記事では,RCT を読む時の必須知識の1つ, 〈検出力分析〉パワー分析;power analysis について解説します。 最初に本項のまとめを示します(▼) パワー分析に関するポイントまとめ パワー分析 ──〈統計学的[…]
限界④:希少なものは相手にできない
RCT についてまわる限界の 4つ目は,「希少なものを相手にできない」ということです。
前項でサンプルサイズの重要性を扱いましたが,その延長となる内容です。サンプルサイズが小さすぎると「信頼性が低く,有意差も検出しにくい」のですから,「稀な現象」とRCT の相性が悪いことは容易に想像がつくものと思います。
稀な難病では RCT が困難
例えば 100万人に 1人しか発症しない,稀な難病を想定してみます。それなりの規模の都市でも,数えるくらいしか罹患しない様な疾患です。
その難病に対して
ある薬A を投与すると,疾患の進行速度が遅くなって,生存期間が伸びる
という仮説を検証したいとします。
しかし,100万人に1人しか発症しない疾患では,十分な被験者数を集めるのは相当至難です。わずか 100 人規模の RCTを組むのでも,全国的なチームを作って相当苦労しながら募集しなければ進められません。
さらに,そのような稀な疾患では,一人一人の特性も極めて不均質(ヘテロ)になってしまいがちです。
また,生存期間などをエンドポイントにした RCT を行うには,せめて「発症年」を揃える必要があります。しかし RCT への参加基準に「発症2年以内の人」などといった縛りを加えると,さらに参加者を集めるのが困難になってしまいます。
しかし先述したように,サンプルサイズが集まらなければ統計学的に有意な差は出にくいものです。結果としてその〔薬A〕の有効性が本当にあるのか〈検証〉することは,非常に困難となってしまいます。
これが,難病の薬が開発されにくい理由の1つです。
- |補足:条件付き早期承認制度
- こうした問題に対応するため,日本には〈条件付き早期承認制度〉といった「第 III 相試験なしでもある程度の効果がありそうなら実臨床に導入して良い」というアグレッシブな制度もあります。詳細は[別記事]
稀だが重篤な副作用も検出できない
また,RCT では滅多に起きないもののインパクトが大きい現象 ── たとえば重篤な副作用など ── も,起きる件数自体が少ないため,ほとんど統計的有意差を検出されることはありません。
そのため〈害〉の検出はどうしても第 III 相試験時点では不可能です。
実際にリアルワールドに出て膨大な人数に使われ始めると,大きな害が散発的に顕在化してくる,ということは少なくありません。
- |ビジネス界のABテスト
- 余談ですが,ビジネスの世界は RCT と非常に相性がよいことが知られています(ビジネス界では ABテストと呼ぶことが多いそうです)。それは,こうした「サンプルサイズ不足で差を検出しにくい」という点がクリアされやすいのがポイントかもしれません。
限界⑤:ただ1つの仮説しか〈検証〉できない
最後,RCT が抱える 5つめの限界は
です。非常に誤解されがちなポイントですが,1つの試験できちんとした「手順」を踏んで立証できる仮説は,原則的に1つしかありません。
それこそが唯一無二の〈主要評価項目 Primary endpoint〉です。
唯一無二の〈主要評価項目〉
RCT というのは最初から最後まで,あくまで「最も検証したい仮説」である
〈主要評価項目〉primary endpoint で差が出るか?
に照準を合わせて進んでいくものです。
先述した power 分析も,この primary endpoint のイベントがどの程度起きるか?という推算にあわせて行います。その推算に基づき,αエラー やβエラーの許容範囲を決めた上で,試験に集める被験者の数を設計しているのです。
一方,他の〈評価項目〉に関してはサンプルサイズの照準を合わせていません。この時点で,すでにオマケ解析に過ぎないということです。
オマケの〈二次評価項目〉
しかし RCT は莫大なコストを使って行われます。ですから,コストをかけて せっかく得られた貴重な臨床データを Primary Endpoint の〈検証〉のみに用いるのはもったいない,と考えてしまうのはごく自然なことです。
そこで,他の仮説が〈提唱〉できそうな「傾向」がないかについても,ついでにちょこっと検討して見ましょう。── それが〈二次評価項目〉secondary endpoint です。
ですから〈二次評価項目〉でそれらしいデータが得られた時も,主張できることは多くありません。そもそもその RCT は〈二次評価項目〉で差が出る/出ないという仮説を〈検証〉するためにデザインされた試験ではないからです。
二次エンドポイントはあくまで〈探索的〉explaratory なものであり,できることは仮説の〈提唱〉に過ぎません。仮に有意差らしきものが出ていても〈検証〉や〈立証〉ということにはならないのです。
もしその仮説を本当に検証したいのであれば,改めてそのアウトカムを〈主要評価項目〉primary endpoint にした RCT を組む必要があります。
そしてそれは primary endpoint のことである,というのは非常に重要なポイントです。
- |多重検定の問題
- そもそも複数の仮説について〈検証〉をおこなって,そのすべてで同じ有意水準(たとえば p=0.05)で「有意!」ということはできません。それをしてしまうと〈多重検定〉という重大な統計上の問題を抱えることになります。αエラー の許容範囲を一定(たとえば 5 %)に保つためには,p=0.05 という同一の有意水準ではなく,仮説検定をおこなった回数に応じて厳しくしていく必要があります(たとえば仮説検定を 5 回おこなったのであれば,有意水準をp=0.01に厳しくする;ボンフェローニ法)。|この問題の解説動画はコチラ
まだまだある RCT の Limitation
ここまで,RCT がどうしても構造的に抱えている「5つの限界」について述べてきました。
- 莫大なコストがかかる
- 資金源バイアス・実験効果により結果が誇張されやすい
- サンプルサイズの影響が大きい
- 希少なものは相手にできない
- ただ1つの仮説しか〈検証〉できない
これらはどれも,きちんと押さえておきたいポイントです。
こうした限界を知らないと,1つの1つの RCT の結果に過度な影響を受けて
「これは意味がある!」「これは意味がない!」
などと先走った結論を出してしまうことになりかねません。
しかし RCT は ただの実験に過ぎず,リアルワールドをうまく代表できているとは限らないということを忘れてはいけません。
また,問題は上記のみではありません。もっと根本的に,
ということもしばしばあります。
設計時点から問題のあるケース
分かりやすい例としては以下のようなケースが挙げられます(▼)。
- 「最初から片方が不利になっている」
- 「エンドポイントが冴えないので結果を示しても意味がない」
最初から片方が不利な RCT
初めから片方が不利になってしまっているようなデザインの場合,RCT の結果は大きくバイアスされています。これは要するに「比較可能な集団同士」「同じ土俵」で戦わせていないことによる弊害です。
本来 RCTは【A】と【B】の「ガチンコ対決」であり,きちんとガチンコ対決になっていることが大前提なのです。A・B 以外のあらゆる条件が,両群である程度揃っていなければなりません。
しかし悪質な RCT では,デザインの時点で「明らかにどちらかが不利」といった状況を作っている場合があります。
例えば,自社のプロテインAと他社のプロテインBの効果を比較するとき,自社のプロテインAは適切な用量を飲む様になっているにもかかわらず,他社のプロテインBは推奨用量の半分しか飲ませない設計になっている,といったなケースです。
ここまで露骨にアウトな設計をしたRCTは稀だと思いますが,
本当に公平な比較になっているのか?
という点について常に批判的に着目することは重要です。
意義の小さいエンドポイントを比較しても・・
また「エンドポイントがそもそも微妙」という試験デザインも,結果の解釈の際に問題になります。
以下にいくつかの例を列記します。
- 「生存期間」でなく「腫瘍サイズ」という〈代理評価項目〉が主要評価項目
- 「肺炎の重症化予防効果(酸素投与/挿管/死亡の回避)」ではなく「PCR陰性化までの日数」という〈代理評価項目〉が主要評価項目
- 「購入率」ではなく「クリック率」を比較した場合
要するにそのRCTは,本当に「現実世界で意義があること」をエンドポイントに設定しているかどうか,ということです。
「代用エンドポイント」の改善が示されたとしても,意義ある「ハードエンドポイント」の改善が示されていない場合,その適応には慎重になるべきです。
特に医薬品──それも新薬──の場合,
本当にその人が ”副作用にさらされるリスクをかけて”,また “新薬というお高い薬に対する医療費をかけて”,その薬を飲むだけの価値はあるのか?
常に考える必要があります。
職場の論文抄読会で,臨床試験論文の〈批判的吟味 critical apprausal〉をしたい! でもどういう部分に気をつけて読めばいいか分からない! そんな時,臨床試験の質を『爆速で』チェックできる手頃なリストがあったら,便利[…]
1つの RCT で結論はできない
ここまで見てきましたように,結局,1つの RCT には常に複数の Limitation がつきまといます。ですからより強固なエビデンスにするためには,複数の RCT の結果を組み合わせることが必要になります。
良質な RCT を集め,全ての結果を統合し,解析する── そのように「複数の RCT の結果を併せて解析したシステマティックレビュー&メタ解析」は,信頼性の高いエビデンスとして扱われます。
類似する(良質な) RCT のデータをたくさん集めることで,疑似的に巨大なサンプルサイズの「超大規模な比較試験」を紙面上で再現する様なイメージです(▼)。
システマティックレビュー & メタ解析
ここまでこればさすがに「絶対的に信頼できるエビデンス!」と歓迎したいところですが,しかし実はまた別の弱点があります。
それは「メタアナリシスやシステマティックレビューは,あくまで2次情報」という点です。人が介在して整理した〈二次情報〉である以上,その「情報処理過程」でバイアスが入り込む余地ができてしまうのです。
「数ある RCT からどれをピックアップして解析に含めるか」という選択が恣意的になれば,それは結果を歪めかねません。特に「システマティックレビュー」を行わずにメタ解析だけ行う場合は非常に危険です(▼)
低質な RCT ばかりを集めて統合しても,Garbage in/ Garbage out にしかなりません。あくまでバイアスリスクの低い〈良質な RCT〉の統合に限るべきであり,その「ふるいわけ」としてシステマティックレビューは欠かせないプロセスなのです。
出版バイアスも残る
また〈システマティックレビュー & メタ解析〉で特に注意すべきなのが,先述した「出版バイアス」です。
本当は効果がなかった RCT も沢山あったはずなのに,それらが報告されないことで,論文データベース上には存在しない研究が複数あります。それにより文献検索という「入口」から既にバイアスがかかってしまっているのです。
「有意差が出て『効果がある!』と報告しているRCT」の結果ばかりを集めてメタ解析を行ったところで「効果はある!」という結果にしかなりようがありません(▼)。
完全に均質な RCT はほぼ存在しない
また,そもそもそれぞれの RCT は質もバラバラであり,均一なものではないため,単純に統合することは難しいという問題があります。
うまく均質化するため,様々な指標などを用いて数学的に処理した上で〈統合〉するわけですが,当然そうした「処理」が入ってしまったデータを額面通りに受け取っていいのか?という議論もあります。
どんな論文も,読者のリテラシーは必須
上記の様な限界を踏まえれば〈システマティックレビュー & メタ解析〉SR & MAであっても,結果を鵜呑みにはできないということがわかります。
結局全ての研究方式にはそれぞれの強み・弱みがあるということです。どの研究であっても,バイアスのリスクは複数抱えているのです。100 % 完璧な研究など存在しません。
SR や MA だからといって,いつも両手を挙げて歓迎できるわけではありません。むしろこうした研究を批判的に吟味できるためには,大前提として「RCT の批判的吟味は難なく可能であること」が必要です。その上でメタ解析に含まれた論文・含まれなかった論文の〈選択基準〉が妥当であったかどうか,また,そもそもそれらの論文の質が十分高いものなのかどうかなどを検討できなければなりません。
どの様な権威ある論文であっても,読者はそうした「バイアスリスク」をよく検討しながらデータを見なければなりません。誰かにとって都合の良い〈解釈〉や〈数字〉に騙されないためには,きちんと生データを読むリテラシーが必要になります。
どこまで行っても真実は不明
また,そもそも論としてほぼ全ての臨床研究が母集団を直接調査しているわけではない(=限られた標本調査に過ぎない)以上,どのような統計手法を用いようと【真実そのもの】を直接観測することはできません。
結局私たちは標本データを介して母集団における真実を〈推定〉しているだけです。〈推定〉に過ぎない以上,どこまで行っても「真実と異なる推論をしてしまう」エラーの可能性はゼロにできません。
ただ「可能性がゼロではないから…」などと言い始めてしまうと,私たちはいつまでも意思決定を下せません。そこで,たとえ手元の標本が限られていたとしても「確率論的にはこう考えておいた方が妥当だろう」という妥当性の高い結論を得るために開発された手法が〈推測統計学〉であると言えます。
そして RCT やその SR & MA はその〈推測統計学〉の叡智を集めた実験手法です。そして現状,もっとも妥当性を担保しやすい実験手法とされています。
その長所と限界を理解して,データと向き合っていきたいですね。
〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]
コラム:真実なんてない?
シロ
ミケ
まとめ
- 莫大なコストがかかる
- 結果が誇張されやすい(資金源バイアス・実験効果)
- サンプルサイズの影響が大きい
- 希少なものは相手にできない
- ただ1つの仮説しか〈検証〉できない
さらに言えば,RCTというのはあくまで「集団同士の比較」でしかありません。他ならぬ私自身,他ならぬ貴方自身に「効くか効かないか」の二者択一であれば,どうなるかはわからない,という問題もあります。
コラム:どうせ信じるなら,バイアスの少ない世界を
ミケ
クロ
シロ
ミケ
クロ
ミケ
シロ