この記事では 「RCTとは何か?」その定義や基本的理念・原則 についてまとめます(▼)。
- ランダム化されている
- 比較対照(control群)がある
- 明確な評価項目(アウトカム/エンドポイント)がある
- 盲検化が望ましい
RCT とは何か
ランダム化比較試験とは
です。「randomized」「controlled」trial という名称のままですね。
単に
Aをやったら『効果』があった!
というのではなく,
ランダムに A か B かに割り振ったら,A 群の方が B 群と比べて『効果』があった! その差は〈統計的に有意〉だった!
ということで科学的に説得力のある証明ができる手法です。
構造的にバイアスや交絡因子を排除する力が強いので,他の研究方式と比べても信頼性が高く,エビデンスの王様 👑 とも呼ばれています。
ランダム化比較試験が満たすべき条件
ランダム化比較試験の具体的な流れは,ざっくり以下のようになります。
とある臨床試験(RCT)の研究手順
- 想定しうる全ての対象者(母集団)から被験者(標本)をランダム抽出
- ランダムに「介入群」と「対照群」に割り付けて
- それぞれ一定期間追跡
- 両群でイベントの発生割合など(アウトカム)に差があるか集計
- その差が〔統計的に有意〕か検討する
- 有意であれば「この介入は(母集団でも)意味があるかも」と推定
〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]
このような過程において,それが正しく〈ランダム化比較試験〉たるために,最低限,以下の条件を満たしていることが重要になります。
- ランダム化されている
- 比較対照(control群)がある
- 明確な評価項目(アウトカム/エンドポイント)がある
- 盲検化が望ましい
順を追ってみていきましょう。
① 割り付けがランダム化されている
1つ目の条件は
ということです。この〈ランダム割り付け〉を行うことによって,いろいろな背景を持つ人々を両群均等に割り振ることができます。
個人個人を均等には比較できない
まず大前提として,人間を対象にした試験をおこう以上,すべての対象者を同一視することはできません。これは全員がクローン人間でない限り,避けられない現象です。
同じ介入を行っても「個体差」によって効果がまちまちになってしまうのは必然です。
しかし,たくさんの人数を用意して,それをランダムに A 群と B 群に割り振ることによって,
という状況を作り出すことができます。
これにより,A群とB群のグループレベルでの比較を行って,どちらの群に割り振った方がリスクが低いのか?という検証が可能になります。
「全体として釣り合いが取れている」とは?
ここでは具体的に 「とある糖尿病薬 A が,長期的に本当に心筋梗塞を予防するのか?」という臨床試験を行う場合を考えてみましょう。
この時,新薬 A 群と従来薬 B 群に患者をランダムに割り付けて,心筋梗塞の発症割合を比較するガチンコバトルを行います。
しかしランダム割り付けを行った結果,年齢が高い人が A 群に偏ってしまったとします。これでは A 群にとって「不利」な割り付け結果であると言えます。
しかし一方で,糖尿病罹病期間が長い人はどちらかというと B 群に多く割り振られていました。この点に関しては,A 群にとっては「有利」な割付け結果です。
十分なサンプルサイズの RCT では,この様に「あらゆる”有利不利に影響する因子”」が,そのうちのいくつかは A 群有利,いくつかは A 群不利となりつつも,全体としては均一に割り振られることになります(理論上)。
結果として,A群 vs B群 という大枠で見た時には,フェアなルールでのガチンコ比較になる,ということです。
この記事では,ランダム化比較試験 RCT における サンプルサイズ(n)の重要性 についてまとめます。 例によって,最初にこの記事のまとめを示します! この記事のまとめ サンプルサイズは小さ過ぎても大き過ぎても問題 […]
各群が不均等ではフェアな比較ができない
逆に〈ランダム割り付け〉が徹底されていない状況での介入試験では,恣意的に介入群と対照群を分けることができてしまうため問題があります。
商品のメーカーからしたら「効果が劇的」というデータを出したいので,あらかじめ介入群 A の結果が B よりも有利になるように仕込んでおくことも可能です。その様にバイアスされた試験の結果を鵜呑みにするわけにはいきません。
しかしそうした懸念を構造的に排除してしまえるのが〈ランダム化〉の強みであると言えます。
② 比較対照(control群)がある
RCTの重要な前提条件,2つ目は
ということです。
比較対照(control)がないと何も言えない
例えば私たちが,【A】による「効果」を調べたいとします。
しかしその時,ある数人において
【A】をおこなったら 「効果」がありました!
などと主張しても「ふーん,で?」 としか思ってもらえません。
別に【A】をおこなっていなくても「効果」はあったかもしれませんし,実際のところ何が原因となって「効果」が得られたか分からないからです。
- 「ツボを買ったら」宝くじが当たった!
- 「サプリを飲んだら」痩せた!
- 「広告を出したら」売り上げが上がった!
それらは本当に「そうしたから」,効果があったのでしょうか?純粋にそれによる効果なのでしょうか? それとも何か他に重要な要素(交絡因子)があったのでしょうか?
情報が開示されなければ,それは誰にもわかりません。
比較対照があって初めて,効果を判定できる
一方,
【B】をやっても「効果」はなかったが,
【A】をやったら「効果」があった!
と言われた場合はどうでしょうか。これであれば「なるほど,確かに【A】は【B】と 比べたら何らか〔効果〕があるのかもしれない」となります。
つまり
なのです。
実際の〈比較対照〉の例
実際,医学の世界では,しばしば下記の比較を行います。
- 新薬投与群〔A〕 VS 従来薬投与群〔B〕の比較
- 新薬投与群〔A〕 VS 偽薬(プラセボ)投与群〔B〕の比較
薬に限らず,サプリメントやプロテインなども同様です。
また他にも心理学や行動経済学の実験,またビジネスの現場などでは,下記のようなパターンでも比較をおこないます。
- 新手法〔A〕と従来型手法〔B〕の比較
- 広告パターン〔A〕と広告パターン〔B〕の比較
ランダム化比較試験 RCT は,もはや医学のみならずあらゆる分野でのエビデンス創出のゴールドスタンダードとなっています。
コラム:怪しい宣伝は〈対照群〉を示さない
③ 明確な評価項目〈エンドポイント〉が設定されている
RCT の満たすべき重要な条件の3つ目は,
ということです。ここでは「試験前」から,という部分が非常に重要なポイントです。
エンドポイントとは?
エンドポイントとは,試験中で特に〈観測したい項目〉ないし〈観測したいイベント〉のことです。日本語訳としては評価項目という言葉があてられます。
たとえば,糖尿病薬の臨床試験であれば,〈血糖値の低下〉や〈心血管イベントの発症割合〉といったものがよくエンドポイントに据えられます。
これらは言ってしまえば「示したい《効果》をみる指標そのもの」であり,単にアウトカム(outcome)と言うこともあります。
- |エンドポイントの語源
- なぜ観測する主要なイベントのことを〈エンドポイント〉と呼ぶかというと,原則として試験参加者は〈主要エンドポイント〉にあたるイベントを起こしたタイミングで追跡終了となるからです。追跡 “終了ポイント” なので〈エンドポイント〉というわけです。
試験開始前に明記することが重要
こうした〈エンドポイント〉すなわち〈評価項目〉は試験開始前に必ずプロトコルの中に明記して提出しておくことが求められます。
原則,試験途中や試験終了後のデータ解析中に〈評価項目〉をすり替えることは許されません。
それを許すと,後出しジャンケン的なデータ解析が自由にできてしまい,いろいろとこねくり回して「統計的有意」となったデータだけを発表してしまう研究者が現れるからです(=p-hacking)。これを許してしまっては,解析結果の信憑性が大きく失われてしまいます。
そうしたバイアスのリスクを構造的に防ぐため,RCT では
- プロトコルや解析手法を事前に提出すること
- そしてそれを遵守して変更しないこと
が重視されています。
こうした手続きによって,RCT の結果は信頼性が高いものとされているわけです。
- |とはいえ……?
- しかし実際には残念ながら,こうした後出しジャンケン解析は横行しています。プロトコルの事前提出とそれを遵守した解析は RCT において “重視” はされているのですが,”罰則規定を伴う義務” というわけではありません。読者がリテラシーを高めて見抜かなければならない批判的吟味ポイントの1つであると言えます。
医学研究でのエンドポイント設定
医学研究におけるエンドポイントの具体例として,ここでは新しい抗がん剤を従来型の抗がん剤と比較する場面を取り上げてみます。
基本的に医学研究,特にがん研究で重要視される「効果」はまさに「生存期間の延長」ですから,抗がん剤の RCT でのエンドポイントはそれに類するものに設定するのがゴールドスタンダードです。
具体的には以下の項目がエンドポイントとして据えられます。
- 全生存期間 OS
- 無増悪生存期間 PFS
- 腫瘍のサイズ
またこの時,同時に医学的に重要な情報である「有害事象の発生率」などについても併せて解析を行うことが一般的です。「有効性」と「安全性」それぞれについて効果判定を行うわけですね。
ビジネス領域でのエンドポイント設定
もう1つの例として,ビジネスの世界での RCT を考えてみましょう。ビジネス界では RCT とは呼ばず ABテスト と呼称することも多い様ですが,本質的に同一のものです。
例えば A広告と B広告の〈効果〉を比較したい場合に,その〈評価項目 endpoint〉としては,以下のようなものが想定されるでしょう。
- 最終的な購買率
- 最終的な収益
尚この時,エンドポイントに「クリック率」だとか「アンケート調査で良い評価をつけてくれる率」などを設定しても,本質的には意味がありません。
例えば,破廉恥なお姉さん👙の画像を広告に入れておくと「クリック率」は高くなるかもしれませんが,「商品購入に至るか」は別問題です。
実際に「購買率」や「収益」も有意に高くなっていればその様な広告を採用し続けるべきですが,クリックするだけの人が多くて実際の購買に繋がっていないのであれば,採用すべきではありません。
広告としては,最終的に顧客の商品購入に繋がってなければ意味がないからです。
その評価項目は本質的か?
この様に,エンドポイントについては,
という点が,データを解釈する上で重要な観点になります。
先述した抗がん剤の試験であれば,最も「本質的意味」のあるエンドポイントは〈生存期間の延長〉です。
騙されてしまいがちですが,〈腫瘍のサイズ〉そのもののコントロールだけでは適切な指標にならないことがあります。たとえば腫瘍のサイズが小さくなっても寿命が縮まるのでは意味がないからです。そして実際にそうした可能性はあり得ます(腫瘍にも “効く” が,人体もボロボロにしてしまう “強い” 薬剤など)。
これらの内容は別の記事で非常に詳細に扱っていますので,興味がある方はそちらの記事を御参照ください。
この記事は医療関係者の方向けです 製薬会社さんが配る薬剤パンフレットを見ると,立派なジャーナルに載った 立派な RCT の結果が必ず載っています。そしていつも「いい感じにまとまった図表」がバンと貼ってあり,大変目を引きます。 どうやら統[…]
④ 盲検化が望ましい
ランダム化比較試験が満たすべき条件,最後の1つは
です。とは言えこれは,ランダム化比較試験の「必須条件」ではありません。しかし RCT の結果の信頼性を高めるため,かなり必要性の高いプロセスであると言えます。
盲検化とは何か?
盲検化 maskingとは,文字通り「見えなくする」「分からなくする」という意味です。
端的に言えば,ある薬剤が被験者に投与される時,被験者自身が「自分が飲まされているのは新しい治療薬なのか対照薬なのか分からない」ようにするべき,ということです。
この状態を,被験者が〈盲検化されている〉blinded (masked) と表現します。
なぜこの様な処置が必要かというと,プラセボ効果やホーソン効果といった認知的バイアスの影響をなるべく排除するためです。
プロテインの比較試験
たとえばあるメーカーが,プロテイン A という肝煎り新商品を開発した状況を想定してみましょう。
- 100人の若年男性を対象
- A群50人,B群50人にランダムに割り付け
- どちらの群の男性も,毎日同程度の筋トレをする様に指示
- 行った筋トレの内容を報告する様に義務付け
しかしこのとき,盲検化が行われていないと,新プロテイン A 群に割り付けられた被験者は
新しいプロテインAを飲んでいるのだから,自分はきっとマッチョになれるに違いない!
と思いながら生活してしまいます。
この「認知」が影響を与え,もしプロテイン A に何の効果がなくともプラスの効果が出てしまう可能性があります。それが〈プラセボ効果〉と〈ホーソン効果〉の問題です。
プラセボ効果
プラセボ効果(偽薬効果)とは,
本当は何の効果もない薬であっても ── 薬の形状をした砂糖であっても── 薬だと思って飲めば,飲むだけで一定程度 “効いて”してしまう
という現象のことです。
医学界では昔からこの〈プラセボ効果〉の存在が知られていました。
薬理学的には絶対に効くはずのない薬(たとえば砂糖の塊など)であっても,本人が効くと信じて内服すれば,実際に一定程度効いてしまうことがあるのです。人の心と身体の強い結びつきを実感させられますが,まさに「病は気から」を具体化した様な現象です(▼左)。
ホーソン効果
一方〈ホーソン効果〉とは,端的に言えば
ということによる〈効果〉です(▼右)。
たとえば先述の プロテインの RCT の場合,「自分が飲んでいるのは新作プロテインの A 群だ!」と分かっていたら,
その人たちは
せっかく良い方の割り付けになったのだから,これを機に食生活も睡眠習慣も改善しちゃおう!
など他の部分でも必要以上に頑張ってしまうかもしれません(これは新薬群側でない人にも生じ得ます)。
こうした心理的影響によって〈差〉が出てしまうと結果の解釈が難しくなってしまいますから,
ということが重要になります。
- |広告の RCT は盲検化が簡単
- 余談ですが,ビジネス界で行われる広告などの ABテスト(RCT)では,被験者(消費者)は自分たちが 比較試験 にかけられていること自体,自覚しないことも多いと思われます。少なくとも単盲検は簡単に達成できるわけです。例えば広告Aと広告Bの比較でも,消費者にはどちらかしか送付されてこないので,まさか「この広告にAパターンとBパターンがあって,自分がランダムにBパターンに割り付けられているのだ」とは想像すらしないでしょう。医学と違ってあまり倫理的に問題になる場面が少ないのが,こうした ABテストの手軽で良い所だと思います。
コラム:最終的に効くなら良いじゃん?
⑤ 二重盲検がさらに望ましい
〈盲検化〉について,もう少し掘り下げたいと思います。ランダム化比較試験が満たすべき条件,最後の1つは
と述べ,その理由としてここまでに〈プラセボ効果〉と〈ホーソン効果〉について解説しました。しかしより厳密には,
というのが正確です。つまり,被験者のみならず
だということです。
多重に盲検化することの意味
再度,先ほどのプロテインの例で実際に考えてみましょう。
- 100人の若年男性を対象
- A群50人,B群50人にランダムに割り付け
- どちらの群の男性も,毎日同程度の筋トレをする様に指示
- 行った筋トレの内容を報告する様に義務付け
どちらの群の男性も,毎日同程度の筋トレをする様に指示し,行った筋トレの内容を報告する様に義務付けています。
この試験での〈評価項目〉は,6ヶ月経過時点での「筋肉量の増加(kg)」とし,被験者には 2ヶ月ごとにスタッフのいる研究部門で体重などの検査を受ける様にしてもらいました。ここまではいいでしょう。
しかしこの時,2ヶ月ごとの体重検査を行うのも,6ヶ月経過時点での「結果」を集めて報告するのも,全てこのメーカーの商品開発に携わるスタッフであったとします。
その上で,被験者がそれぞれ A 群に割り付けされたのか B 群に割り付けされたのか,全てそのスタッフに筒抜けだったらどうでしょうか?
その人物は開発メンバーですから,今回の研究で A 群の方が効果があることを示したいはずです。そんなスタッフが B 群で「非常に良い」経過を辿っている人を見つけてしまったら?
あ〜でもこの人,途中で筋トレメニューを報告していないなあ?🤔
などと適当な理由をつけ,
『この人は解析に含めるには不適格』として処理しておこう😌
といった恣意的なデータ選択が可能になってしまうのです。
これは極端な例ですが,こうした「微調整」が1つの研究で何個も何個も行われてしまうと,(本当は効果がなくても)統計学的に有意な差が生まれてしまう可能性があります。
これでは RCT の意味がありません。
せっかくスタートラインを均等な「比較可能集団」にしていたのに,データ解析の前で「作為的な選択」が入ってしまっているからです。そのような試験では本当の効果が不透明になってしまうため,解析時間もお金も無駄になってしまいます。
恣意的な評価を許してはならない
こうしたバイアスを含んだデータ解析を行わせないためにも,被験者のみならず以下全員「割り付け結果」に対して〈盲検化〉されるべきです。
- 「試験参加者(患者など)」
- 「現場で介入する者(医師など)」
- 「結果を評価する人」
- 「データを解析する人」
これを行わなければ,計測結果に主観や願望が入ってしまうからです。いずれも客観的評価やデータの妥当性を損なうものです。
また,評価者が割り付け結果について盲検化されていなかった場合,それが態度に出てしまい,被験者のモチベーションに影響を与えてしまうこともあり得ます。
A 群に割り振られた人の成績が良くなってきたときには
お!効果出てますね!きっとまだどんどん良くなりますよ!頑張ってください!💪💪
とついつい励ましてしまうのに対し,B 群に割り振られた人には
あ〜,効果出てますね,はいはい,ま,引き続き頑張ってくださいよ🙄
と露骨に態度を変化させてしまうスタッフがいるかもしれません。さすがにここまで露骨でないにしても,こうした態度の変化は,どこかで被験者に通じてしまうものです。
最初は被験者のみ〈盲検化〉されていたとしても,そうした評価者の態度から被験者が割付結果を察してしまえば,先ほどの〈ホーソン効果〉が生じてしまうかもしれません。
特に A か B かどちらかを明確に支持する立場の人間が研究に関わる場合,こうしたバイアスのリスクが極めて高くなるため,非常に注意が必要です(※スポンサーバイアス)。
こうした問題を全て排除するには,現場の誰もが「被験者がどちらに割り付けられたか分からない」という状況を作り出すことが重要です。
多重の盲検化がデータをより客観的にする
この様にして研究に携わるものを順に〈盲検化〉していくと,概ね以下の順になっていきます。
- オープン:全員に筒抜け
- 単盲検:被験者のみの盲検化
- 二重盲検:被験者+現場の介入者(医師など)を盲検化
- 三重盲検:被験者+現場の介入者+イベントの評価者を盲検化
- 四重盲検:データ解析者まで含め全員盲検化
- 補足
- 通例この順ですが,二重盲検以上の試験では,実際に誰と誰を盲検化したのかは試験デザインによって異なることがあり,必ず確認が必要です。また,三重盲検や四重盲検という言葉はなぜか流行しておらず,論文中で二重盲検 double-blind と自称しているものの中に,二重 double 〜 三重 triple ~ 四重quadruple までの試験が混在している印象があります。
薬事承認などをかけたランダム化比較試験(=第 III 相試験)では,一般に「二重盲検」,ダブルブラインド試験 double blinded study 以上の盲検化が必要とされています(▼)。
一見カオスになりそうですが,IDなどのナンバリングで紐付けをしておき,あとでくっつけて解析することは十分に可能です(その分コストが掛かる)。
であり,とにかくバイアスが入らないようにする工夫が必要とされるのです。
あらゆる手段を講じて「客観性を担保する」ことが,エビデンスとしての価値を高めることになります。
- |物理的に盲検化できないデザインも
-
ただし,盲検化がどうしても難しい研究デザインというものも実在します。たとえば「心不全や脳卒中の予防のために,降圧薬は『起床時に』飲んだほうがいいか『寝る前に』飲んだほうがいいか?」という疑問を解決するための RCT がそれです。被験者は当然「朝内服群」と「夜内服群」に分けられることになりますが,どうしたって被験者は《自分がどちらの群か》は自覚してしまいます。実際に自分で朝か夜かに内服するわけですから盲検化が難しいわけです。なおこうしたケースでも,「脳卒中」や「心不全」というイベントを判断する〈評価者〉には割付け結果を盲検化することができます。その様に,可能な部分への盲検化を重ねることで,少しでも客観性を高めんとする姿勢が大切なのです。ちなみにこの試験では眠前内服群が有意に心血管イベントを減らしました(the Hygia Chronotherapy Trial)。
── Eur Heart J
. 2020 Dec 21;41(48):4565-4576.
まとめ:RCT の要件とは?
- ランダム化されている
- 比較対照(control群)がある
- 明確なエンドポイントがある
- (可能な限り多重の)盲検化が望ましい
今回は以上です。
引き続き RCT の長所や欠点について掘り下げた記事もチェックしていただければ幸いです。
|この記事では RCT の長所 について解説します。 RCT の長所 前回の記事で,ランダム化比較試験 RCT の満たすべき条件として,以下の4つを挙げました。 ランダム化されている 比較対照(control群)がある 明確[…]
前回の記事では,RCTの特長についてまとめました(▼)。 バイアスを排除する力が強い 交絡因子を排除する力が強い 前向き研究であり直接〈因果関係〉を〈検証〉できる [sitecard subtitle=前回の記事 url=/stat[…]