この記事では 「RCT の定義」「RCTであるための要件」 について掘り下げて解説しています(▼)。
- ランダム化されている
- 比較対照(control群)がある
- 明確な評価項目(アウトカム/エンドポイント)がある
- 盲検化が望ましい
RCT とは何か
ランダム化比較試験とは
です。
「randomized」「controlled」trial という名称のまんまですね。
単に
Aをやったら『効果』があった!
というのではなく,
ランダムに A か B かに割り振ったら,A 群の方が B 群と比べて『効果』があった! その差は〈統計的に有意〉だった!
ということで科学的に説得力のある証明ができる手法です。
構造的にバイアスや交絡因子を排除する力が強いので,他の研究方式と比べても信頼性が高く,エビデンスの王様とされています(▼)。

ランダム化比較試験が満たすべき条件
ランダム化比較試験の具体的な流れは,ざっくり以下のようになります。
とある臨床試験(RCT)の研究手順
- 想定しうる全ての対象者(母集団)から被験者(標本)を抽出
- ランダムに「介入群;サプリ群」と「対照群;偽薬群」に割り付けて
- それぞれ XX 年間追跡
- 両者でイベントの発症率(アウトカム)に差があるか集計
- その差が【統計的に有意】か検討して
- 有意な差があった時に「この介入には意味がある!」と喜ぶ
〈統計学的に有意な差〉とは?今やどんな研究論文でも,あるいはビジネスシーンでも,必ず目にする〈統計学的に有意〉 significant という言葉。「統計学的に有意」ってどういう意味?と人に聞かれた時,皆様はその意味を[…]
このような過程において,それが正しく〈ランダム化比較試験〉たるために,最低限,以下の条件を満たしていることが重要になります。
- ランダム化されている
- 比較対照(control群)がある
- 明確な評価項目(アウトカム/エンドポイント)がある
- 盲検化が望ましい
順を追ってみていきましょう。
① 割り付けがランダム化されている
1つ目の条件は
ということです。
この〈ランダム割り付け〉を行うことによって,いろいろな背景を持つ人々を両群均等に割り振ることができます。
個人個人を均等には比較できない
人間を対象にしている以上,試験においてすべての対象者を同一視することはできません。
同じ介入を行っても「個体差」によって効果がまちまちになってしまうのは必然です。
これは全員がクローン人間でない限り,避けられない現象です。
しかし,たくさんの人数を用意して,それをランダムに A 群と B 群に割り振ることによって,
という状況を作り出すことができます。
これにより,A群とB群のグループレベルでの比較を行って,どちらの群に割り振った方がリスクが低いのか?という検証が可能になります。
「全体として釣り合いが取れている」とは?
この点についてもう少し詳しく考えてみましょう。
「とある糖尿病薬 A が,長期的に本当に心筋梗塞を予防するのか?」という臨床試験を行う場合を検討してみます。
この時,新薬 A 群と従来薬 B 群に患者をランダムに割り付けて,心筋梗塞の発症割合を比較するガチンコバトルを行います。
ランダム割り付けを行った結果,年齢が高い人が A 群に偏ってしまいました。これでは A 群にとっては「不利」な割り付け結果であると言えますよ。
しかし一方で,糖尿病罹病期間が長い人はどちらかというと B 群に多く割り振られていました。この点に関しては,A 群にとっては「有利」な割付け結果です。
十分なサンプルサイズの RCT では,この様に「あらゆる”有利不利に影響する因子”」が,そのうちのいくつかは A 群有利,いくつかは A 群不利となりつつも,全体としては均一に割り振られることになります(理論上)。
結果として,A群 vs B群 という大枠で見た時には,フェアなルールでのガチンコ比較になる,ということです。
各群が不均等ではフェアな比較ができない
逆に〈ランダム割り付け〉が徹底されていない状況での介入試験では,恣意的に介入群と対照群を分けることができてしまうため問題があります。
商品のメーカーからしたら「効果が劇的」というデータを出したいので,あらかじめ介入群 A の結果が B よりも有利になるように仕込んでおくことも可能です。
その様にバイアスされた試験の結果を鵜呑みにするわけにはいきません。
しかしそうした懸念を構造的に排除してしまえるのが〈ランダム化〉の強みであると言えます。
② 比較対照(control群)がある
RCTの重要な前提条件,2つ目は
ということです。
比較対照(control)がないと何も言えない
例えば私たちが,【A】による「効果」を調べたいとします。
しかしその時,ある数人において
【A】をおこなったら 「効果」がありました!
などと主張しても「ふーん,で?」 としか思ってもらえません。
別に【A】をおこなっていなくても「効果」はあったかもしれませんし,実際のところ何が原因となって「効果」が得られたか分からないからです。
- 「ツボを買ったら」宝くじが当たった!
- 「サプリを飲んだら」痩せた!
- 「広告を出したら」売り上げが上がった!
それらは本当に「そうしたから」,効果があったのでしょうか?純粋にそれによる効果なのでしょうか?
それとも何か他に重要な要素(交絡因子)があったのでしょうか?
誰にもわかりません。
比較対照があって初めて,効果を判定できる
一方,
【B】をやっても「効果」はなかったが
【A】をやったら「効果」があった!
と言われた場合はどうでしょうか。
なるほど,確かに【A】は【B】と 比べたら何らか「効果」があるかもしれない,となります。
です。
実際の〈比較対照〉の例
実際,医学の世界では,しばしば下記の比較を行います。
- 新薬投与群【A】と,従来薬投与群【B】の比較。
- 新薬投与群【A】と,偽薬(プラセボ)投与群【B】の比較。
薬に限らず,サプリメントやプロテインなども同様です。
また他にも心理学や行動経済学の実験,またビジネスの現場などでは,下記の比較をおこないます。
- 介入群【A】と 何もしない群【B】の比較。
- 新手法【A】と従来型手法【B】の比較。
- 広告パターン【A】と広告パターン【B】の,対費用効果の比較。
ランダム化比較試験 RCT は,もはや医学のみならずあらゆる分野でのエビデンス創出のゴールデンスタンダードとなっています。
コラム:怪しい宣伝は〈対照群〉を示さない





③ 明確な評価項目〈エンドポイント〉が設定されている
RCT の満たすべき重要な条件の3つ目は,
ということです。
試験前から,という部分が重要なポイントになります。
順に説明していきます。
エンドポイントとは?
エンドポイントとは,試験中で特に〈観測したい項目〉ないし〈観測したいイベント〉のことです。
そのためエンドポイントの日本語訳としては,評価項目という言葉があてられます。
たとえば,糖尿病薬の臨床試験であれば,〈血糖値の低下〉や〈心血管イベントの発症割合〉といった項目になります。
これらは言ってしまえば「示したい《効果》をみる指標そのもの」であり,単にアウトカム(outcome)と言うこともあります。
- |エンドポイントの語源
- なぜ観測する主要なイベントのことを〈エンドポイント〉と呼ぶかというと,原則として試験参加者は〈主要エンドポイント〉にあたるイベントを起こしたタイミングで追跡終了となるからです。追跡 “終了ポイント” なので〈エンドポイント〉というわけです。
試験開始前に明記することが重要
こうした〈エンドポイント〉すなわち〈評価項目〉は試験開始前に必ずプロトコルの中に明記して提出しておくことが求められます。
原則,試験途中や試験終了後のデータ解析中に〈評価項目〉をすり替えることは許されません。
それを許すと,後出しジャンケン的なデータ解析が自由にできてしまい,いろいろとこねくり回して「統計的有意」となったデータだけを発表してしまう研究者が現れるからです。
それを許してしまっては,解析結果の信憑性が大きく失われてしまいます。
そうしたバイアスのリスクを構造的に防ぐため,RCT では
- プロトコルや解析手法を事前に提出すること
- そしてそれを遵守して変更しないこと
が重視されています。
こうした手続きによって,RCT の結果は信頼性が高いものとされているわけです。
- |とはいえ……?
- しかし実際には残念ながら,こうした後出しジャンケン解析は横行しています。プロトコルの事前提出とそれを遵守した解析は RCT において “重視” はされているのですが,”罰則規定を伴う義務” ではありません。読者がリテラシーを高めて見抜かなければならない批判的吟味ポイントの1つであると言えます。
医学研究でのエンドポイント設定
医学研究におけるエンドポイントの具体例を挙げてみましょう。
新しい抗がん剤を従来型の抗がん剤と比較する場面を想定します。
基本的に医学研究,特にがん研究で重要視される「効果」はまさに「生存期間の延長」ですから,抗がん剤の RCT でのエンドポイントはそれに類するものに設定するのがゴールドスタンダードです。
具体的には,〈全生存期間 OS〉などがエンドポイントとして据えられます。
またこの時,同時に医学的に重要な情報である「有害事象の発生率」などについても併せて解析を行うことが一般的です。
「有効性」と「安全性」それぞれについて効果判定を行うわけですね。
ビジネス領域でのエンドポイント設定
もう1つの例として,ビジネスの世界での RCT を考えてみましょう。
例えば A広告と B広告の〈効果〉を比較したい場合に,その〈評価項目 endpoint〉には何を据えるべきでしょうか。
当然それは,「最終的な購買率」や「最終的な収益」であるべきです。
この時,エンドポイントに「クリック率」だとか「アンケート調査で良い評価をつけてくれる率」などを設定しても,本質的には意味がありません。
例えば,破廉恥なお姉さん👙の画像を広告に入れておくと「クリック率」は高くなるかもしれませんが,「商品購入に至るか」は別問題です。
実際に「購買率」や「収益」も有意に高くなっていればその様な広告を採用し続けるべきですが,クリックするだけの人が多くて実際の購買に繋がっていないのであれば,採用すべきではありません。
広告としては,最終的に顧客の商品購入に繋がってなければ意味がない。
ですから「クリック率」はエンドポイントとしては不適切というわけです。
その評価項目は本質的か?
この様に,エンドポイントについては,
という点が,データを解釈する上で重要な観点になります。
抗がん剤の試験であれば,本質的に意味のあるエンドポイントは〈生存期間の延長〉です。
騙されてしまいがちですが,〈腫瘍のサイズ〉などをエンドポイントにしても,本質的に意味があるとは言えません。なぜなら,腫瘍のサイズが小さくなっても寿命が縮まるのでは意味がないからです。そして実際にそうした可能性はあり得ます(腫瘍にも “効く” が,人体もボロボロにしてしまう “強い” 薬剤など)。
これらの内容は別の記事で非常に詳細に扱っていますので,興味がある方はそちらの記事を御参照ください。
この記事は医療者・研究者の方向けです臨床試験の論文を読む時,皆様は【エンドポイント】についてどの程度気にしておられるでしょうか?御手元に,製薬会社の薬剤パンフレットがある状況を想像してみてください。そこに記載してあるのは,立[…]
④ 盲検化が望ましい
ランダム化比較試験が満たすべき条件,最後の1つは
です。
とは言え実際にはこれは,厳密にランダム化比較試験の「必要条件」というわけではありません。
しかし RCT の結果の信頼性を高めるため,かなり必要性の高いプロセスであると言えます。
盲検化とは何か?
盲検化とは,文字通り「見えなくする」「分からなくする」という意味です。
端的に言えば,ある薬剤が被験者に投与される時,被験者自身が
「自分が飲まされているのは新しい治療薬なのか対照薬なのか分からない」
ようにするべき,ということです。
この状態を,被験者が〈盲検化されている〉blinded (masked) と表現します。
なぜこの様な処置が必要かというと,プラセボ効果やホーソン効果が影響してしまうことを防ぐためです。
プラセボ効果
医学界では昔から〈プラセボ効果〉というものが知られています。
〈プラセボ〉とは日本語で〈偽薬〉,ニセモノの薬ということです。
つまりプラセボ効果とは,
のことです。
薬理学的には絶対に効くはずのない薬であっても,本人が効くと信じて内服すれば,実際に一定程度効いてしまうのです。
人の心と身体の強い結びつきを実感させられます。まさに「病は気から」を具体化した様な現象です(▼)。

プロテインの比較試験
たとえばあるメーカーが,プロテイン A という肝煎り新商品を開発した状況を想定してみましょう。
を組んだとします。
100人の若年男性を集めて,A群50人,B群50人にランダムに割り付けました。
どちらの群の男性も,毎日同程度の筋トレをする様に指示し,行った筋トレの内容を報告する様に義務付けたとします。
しかしこのとき,盲検化が行われていないと,新プロテイン A 群に割り付けられた被験者は
新しいプロテインAを飲んでいるのだから,自分はきっとマッチョになれるに違いない!
と思いながら生活してしまいます。
そうなると先述した〈プラセボ効果〉によって,実際に「従来型のプロテインB」を飲む人たちと比べ,プラスの効果が出てしまう可能性があるのです。
そして効果をもたらしてしまうのは,それだけではありません。
〈プラセボ効果〉と同様,盲検化されていないときに問題となるのが〈ホーソン効果〉です。
ホーソン効果
ホーソン効果とは,端的に言えば
ということによる〈効果〉です(▼)。

たとえば先述の プロテインの RCT の場合,「自分が飲んでいるのは新作プロテインの A 群だ!」と分かっていたら,
その人たちは
せっかく選ばれたのだから食生活も筋トレに合うようにしよう!
などと,他の部分でも必要以上に頑張ってしまうかもしれません。
逆ホーソン効果も
逆にもし被験者が「自分はプラセボ(偽薬)群に割り振られた」だとか「従来薬群に割り振られた」と分かっていたら,その様な努力は行わないことでしょう。
むしろやる気を失い,やさぐれてテキトーになってしまうかもしれません。
いわば〈逆ホーソン効果〉です。
これらの影響によって〈差〉が出てしまうと結果の解釈が難しくなってしまいますから,
ということが重要です。
- |広告の RCT は盲検化が簡単
- 余談ですが,ビジネス界で行われる広告などの ABテスト(RCT)では,被験者(消費者)は自分たちが 比較試験 にかけられていること自体,自覚しないことも多いと思われます。少なくとも単盲検は簡単に達成できるわけです。例えば広告Aと広告Bの比較でも,消費者にはどちらかしか送付されてこないので,まさか「この広告にAパターンとBパターンがあって,自分がランダムにBパターンに割り付けられているのだ」とは想像すらしないでしょう。医学と違ってあまり倫理的に問題になる場面が少ないのが,こうした ABテストの手軽で良い所だと思います。
コラム:最終的に効くなら良いじゃん?





⑤ 二重盲検がさらに望ましい
〈盲検化〉について,もう少し掘り下げたいと思います。
ランダム化比較試験が満たすべき条件,最後の1つは
と述べ,その理由としてここまでに〈プラセボ効果〉と〈ホーソン効果〉について解説しました。
しかし実際には,
というのが正しいです。
つまり,被験者のみならず
だということです。
多重に盲検化することの意味
再度,先ほどのプロテインの例で実際に考えてみましょう。
- 100人の若年男性を集めて,新商品プロテイン A 群50人,従来型プロテインB群50人にランダム割り付けした試験
です。
どちらの群の男性も,毎日同程度の筋トレをする様に指示し,行った筋トレの内容を報告する様に義務付けています。
この試験での〈評価項目〉は,6ヶ月経過時点での「筋肉量の増加(kg)」とし,被験者には 2ヶ月ごとにスタッフのいる研究部門で体重などの検査を受ける様にしてもらいました。
ここまではいいでしょう。
しかしこの時,2ヶ月ごとの体重検査を行うのも,6ヶ月経過時点での「結果」を集めて報告するのも,全てこのメーカーの商品開発に携わるスタッフであったとします。
その上で,被験者がそれぞれ A 群に割り付けされたのか B 群に割り付けされたのか,全てそのスタッフに筒抜けだったらどうでしょうか?
その人物は開発メンバーですから,今回の研究で A 群の方が効果があることを示したいはずです。
しかし B 群に割り付けられた数人の結果が非常に良さそう,という経過を見つけてしまったら?
あ〜でもこの人,途中で筋トレメニューを報告していないなあ?🤔
などと適当な理由をつけ,
『この人は解析に含めるには不適格』として処理しておこう😌
といった恣意的なデータ選択が可能になってしまうのです。
これは極端な例ですが,こうした「微調整」が1つの研究で何個も何個も行われてしまうと,(本当は効果がなくても)統計学的に有意な差が生まれてしまう可能性があります。
これでは RCT の意味がありません。
せっかく被験者選択の部分がランダム化されて均等になっていても,最後の最後,データ解析の直前で「作為的な選択」が入ってしまっているからです。
これでは本当の効果が不透明になってしまい,100人も集めて解析した時間もお金も無駄というものです。
恣意的な評価を許してはならない
こうしたバイアスを含んだデータ解析を行わせないためにも,
被験者のみならず以下全員「割り付け結果」に対して〈盲検化〉されるべきです。
- 「試験参加者(患者など)」
- 「現場で介入する者(医師など)」
- 「結果を評価する人」
- 「データを解析する人」
これを行わなければ,計測結果に主観や願望が入ってしまうからです。いずれも客観的評価やデータの妥当性を損なうものです。
また,評価者が割り付け結果について盲検化されていなかった場合,それが態度に出てしまい,被験者のモチベーションに影響を与えてしまうこともあり得ます。
A 群に割り振られた人の成績が良くなってきたときには
お!効果出てますね!きっとまだどんどん良くなりますよ!頑張ってください!💪💪
とついつい励ましてしまうのに対して
B 群に割り振られた人には
あ〜,効果出てますね,はいはい,ま,引き続き頑張ってくださいよ🙄
と露骨に態度を変化させてしまうスタッフがいるかもしれません。
ここまで露骨でないにしても,こうした態度の変化は,どこかで被験者に通じてしまうかもしれません。
最初は被験者のみ〈盲検化〉されていたとしても,そうした評価者の態度から被験者が割付結果を察してしまえば,先ほどの〈ホーソン効果〉や〈逆ホーソン効果〉が生じてしまうかもしれません。
特に A か B かどちらかを明確に支持する立場の人間が研究に関わる場合,こうしたバイアスのリスクが極めて高くなるため,非常に注意が必要です(※スポンサーバイアス)。
とどのつまり,現場の誰もが「被験者がどちらに割り付けられたか分からない」という状況
を作り出すことが重要なのです。
多重の盲検化がデータをより客観的にする
この様にして研究に携わるものを順に〈盲検化〉していくと,概ね以下の順になっていきます。
- オープン:全員に筒抜け
- 単盲検:被験者のみの盲検化
- 二重盲検:被験者+現場の介入者(医師など)を盲検化
- 三重盲検:被験者+現場の介入者+イベントの評価者を盲検化
- 四重盲検:データ解析者まで含め全員盲検化
- 補足
- 通例この順ですが,二重盲検以上の試験では,実際に誰と誰を盲検化したのかは試験デザインによって異なることがあり,必ず確認が必要です。また,三重盲検や四重盲検という言葉はなぜか流行しておらず,論文中で二重盲検 double-blind と自称しているものの中に,二重 double 〜 三重 triple ~ 四重quadruple までの試験が混在している印象があります。
薬事承認などをかけたランダム化比較試験(=第 III 相試験)では,一般に「二重盲検」,ダブルブラインド試験 double blinded study 以上の盲検化が必要とされています(▼)。
一見カオスになりそうですが,IDなどのナンバリングで紐付けをしておき,あとでくっつけて解析することは十分に可能です(コストは掛かりますが)。
とにかくバイアスが入らないようにする工夫が必要とされるのです。
あらゆる手段を講じて「客観性を担保する」ことが,エビデンスとしての価値を高めることになります。
- |物理的に盲検化できないデザインも
- ただし,盲検化がどうしても難しい研究デザインというものも実在します。たとえば「心不全や脳卒中の予防のために,降圧薬は『起床時に』飲んだほうがいいか『寝る前に』飲んだほうがいいか?」という疑問を解決するための RCT がそれです。被験者は当然「朝内服群」と「夜内服群」に分けられることになりますが,どうしたって被験者は《自分がどちらの群か》は自覚してしまいます。実際に自分で朝か夜かに内服するわけですから盲検化しようがないわけです。この試験では被験者全員が実薬を飲んでいるので,プラセボ効果やホーソン効果の影響が比較的出にくかったものとは思われますが,試験結果は多少割り引いて考えなければなりません。なおこうしたケースでも,「脳卒中」や「心不全」というイベントを判断する〈評価者〉には割付け結果を盲検化することができます。その様に,可能な部分への盲検化を重ねることで,少しでも客観性を高めんとする姿勢が大切なのです。ちなみにこの試験では眠前内服群が有意に心血管イベントを減らしました(the Hygia Chronotherapy Trial)。
── Eur Heart J
. 2020 Dec 21;41(48):4565-4576.
まとめ:RCT の要件とは?
ここまでの内容をまとめます。
- ランダム化されている
- 比較対照(control群)がある
- 明確なエンドポイントがある
- (可能な限り多重の)盲検化が望ましい
引き続き RCT の長所や欠点について掘り下げた記事がありますので,あわせてチェックしていただければ幸いです。
|この記事では RCT の長所 について解説します。RCT の長所前回の記事で,ランダム化比較試験 RCT の満たすべき条件として,以下の4つを挙げました。ランダム化されている比較対照(control群)がある明確[…]
前回の記事では,RCTの特長についてまとめました(▼)。バイアスを排除する力が強い交絡因子を排除する力が強い前向き研究であり直接〈因果関係〉を〈検証〉できる[sitecard subtitle=前回の記事 url=/stat[…]