【注意】ランダム化比較試験 RCT に必ずついてまわる5つの「限界」

前回の記事では，RCTの特長についてまとめました（▼）。

バイアスを排除する力が強い
交絡因子を排除する力が強い
前向き研究であり直接〈因果関係〉を〈検証〉できる

前回の記事

【解説】ランダム化比較試験 RCT ３つの長所

｜この記事では RCT の長所について解説します。 RCT の長所前回の記事で，ランダム化比較試験 RCT の満たすべき条件として，以下の4つを挙げました。ランダム化されている比較対照（control群）がある明確[…]

これらのために，ランダム化比較試験 RCT はエビデンスの王道とされています。

しかしそうは言っても，RCT も万能ではありません。以下のような「限界」があり，結果を鵜呑みにすべきでない場面が非常に多い，というのが実情です。

今回はそれら〈RCTの限界〉についてまとめてみたいと思います。

1 RCTの限界
2 まだまだある RCT の Limitation
- 2.1 設計時点から問題のあるケース
3 1つの RCT で結論はできない
- 3.1 システマティックレビュー & メタ解析
- 3.2 どんな論文も，読者のリテラシーは必須
4 まとめ

RCTの限界

RCT にゼッタイついて回る 5 つの限界

莫大なコストがかかる
資金源バイアス・実験効果により結果が誇張されやすい
サンプルサイズの影響が大きい
希少なものは相手にできない
ただ１つの仮説しか〈検証〉できない

順に見ていきましょう！

限界①：莫大なコストがかかる

これは文字通りのことで，説明不要かもしれません。

RCT を行うためには，以下のプロセス（▼）１つ１つにおいて，膨大な人的コストがかかります。検査や薬剤にかかる費用はもちろんのこと，膨大な人件費を要するわけです。

試験の周知
被検者の募集
それぞれの地域の担当者との連絡
治療者（医師）との連絡
薬剤やプラセボなどの準備
隠蔽性の保たれたランダム割付システムの構築
外部の評価機構への依頼

資金源は？

その膨大なコストがどこから調達されるのかと言えば，

製薬会社資本
公的資本（公費・グラントなど）

の 2 つに大別されます。製薬会社が莫大な資本を投じておこなう RCT の代表は，自社で開発した薬剤の第 III 相試験です（▼）。

そこで「承認」までこぎつけることができれば，一気にそれまでの投資を回収することができる「大勝負」の場面ということです。

逆に言えば「見込みの薄い」あるいは「採算の取れない」薬剤や，製薬会社にメリットのないような RCT には彼らの資本が投下されることなどありません。そういう領域においては，専ら公的資本を用いた RCT が（主に医師主導で）行われることになります。

─ ads ─

限界②：資金源バイアスや実験効果による誇張

そこで問題になるのが資金源バイアスです。

これは「製薬会社など営利団体資本の臨床試験は，そうでない臨床試験に比べて，当該団体の利益につながるような結果を出しやすい」というバイアスのことです。

先述した「莫大なコストがかかる」というところから容易に連想できることですが，多額コストをかけた肝入り試験の結果が

特に効果はなさそうでした！

では採算が合いません。

なんとしても〈有意差〉を出さなければ・・！

というモチベーションになってしまうのは，やむを得ない部分でもあります。

実際，あらゆる手練手管を使って「効果がある」という主張にこぎつけるような荒技が用いられてきました。詳細は別記事で解説しています。

完全に非営利でも・・

またこの問題は，スポンサーが営利団体である場合のみに限りません。

研究者や実施団体が非営利組織であったとしても，油断できません。なぜなら RCT 実施の際には，”この研究の価値”を証明したいがために，研究者らが「より大きな効果」を計測するよう努力してしまうものだからです。

また試験参加者の側も，観測者に「見られている」ことで普段以上に頑張ってしまう（＝ホーソン効果）という弊害もあります。

なにより RCT に参加するような人は「それだけ健康的な余力がある人」です。体力のない高齢者や，元気のない人，健康意識の低い人はそもそも RCT に参加しません（＝選択バイアス）。

こうした影響が総合されることで，

とかく RCT というものは「結果が強調されがち」な傾向となる

ことが知られています（これを〈実験効果〉と呼びます）。

この〈実験効果〉のために

RCT では非常に良好な成績を弾き出した薬剤や介入が，いざ現実世界で広く適応されると，想定していた程には効果を出さなかった

ということは少なくありません。

葬り去られる negative study

さらに，そもそも

効果が芳しくなかった研究は論文にされないことも多い

という出版バイアスの問題もあります。

公的資金を使った大規模研究などは，結果がどうであれ報告されることが多いのですが，特に企業主導などの RCT はそうもいきません。

プラセボとうまく差をつけられなかった第 II 〜 III 相試験などで「わざわざ悪かった結果を論文化して報告まではしない」ということはしばしばあります。そっと「なかったことにされる」ということです。あるいは仮に論文になったとしても，major 誌に投稿されず，注目度が低いままそっと闇に消えていくというパターンもあります。

いずれにしても，結果を出した RCT のウラには，実は『似た様な設計で行ったのに結果が出なかった RCT』がたくさん埋もれているかもしれないということです。

これは複数のRCTの結果を合わせて考える時（＝メタアナリシス），非常に大きな問題になってきます。特に小規模なRCTばかりを集めて解析したメタアナリシスは，報告バイアスの影響を受けている可能性がある，という点に注意が必要です（▼）。

システマティックレビューのプロセスや funnel plot を用いた検討である程度は対応可能だが限界も大きい

｜データベース登録が必須に？: なお，この問題を防ぐため，近年では RCT を施行する前に公的データベース（clinicaltrials.gov など）への登録が強く推奨されるようになってきています。逆にそうしたデータベースに登録していない場合，大手の医学誌は accept してくれない，という風潮です。これにより，結果が negative study だろうが positive study だろうが「RCTが行われた」という事実がきちんと蓄積されていき，いざメタ解析という時に「結果がよかった研究ばかりが統合される」という大きなバイアスの予防になるのではと期待されています。

限界③：サンプルサイズの影響が大きい

ランダム化比較試験 RCT の限界，３つ目として「サンプルサイズの影響が大きい」というものを取り上げます。

「サンプルサイズが必要十分か」は RCT をみる上で最重要な観点の1つ

です。必要十分、、、、というのがポイントです。サンプルサイズは大きすぎても小さすぎても弊害をきたすからです。

サンプルサイズは小さすぎても大きすぎても問題

サンプルサイズが小さすぎると，

結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
ランダム割付で，うまく重要な因子が均等にならないことが多い
再現性のない極端な結果が出やすい

といった問題があります。

また，サンプルサイズが無駄に大きすぎると，

単純に人的／金銭的リソースの無駄遣い
あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

といった問題があります。

合わせて読みたい

【解説】サンプルサイズ (n) の重要性｜ランダム化比較試験 RCT

この記事では，ランダム化比較試験 RCT におけるサンプルサイズ（n）の重要性についてまとめます。例によって，最初にこの記事のまとめを示します！この記事のまとめサンプルサイズは小さ過ぎても大き過ぎても問題 […]

小規模 RCT の結果は眉唾モノ

以上のような問題があるため，

サンプルサイズの小さい試験結果はかなり慎重に見る必要がある

と言えます。結果のバラツキの幅が大きすぎるのです。

たとえば，第 II 相試験などの小規模な RCT で〈二次評価項目〉に据えられたハードエンドポイントにおいて「すごく効く！」という結果が出ることがあります。しかし〈群間不均衡〉を補正して計算してみたり，実際により大規模な試験で検証し直されると，期待されたほどの効果とならないことはしばしばあります。

サンプルサイズが小さい試験の結果は鵜呑みにせず，眉唾だと思って読んだ方が無難だと言えるでしょう。

小規模 RCT は，出版バイアスの影響も受けやすいことが知られています。

サンプルサイズは大きければよいか？

では，サンプルサイズが大きい時はどうでしょうか。

当然ながら，大きなサンプルサイズを対象にして出た結果は，結果のブレ幅（＝偶然誤差）が小さくなります。そのため結果の信頼性は高くなります。

しかしサンプルサイズを極限まで大きくすれば，どんどん『誤差によるブレ幅』が小さくなるので，どこかで必ず〈統計学的な有意差〉が得られます。

これはただ『ブレ幅』が小さくなったから統計的には有意になった，というだけのことです。

エラーバーが小さくなることで重なりにくくなるからです

統計学的に〈有意〉だからといって「劇的に効く」という意味ではありません。

この場合はむしろ真逆で「実世界ではほとんど意味のない差」まで〈有意〉として検出してしまった，という可能性があります。

統計的に有意 ≠ 臨床的に有意

というのは非常に重要なポイントです。

そこで 「臨床的な有意差」を適度に検出するため必要十分、、、、なサンプルサイズを集めて研究デザインを行うことが求められるわけですが，実はこれがムチャクチャ難しいのです。

あらかじめよく計算して被験者を募る

実際に多くの大規模 RCT は，最初のデザイン時点で

このくらいの人数を集めれば統計学的な有意差が出せそうだな

というサンプルサイズが推算されています（パワー分析 power analysis ）。

不必要に大きなサンプルサイズを集めてもコストばかりかかって実利がないので，あらかじめ目安を設定しておくわけですね。

Power 分析にも限界がある

しかし〈パワー計算〉 power analysis の結果が見込み違いで，サンプルサイズが小さすぎると〈統計学的有意差〉が出ず，何も言えない結果になってしまう，ということも少なくありません。

既報のデータをもとに推算するだけなので，その既報と今回の RCT の setting が多少違うだけで計算は大きくズレてしまいます。

power analysis を行ったとしてもサンプルサイズが適切にならないことはよくあります。そしてサンプルサイズは小さすぎても「信頼性が低く，有意差も検出しにくい」という問題があり，大きすぎても「リソースの無駄だし意味のない差まで検出してしまう」という問題があるため，その結果の解釈には様々な前提知識が必要になります。

こうした限界をよく理解した上で RCT の結果を読まないと騙されてしまいますので，注意が必要です。

合わせて読みたい

【解説】サンプルサイズと検出力｜Power Analysis（検出力分析）とは？

この記事では，RCT を読む時の必須知識の1つ，〈検出力分析〉パワー分析；power analysis について解説します。最初に本項のまとめを示します（▼）パワー分析に関するポイントまとめパワー分析 ──〈統計学的[…]

限界④：希少なものは相手にできない

RCT についてまわる限界の 4つ目は，「希少なものを相手にできない」ということです。

前項でサンプルサイズの重要性を扱いましたが，その延長となる内容です。サンプルサイズが小さすぎると「信頼性が低く，有意差も検出しにくい」のですから，「稀な現象」とRCT の相性が悪いことは容易に想像がつくものと思います。

稀な難病では RCT が困難

例えば 100万人に 1人しか発症しない，稀な難病を想定してみます。それなりの規模の都市でも，数えるくらいしか罹患しない様な疾患です。

その難病に対して

ある薬A を投与すると，疾患の進行速度が遅くなって，生存期間が伸びる

という仮説を検証したいとします。

しかし，100万人に1人しか発症しない疾患では，十分な被験者数を集めるのは相当至難です。わずか 100 人規模の RCTを組むのでも，全国的なチームを作って相当苦労しながら募集しなければ進められません。

さらに，そのような稀な疾患では，一人一人の特性も極めて不均質（ヘテロ）になってしまいがちです。

また，生存期間などをエンドポイントにした RCT を行うには，せめて「発症年」を揃える必要があります。しかし RCT への参加基準に「発症2年以内の人」などといった縛りを加えると，さらに参加者を集めるのが困難になってしまいます。

しかし先述したように，サンプルサイズが集まらなければ統計学的に有意な差は出にくいものです。結果としてその〔薬A〕の有効性が本当にあるのか〈検証〉することは，非常に困難となってしまいます。

これが，難病の薬が開発されにくい理由の１つです。

単純に顧客＝患者が少ないので，薬を開発しても大きな利益が見込めず，製薬会社のモチベーションが上がらない，という経済的な問題もあります

｜補足：条件付き早期承認制度: こうした問題に対応するため，日本には〈条件付き早期承認制度〉といった「第 III 相試験なしでもある程度の効果がありそうなら実臨床に導入して良い」というアグレッシブな制度もあります。詳細は［別記事］

稀だが重篤な副作用も検出できない

また，RCT では滅多に起きないもののインパクトが大きい現象 ── たとえば重篤な副作用など ── も，起きる件数自体が少ないため，ほとんど統計的有意差を検出されることはありません。

そのため〈害〉の検出はどうしても第 III 相試験時点では不可能です。

実際にリアルワールドに出て膨大な人数に使われ始めると，大きな害が散発的に顕在化してくる，ということは少なくありません。

あらゆる新薬、、には常にそうした危険性があるため，臨床家の間では「新薬は5年寝かせろ」という格言もあるほどです。

｜ビジネス界のABテスト: 余談ですが，ビジネスの世界は RCT と非常に相性がよいことが知られています（ビジネス界では ABテストと呼ぶことが多いそうです）。それは，こうした「サンプルサイズ不足で差を検出しにくい」という点がクリアされやすいのがポイントかもしれません。

限界⑤：ただ1つの仮説しか〈検証〉できない

最後，RCT が抱える 5つめの限界は

１研究 → １仮説の原則

です。非常に誤解されがちなポイントですが，１つの試験できちんとした「手順」を踏んで立証できる仮説は，原則的に１つしかありません。

それこそが唯一無二の〈主要評価項目 Primary endpoint〉です。

唯一無二の〈主要評価項目〉

RCT というのは最初から最後まで，あくまで「最も検証したい仮説」である

〈主要評価項目〉primary endpoint で差が出るか？

に照準を合わせて進んでいくものです。

先述した power 分析も，この primary endpoint のイベントがどの程度起きるか？という推算にあわせて行います。その推算に基づき，αエラーやβエラーの許容範囲、、、、を決めた上で，試験に集める被験者の数を設計しているのです。

一方，他の〈評価項目〉に関してはサンプルサイズの照準を合わせていません。この時点で，すでにオマケ解析に過ぎないということです。

オマケの〈二次評価項目〉

しかし RCT は莫大なコストを使って行われます。ですから，コストをかけてせっかく得られた貴重な臨床データを Primary Endpoint の〈検証、、〉のみに用いるのはもったいない，と考えてしまうのはごく自然なことです。

そこで，他の仮説が〈提唱、、〉できそうな「傾向」がないかについても，ついでにちょこっと検討して見ましょう。── それが〈二次評価項目〉secondary endpoint です。

ですから〈二次評価項目〉でそれらしい、、、、、データが得られた時も，主張できることは多くありません。そもそもその RCT は〈二次評価項目〉で差が出る／出ないという仮説を〈検証〉するためにデザインされた試験ではないからです。

二次エンドポイントはあくまで〈探索的〉explaratory なものであり，できることは仮説の〈提唱〉に過ぎません。仮に有意差らしきものが出ていても〈検証〉や〈立証〉ということにはならないのです。

もしその仮説を本当に検証したいのであれば，改めてそのアウトカムを〈主要評価項目〉primary endpoint にした RCT を組む必要があります。

１試験 → １つのエンドポイントしか検証できない

そしてそれは primary endpoint のことである，というのは非常に重要なポイントです。

｜多重検定の問題: そもそも複数の仮説について〈検証〉をおこなって，そのすべてで同じ有意水準（たとえば p=0.05）で「有意！」ということはできません。それをしてしまうと〈多重検定〉という重大な統計上の問題を抱えることになります。αエラーの許容範囲を一定（たとえば 5 %）に保つためには，p=0.05 という同一の有意水準ではなく，仮説検定をおこなった回数に応じて厳しくしていく必要があります（たとえば仮説検定を 5 回おこなったのであれば，有意水準をp=0.01に厳しくする；ボンフェローニ法）。｜この問題の解説動画はコチラ

まだまだある RCT の Limitation

ここまで，RCT がどうしても構造的に抱えている「5つの限界」について述べてきました。

莫大なコストがかかる
資金源バイアス・実験効果により結果が誇張されやすい
サンプルサイズの影響が大きい
希少なものは相手にできない
ただ１つの仮説しか〈検証〉できない

これらはどれも，きちんと押さえておきたいポイントです。

こうした限界を知らないと，1つの1つの RCT の結果に過度な影響を受けて

「これは意味がある！」「これは意味がない！」

などと先走った結論を出してしまうことになりかねません。

しかし RCT はただの実験に過ぎず，リアルワールドをうまく代表できているとは限らないということを忘れてはいけません。

また，問題は上記のみではありません。もっと根本的に，

試験デザイン自体に問題があるため，アウトカムの差にあまり意味がない

ということもしばしばあります。

設計時点から問題のあるケース

分かりやすい例としては以下のようなケースが挙げられます（▼）。

「最初から片方が不利になっている」
「エンドポイントが冴えないので結果を示しても意味がない」

最初から片方が不利な RCT

初めから片方が不利になってしまっているようなデザインの場合，RCT の結果は大きくバイアスされています。これは要するに「比較可能な集団同士」「同じ土俵」で戦わせていないことによる弊害です。

本来 RCTは【A】と【B】の「ガチンコ対決」であり，きちんとガチンコ対決になっていることが大前提なのです。A・B 以外のあらゆる条件が，両群である程度揃っていなければなりません。

しかし悪質な RCT では，デザインの時点で「明らかにどちらかが不利」といった状況を作っている場合があります。

例えば，自社のプロテインAと他社のプロテインBの効果を比較するとき，自社のプロテインAは適切な用量を飲む様になっているにもかかわらず，他社のプロテインBは推奨用量の半分しか飲ませない設計になっている，といったなケースです。

ここまで露骨にアウトな設計をしたRCTは稀だと思いますが，

本当に公平な比較になっているのか？

という点について常に批判的に着目することは重要です。

前項で紹介した〈群間不均衡〉もこの問題の中に包含されます。特に，アウトカム（エンドポイント）に直接的に関わる様な背景因子が揃っていないと，データの補正 adjustment が必要になってしまいます。先述したように〈ランダム割り付け〉の結果，偶然揃わないこともありますが，何か構造的な問題があって（＝バイアス）そうした〈群間不均衡〉が起きることもあり得ます。

意義の小さいエンドポイントを比較しても・・

また「エンドポイントがそもそも微妙」という試験デザインも，結果の解釈の際に問題になります。

以下にいくつかの例を列記します。

抗癌剤の RCT

「生存期間」でなく「腫瘍サイズ」という〈代理評価項目〉が主要評価項目

┗━▶︎ 短期的には腫瘍サイズが小さくなっても，長期的な細胞毒性や心毒性が強過ぎて寿命を縮める可能性がある。その場合，むしろ本末転倒になる。

抗ウイルス薬の RCT

「肺炎の重症化予防効果（酸素投与／挿管／死亡の回避）」ではなく「PCR陰性化までの日数」という〈代理評価項目〉が主要評価項目

┗━▶︎ 数日 PCR 陰性が早くなるとしても，死亡や挿管や酸素投与症例を全然減らせないのであれば，臨床現場ではほとんど意味がないかもしれない。

広告の RCT（A/Bテスト）

「購入率」ではなく「クリック率」を比較した場合

┗━▶︎ 多くクリックされる広告でも，最終的に購買につながっていなければ意味がない。

要するにそのRCTは，本当に「現実世界で意義があること」をエンドポイントに設定しているかどうか，ということです。

「代用エンドポイント」の改善が示されたとしても，意義ある「ハードエンドポイント」の改善が示されていない場合，その適応には慎重になるべきです。

特に医薬品──それも新薬──の場合，

本当にその人が ”副作用にさらされるリスクをかけて”，また “新薬というお高い薬に対する医療費をかけて”，その薬を飲むだけの価値はあるのか？

常に考える必要があります。

一方，心理学的介入や，ビジネスの世界では，RCTでそれらしい傾向があれば「とりあえずやってみる」という手段もアリだと思います。医薬品の場合とは異なり，抱え込むリスクや倫理的問題が格段に小さいことが多いからです。

合わせて読みたい

【30分で】臨床試験 RCT 爆速チェックリスト【批判的吟味】

職場の論文抄読会で，臨床試験論文の〈批判的吟味 critical apprausal〉をしたい！でもどういう部分に気をつけて読めばいいか分からない！そんな時，臨床試験の質を『爆速で』チェックできる手頃なリストがあったら，便利[…]

1つの RCT で結論はできない

ここまで見てきましたように，結局，1つの RCT には常に複数の Limitation がつきまといます。ですからより強固なエビデンスにするためには，複数の RCT の結果を組み合わせることが必要になります。

良質な RCT を集め，全ての結果を統合し，解析する── そのように「複数の RCT の結果を併せて解析したシステマティックレビュー&メタ解析」は，信頼性の高いエビデンスとして扱われます。

類似する（良質な） RCT のデータをたくさん集めることで，疑似的に巨大なサンプルサイズの「超大規模な比較試験」を紙面上で再現する様なイメージです（▼）。

システマティックレビュー & メタ解析

ここまでこればさすがに「絶対的に信頼できるエビデンス！」と歓迎したいところですが，しかし実はまた別の弱点があります。

それは「メタアナリシスやシステマティックレビューは，あくまで2次情報」という点です。人が介在して整理した〈二次情報〉である以上，その「情報処理過程」でバイアスが入り込む余地ができてしまうのです。

「数ある RCT からどれをピックアップして解析に含めるか」という選択が恣意的になれば，それは結果を歪めかねません。特に「システマティックレビュー」を行わずにメタ解析だけ行う場合は非常に危険です（▼）

低質な RCT ばかりを集めて統合しても，Garbage in/ Garbage out にしかなりません。あくまでバイアスリスクの低い〈良質な RCT〉の統合に限るべきであり，その「ふるいわけ」としてシステマティックレビューは欠かせないプロセスなのです。

出版バイアスも残る

また〈システマティックレビュー & メタ解析〉で特に注意すべきなのが，先述した「出版バイアス」です。

本当は効果がなかった RCT も沢山あったはずなのに，それらが報告されないことで，論文データベース上には存在しない研究が複数あります。それにより文献検索という「入口」から既にバイアスがかかってしまっているのです。

「有意差が出て『効果がある！』と報告しているRCT」の結果ばかりを集めてメタ解析を行ったところで「効果はある！」という結果にしかなりようがありません（▼）。

完全に均質な RCT はほぼ存在しない

また，そもそもそれぞれの RCT は質もバラバラであり，均一なものではないため，単純に統合することは難しいという問題があります。

うまく均質化するため，様々な指標などを用いて数学的に処理した上で〈統合〉するわけですが，当然そうした「処理」が入ってしまったデータを額面通りに受け取っていいのか？という議論もあります。

どんな論文も，読者のリテラシーは必須

上記の様な限界を踏まえれば〈システマティックレビュー & メタ解析〉SR & MAであっても，結果を鵜呑みにはできないということがわかります。

結局全ての研究方式にはそれぞれの強み・弱みがあるということです。どの研究であっても，バイアスのリスクは複数抱えているのです。100 ％完璧な研究など存在しません。

SR や MA だからといって，いつも両手を挙げて歓迎できるわけではありません。むしろこうした研究を批判的に吟味できるためには，大前提として「RCT の批判的吟味は難なく可能であること」が必要です。その上でメタ解析に含まれた論文・含まれなかった論文の〈選択基準〉が妥当であったかどうか，また，そもそもそれらの論文の質が十分高いものなのかどうかなどを検討できなければなりません。

どの様な権威ある論文であっても，読者はそうした「バイアスリスク」をよく検討しながらデータを見なければなりません。誰かにとって都合の良い〈解釈〉や〈数字〉に騙されないためには，きちんと生データを読むリテラシーが必要になります。

どこまで行っても真実は不明

また，そもそも論としてほぼ全ての臨床研究が母集団を直接調査しているわけではない（＝限られた標本調査に過ぎない）以上，どのような統計手法を用いようと【真実そのもの】を直接観測することはできません。

結局私たちは標本データを介して母集団における真実を〈推定〉しているだけです。〈推定〉に過ぎない以上，どこまで行っても「真実と異なる推論をしてしまう」エラーの可能性はゼロにできません。

ただ「可能性がゼロではないから…」などと言い始めてしまうと，私たちはいつまでも意思決定を下せません。そこで，たとえ手元の標本が限られていたとしても「確率論的にはこう考えておいた方が妥当だろう」という妥当性の高い結論を得るために開発された手法が〈推測統計学〉であると言えます。

そして RCT やその SR & MA はその〈推測統計学〉の叡智を集めた実験手法です。そして現状，もっとも妥当性を担保しやすい実験手法とされています。

その長所と限界を理解して，データと向き合っていきたいですね。

合わせて読みたい

【解説】「統計学的に有意」とは何か？｜P値の意味とその限界

〈統計学的に有意な差〉とは？今やどんな研究論文でも，あるいはビジネスシーンでも，〈統計学的に有意〉 significant という言葉をよく目にします。しかし「統計学的に有意な差」ってどういう意味ですか？と聞かれた時，その[…]

コラム：真実なんてない？

シロ

結局，世界に「真実」なんて無いんだよね。「解釈」があるだけで…

ミケ

唐突なニーチェ。

まとめ

RCT にゼッタイついて回る 5 つの限界

莫大なコストがかかる
結果が誇張されやすい（資金源バイアス・実験効果）
サンプルサイズの影響が大きい
希少なものは相手にできない
ただ１つの仮説しか〈検証〉できない

さらに言えば，RCTというのはあくまで「集団同士の比較」でしかありません。他ならぬ私自身、、、，他ならぬ貴方自身、、、、に「効くか効かないか」の二者択一であれば，どうなるかはわからない，という問題もあります。

だからこそ，こうした RCT の結果を「目の前の患者さんに適応する」ためのプロ（コンサル）として，医師という職業がある，とも言えます。

コラム：どうせ信じるなら，バイアスの少ない世界を

ミケ

結局，科学は最初から最後まで「バイアスとの戦い」なんだよね…

クロ

作為を排除し，徹底的に客観的であること。それを突き詰めて得られた事実こそ「本当に信頼できる」エビデンスというわけだな。

シロ

でも突き詰めすぎも疲れちゃうよね・・

ミケ

うん。だからとりあえず「このデータにはこういうバイアスのリスクがあるから，このくらいのことまでしか言えないよね」と限界をわかっておくことが大事だよね。その上で自分の意思決定に利用する，というのが正しい付き合い方かな

クロ

そうだな。それだけのリテラシーがあれば，自ら情報を探し出し，選び，解釈し，受け入れることができる。幸福で自由な意思決定のはじまりだ！

ミケ

どうせ信じるなら，多人数で再現性のあることがいいものね

シロ

統計リテラシー……奥深いねぇ

[おすすめ本紹介]

Users’ Guides to the Medical Literature

タイトル通り「医学論文を現場でどう応用するか？」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で，どこからでもつまみ読みできます（通読向きではない）。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ，という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが，気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

Amazon で見る

楽天市場で見る

医学文献ユーザーズガイド第3版

表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと（英語版はある）と，和訳が気になる部分が結構あること。２つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます。

Amazon で見る

楽天市場で見る

─ ads ─

【注意】ランダム化比較試験 RCT に必ずついてまわる5つの「限界」

RCTの限界

限界①：莫大なコストがかかる

資金源は？

限界②：資金源バイアスや実験効果による誇張

完全に非営利でも・・

葬り去られる negative study

限界③：サンプルサイズの影響が大きい

サンプルサイズは小さすぎても大きすぎても問題

小規模 RCT の結果は眉唾モノ

サンプルサイズは大きければよいか？

あらかじめよく計算して被験者を募る

Power 分析にも限界がある

限界④：希少なものは相手にできない

稀な難病では RCT が困難

稀だが重篤な副作用も検出できない

限界⑤：ただ1つの仮説しか〈検証〉できない

唯一無二の〈主要評価項目〉

オマケの〈二次評価項目〉

まだまだある RCT の Limitation

設計時点から問題のあるケース

最初から片方が不利な RCT

意義の小さいエンドポイントを比較しても・・

1つの RCT で結論はできない

システマティックレビュー & メタ解析

出版バイアスも残る

完全に均質な RCT はほぼ存在しない

どんな論文も，読者のリテラシーは必須

どこまで行っても真実は不明

コラム：真実なんてない？

まとめ

コラム：どうせ信じるなら，バイアスの少ない世界を

医療統計の解説チャンネル