【注意】ランダム化比較試験 RCT に必ずついてまわる5つの「限界」

前回の記事では,RCTの特長についてまとめました(▼)。

  • バイアスを排除する力が強い
  • 交絡因子を排除する力が強い
  • 前向き研究であり直接〈因果関係〉を〈検証〉できる
前回の記事

|この記事では RCT の長所 について解説します。RCT の長所前回の記事で,ランダム化比較試験 RCT の満たすべき条件として,以下の4つを挙げました。ランダム化されている比較対照(control群)がある明確[…]

これが,ランダム化比較試験 RCT がエビデンスの王様とされる所以です。

こうした特長のため,エビデンスの基本は

〈良質なRCT〉による仮説検証で有効性が示されていること

とされているのでした。

しかしそうは言っても,RCT も万能ではありません。以下のような「限界」があり,結果を鵜呑みにすべきでない場面が非常に多い,というのが実情です。

今回はそれら〈RCTの限界〉についてまとめてみたいと思います。

RCTの限界

RCT にゼッタイついて回る 5 つの限界

  1. 莫大なコストがかかる
  2. 資金源バイアス・実験効果により結果が誇張されやすい
  3. サンプルサイズの影響が大きい
  4. 希少なものは相手にできない
  5. ただ1つの仮説しか〈検証〉できない

順に見ていきましょう!

限界①:莫大なコストがかかる

これは文字通りのことで,説明不要かもしれません。

RCT を行うためには,

  • 試験の周知
  • 被検者の募集
  • それぞれの地域の担当者との連絡
  • 治療者(医師)との連絡
  • 薬剤やプラセボなどの準備
  • 隠蔽性の保たれたランダム割付システムの構築
  • 外部の評価機構への依頼

などなど・・あらゆるプロセスでとにかく莫大な人的コストがかかります。

検査費用や薬剤費用はもちろんのこと,膨大な人件費を要するわけです。

資金源は?

ではその膨大なコストがどこから調達されるのかと言えば,

  • 製薬会社資本
  • 公的資本(公費・グラントなど)

の 2 つに大別されます。

─ ads ─
製薬会社資本

製薬会社が莫大な資本を投じておこなう RCT の代表は,自社で開発した薬剤の第 III 相試験です(▼)。

そこで「承認」までこぎつけることができれば,一気にそれまでの投資を回収することができる「大勝負」の場面ということです。

逆に言えば「見込みの薄い」あるいは「採算の取れない」薬剤や,製薬会社にメリットのないような RCT には彼らの資本が投下されることなどありません。

資本主義なので,当然のことです。

そういう場合に,グラントや公的資本を用いた RCT が医師主導で行われることになります。

限界②:資金源バイアスや実験効果による誇張

RCT の限界の2つ目として重要なのが,資金源バイアスです。

資金源バイアスとは,

製薬会社など営利団体資本の臨床試験は,
そうでない臨床試験に比べて,
当該団体の利益につながるような結果を出しやすい

というバイアスのことです。

これは先述した「莫大なコストがかかる」というところから連想できることだと思います。

それだけのコストをかけた試験の結果が

特に効果はなさそうでした!

では採算が合いません。

なんとしても〈有意差〉を出さなければ・・!

というモチベーションになってしまうのは,やむを得ない部分でもあります。

実際,あらゆる手練手管を使って「効果がある」という主張にこぎつけるような荒技が用いられてきました。詳細は別記事で解説しています。

完全に非営利でも・・

そしてこの問題は,スポンサーが営利団体である場合のみに限りません。研究者や実施団体が完全に非営利であったとしても,油断禁物です。

なぜなら RCT 実施の際には,実施機関や研究者は「大きな効果」を計測するよう努力してしまうものだからです。

さらに,観測者に「見られている」ことで,試験参加者も必要以上に頑張ってしまう(=ホーソン効果)場合があります。

なにより RCT に参加するような人は「それだけ健康的な余力がある人」です。体力のない高齢者や,元気のない人,健康意識の低い人はそもそも RCT に参加しません(=選択バイアス)。

こうした影響が総合されることで,

とかく RCT というものは「結果が強調されがち」な傾向となる

ことが知られています。

┗━━▶︎ これを〈実験効果〉と呼びます。

この〈実験効果〉のために

RCT では非常に良好な成績を弾き出した薬剤や介入が,いざ現実世界で広く適応されると,想定していた程には効果を出さなかった

ということは少なくありません。

葬り去られる negative study

さらに,そもそも

効果が芳しくなかった研究は論文にされないことも多い

という出版バイアスの問題もあります。

公的資金を使った大規模研究などは,結果がどうであれ報告されることが多いのですが,特に企業主導などの RCT はそうもいきません。

特にプラセボとうまく差をつけられなかった第 II 〜 III 相試験などで「わざわざ悪かった結果を論文化して報告まではしない」
ということはしばしばあります。

そっと「なかったことにされる」ということです。

論文になったとしても,major 誌に投稿されず,注目度が低いままそっと闇に消えていくというパターンもあります。

ですから,結果を出した RCT のウラで,実は『似た様な設計で行ったのに結果が出なかった RCT』がたくさん埋もれているかもしれないということです。

これは複数のRCTの結果を合わせて考える時(=メタアナリシス),非常に大きな問題になってきます。

特に小規模なRCTばかりを集めて解析したメタアナリシスは,報告バイアスの影響を極めて強く受けている可能性がある,と思いながら読む必要があります(▼)。

出版バイアスとメタ解析
|データベース登録が必須に?
なお,この問題を防ぐため,近年では RCT を施行する前に公的データベース(clinicaltrials.gov など)への登録が強く推奨されるようになってきています。逆にそうしたデータベースに登録していない場合,大手の医学誌は accept してくれない,という風潮です。これにより,結果が negative study だろうが positive study だろうが「RCTが行われた」という事実がきちんと蓄積されていき,いざメタ解析という時に「結果がよかった研究ばかりが統合される」という大きなバイアスの予防になるのではと期待されています。

限界③:サンプルサイズの影響が大きい

ランダム化比較試験 RCT の 限界,3つ目として「サンプルサイズの影響が大きい」というものを取り上げます。

「サンプルサイズが必要十分か」は RCT をみる上で最重要な観点の1つ

です。必要十分、、、、というのがポイントです。

なぜならサンプルサイズは大きすぎても小さすぎても弊害をきたすからです。

サンプルサイズは小さすぎても大きすぎても問題

サンプルサイズが小さすぎると,

  • 結果の “ブレ幅” が大きくなり〈統計学的に有意〉になりにくい
  • ランダム割付で,うまく重要な因子が均等にならないことが多い
  • 再現性のない極端な結果が出やすい

といった問題があります。

また,サンプルサイズが無駄に大きすぎると,

  • 単純に人的/金銭的リソースの無駄遣い
  • あまりに小さく意義に乏しい〈有意差〉まで検出してしまう

といった問題があります。

小規模 RCT の結果は眉唾モノ

以上のような問題があるため,

サンプルサイズの小さい試験結果はかなり慎重に見る必要がある

と言えます。結果のバラツキが大きすぎるのです。

たとえば,第 II 相試験などの小規模な RCT で〈二次評価項目〉に据えられたハードエンドポイントにおいて「すごく効く!」という結果が出ることがあります。

しかし〈群間不均衡〉を補正して計算してみたり,実際により大規模な試験で検証し直されると,期待されたほどの効果とならないことがよくります。

サンプルサイズが小さい試験の結果は鵜呑みにせず,眉唾だと思って読むべきです。

小規模 RCT は,出版バイアスの影響も受けやすいことが知られています。

サンプルサイズは大きければよいか?

では,サンプルサイズが大きい時はどうでしょうか。

当然ながら,大きなサンプルサイズを対象にして出た結果は,結果のブレ幅(=偶然誤差)が小さくなります。そのため結果の信頼性は高くなります。

しかしサンプルサイズを極限まで大きくすれば,どんどん『誤差によるブレ幅』が小さくなるので,どこかで必ず〈統計学的な有意差〉が得られます。

これはただ『ブレ幅』が小さくなったから統計的には有意になった,というだけのことです。

エラーバーが小さくなることで重なりにくくなるからです

統計学的に〈有意〉だからといって「劇的に効く」という意味ではありません。

この場合はむしろ真逆で「実世界ではほとんど意味のない差」まで〈有意〉として検出してしまった,という可能性があります。

統計的に有意 ≠ 臨床的に有意

というのは非常に重要なポイントです。

そこで,

「臨床的な有意差」を適度に検出するため必要十分、、、、なサンプルサイズを集める

ことを求められるわけですが,実はこれがムチャクチャ難しいのです。

あらかじめよく計算して被験者を募る

実際に多くの大規模 RCT は,最初のデザイン時点で

このくらいの人数を集めれば統計学的な有意差が出せそうだな

というサンプルサイズが推算されています(パワー分析 power analysis )。

不必要に大きなサンプルサイズを集めてもコストばかりかかって実利がないので,あらかじめ目安を設定しておくわけですね。

Power 分析にも限界がある

しかし〈パワー計算〉 power analysis の結果が見込み違いで,サンプルサイズが小さすぎると〈統計学的有意差〉が出ず,何も言えない結果になってしまう,ということも少なくありません。

既報のデータをもとに推算するだけなので,その既報と今回の RCT の setting が多少違うだけで計算は大きくズレてしまいます。

こうした power にまつわる問題については,別記事▼
合わせて読みたい

この記事では,RCT を読む時の必須知識の1つ,〈検出力分析〉パワー分析;power analysisについて解説します。最初に本項のまとめを示します(▼)パワー分析に関するポイントまとめパワー分析 ──〈統計学的[…]

サンプルサイズの難しさ

結局,サンプルサイズは小さすぎても「信頼性が低く,有意差も検出しにくい」という問題があり,大きすぎても「リソースの無駄だし意味のない差まで検出してしまう」という問題がある,ということです。

この限界をよく理解した上で RCT の結果を読まないと騙されてしまいますので,注意が必要です。

合わせて読みたい

この記事では,ランダム化比較試験 RCT におけるサンプルサイズ(n)の重要性についてまとめます。例によって,最初にこの記事のまとめを示します!この記事のまとめサンプルサイズは小さ過ぎても大き過ぎても問題[…]

限界④:希少なものは相手にできない

RCT についてまわる限界の 4つ目は,「希少なものを相手にできない」ということです。

前項でサンプルサイズの重要性を扱いましたが,その延長となる内容です。

サンプルサイズが小さすぎると「信頼性が低く,有意差も検出しにくい」のですから,「稀な現象」とRCT の相性が悪いことは容易に想像がつくものと思います。

稀な難病では RCT が困難

例えば 100万人に 1人しか発症しない,稀な難病を想定してみます。それなりの規模の都市でも,数えるくらいしか罹患しない様な疾患です。

その難病に対して

ある薬A を投与すると,疾患の進行速度が遅くなって,生存期間が伸びる

という仮説を検証したいとします。

しかし,100万人に1人しか発症しない疾患では,十分な被験者数を集めるのは相当至難です。わずか 100 人規模の RCTを組むのでも,全国的なチームを作って相当苦労しながら募集しなければ進められません。

さらに,そのような稀な疾患では,一人一人の特性も極めて不均質(ヘテロ)になってしまいがちです。

また,生存期間などをエンドポイントにした RCT を行うには,せめて「発症年」を揃える必要があります。しかし RCT への参加基準に「発症2年以内の人」などといった縛りを加えると,さらに参加者を集めるのが困難になってしまいます。

先述したように,サンプルサイズが集まらなければ統計学的に有意な差は出にくいものです。

結果としてその〔薬A〕の有効性が本当にあるのか〈検証〉することは,非常に困難となってしまっているのです。

これが,難病の薬が開発されにくい理由の1つです。

単純に顧客=患者が少ないので,薬を開発しても大きな利益が見込めず,製薬会社のモチベーションが上がらない,という経済的な問題もあります
|補足:条件付き早期承認制度
こうした問題に対応するため,日本には〈条件付き早期承認制度〉といった「第 III 相試験なしでもある程度の効果がありそうなら実臨床に導入して良い」というアグレッシブな制度もあります。詳細は[別記事]

稀だが重篤な副作用も検出できない

また,RCT では滅多に起きないもののインパクトが大きい現象 ── たとえば重篤な副作用など ── も,起きる件数自体が少ないため,ほとんど統計的有意差を検出されることはありません。

そのため〈害〉の検出はどうしても第 III 相試験時点では不可能です。

実際にリアルワールドに出て膨大な人数に使われ始めると,散発的に顕在化してくる,ということは少なくありません。

あらゆる新薬、、には常にそうした危険性があるため,臨床家の間では「新薬は5年寝かせろ」という格言もあるほどです。

余談:ビジネスにおける RCT は?

余談ですが,ビジネスの世界は RCT と非常に相性がよいことが知られています。

それは,こうした「サンプルサイズ不足で差を検出しにくい」という点がクリアされやすいのがポイントかもしれません。

多くのビジネスシーンでは,無数の顧客情報データを扱いますので,あまり「power 不足」といった方向性で困ることはないのでしょう。

むしろサンプルサイズが大きすぎることで,どこから介入してよいか,という面で困ることの方が多いくらいかもしれませんね。

限界⑤:ただ1つの仮説しか〈検証〉できない

最後,RCT が抱える5つめの限界がこれです。

非常に誤解されがちなポイントですが,1つの試験できちんとした「手順」を踏んで立証できる仮説は,本来たった1つだけです。

それこそが唯一無二の〈主要評価項目 Primary endpoint〉です。

唯一無二の〈主要評価項目〉

RCT というのは最初から最後まで,あくまで「最も検証したい仮説」である

〈主要評価項目〉primary endpoint で差が出るか?

に照準を合わせて進んでいくものです。

先述した power 分析も,この primary endpoint のイベントがどの程度起きるか?という推算にあわせて行います。

その推算に基づき,αエラー やβエラー許容範囲、、、、を決めた上で,試験に集める被験者の数を設計しているのです。

他の〈評価項目〉は全てオマケに過ぎません。

オマケの〈二次評価項目〉

RCT は莫大なコストを使って行われます。

ですから,コストをかけて せっかく得られた貴重な臨床データを Primary Endpoint の〈検証、、〉あるいは〈立証〉のみに用いるのはもったいない,と考えてしまうのはごく自然なことです。

そこで,他の仮説が〈提唱、、〉できそうな「傾向」がないかについても,ついでにちょこっと検討して見ましょう。── それが〈二次評価項目〉secondary endpoint です。

ですから〈二次評価項目〉でそれらしい、、、、、データが得られた時も,主張できることは多くありません。そもそもその RCT は〈二次評価項目〉で差が出る/出ないという仮説を〈検証〉するためにデザインされた試験ではないからです。

二次エンドポイントはあくまで〈探索的〉explaratory なものであり,できることは仮説の〈提唱〉に過ぎません。

仮に有意差らしきものが出ていても〈検証〉や〈立証〉ということにはなりません。

もしこの仮説を〈立証〉したいのであれば,改めてそのアウトカムを〈主要評価項目〉primary endpoint にした RCT を組む必要があります。

1試験 → 1つのエンドポイントしか検証できない

そしてそれは primary endpoint のことである,というのは非常に重要なポイントです。

|多重検定の問題
そもそも複数の仮説について〈検証〉をおこなって,そのすべてで同じ有意水準(たとえば p=0.05)で「有意!」ということはできません。それをしてしまうと〈多重検定〉という重大な統計上の問題を抱えることになります。αエラー の許容範囲を一定(たとえば 5 %)に保つためには,p=0.05 という同一の有意水準ではなく,仮説検定をおこなった回数に応じて厳しくしていく必要があります(たとえば仮説検定を 5 回おこなったのであれば,有意水準をp=0.01に厳しくする;ボンフェローニ法)。

まだまだある RCT の Limitation

ここまで,RCT がどうしても構造的に抱えている「5つの限界」について述べてきました。

  1. 莫大なコストがかかる
  2. 資金源バイアス・実験効果により結果が誇張されやすい
  3. サンプルサイズの影響が大きい
  4. 希少なものは相手にできない
  5. ただ1つの仮説しか〈検証〉できない

これらはどれも,きちんと押さえておきたいポイントです。

こうした限界を知らないと,1つの1つの RCT の結果に過度な影響を受けて

「これは意味がある!」「これは意味がない!」

などと先走った結論を出してしまうことになりかねません。

RCT は ただの実験に過ぎず,リアルワールドをそのままうまく凝縮できたものではないのです。

デザインから問題があることも・・

さらに言えば,

試験デザイン自体に問題があるため,アウトカムの差にあまり意味がない

なんてこともあり得ます。

分かりやすい例としては

  • 「最初から片方が不利になっている」
  • 「エンドポイントが冴えないので結果を示しても意味がない」

などが考えられます。

設計時点から問題のあるケース

最初から片方が不利な RCT

RCTは【A】と【B】の「ガチンコ対決」です。

逆に言えば,きちんとガチンコ対決になっていることが大前提です。A・B 以外のあらゆる条件が,両群である程度揃っていなければなりません。

しかし悪質な RCT では,デザインの時点で「明らかにどちらかが不利」といった状況を作っている場合があります。

例えば,自社のプロテインAと他社のプロテインBの効果を比較するとき,自社のプロテインAは適切な容量を飲む様になっているにもかかわらず,他社のプロテインBは推奨される容量の半分しか飲ませない設計になっている,という様なケースです。

ここまで露骨にアウトな設計をしたRCTは稀だと思いますが,

本当に公平な比較になっているのか?

という点について常に批判的に着目することは重要です。

前項で紹介した〈群間不均衡〉もこの問題の中に包含されます。特に,アウトカム(エンドポイント)に直接的に関わる様な背景因子が揃っていないと,データの補正 adjustment が必要になってしまいます。先述したように〈ランダム割り付け〉の結果,偶然揃わないこともありますが,何か構造的な問題があって(=バイアス)そうした〈群間不均衡〉が起きることもあり得ます。

意義の小さいエンドポイントを比較しても・・

また「エンドポイントがそもそも微妙」という試験デザインも,結果の解釈の際に問題になります。

以下にいくつかの例を列記します。

抗癌剤の RCT

┗━▶︎ 腫瘍サイズが小さくなっても,細胞毒性や心毒性が強過ぎて寿命を縮めるのでは本末転倒です。

抗ウイルス薬の RCT

  • 「肺炎の重症化予防効果(酸素投与/挿管/死亡の回避)」ではなく「PCR陰性化までの日数」という〈代理評価項目〉が主要評価項目
┗━▶︎ 数日 PCR 陰性が早くなるとしても,死亡や挿管や酸素投与症例を全然減らせないのであれば,大きな意味はありません。

広告の RCT(A/Bテスト)

  • 「購入率」ではなく「クリック率」を比較した場合
┗━▶︎ 多くクリックされる広告でも,最終的に購買につながっていなければ意味がありません。

そのRCTは,本当に「現実世界で意義があること」をエンドポイントに設定しているかどうか。

代用エンドポイントの改善が示されたとしても,意義あるハードエンドポイントの改善が示されていない場合,その適応には慎重になるべきです。

特に医薬品──それも新薬──の場合,

本当にその人が ”副作用にさらされるリスクをかけて”,また “新薬というお高い薬に対する医療費をかけて”,その薬を飲むだけの価値はあるのか?

常に考える必要があります。

一方,心理学的介入や,ビジネスの世界では,RCTでそれらしい傾向があれば「とりあえずやってみる」という手段もアリだと思います。医薬品の場合とは異なり,抱え込むリスクや倫理的問題が格段に小さいことが多いからです。
合わせて読みたい

職場の論文抄読会で,臨床試験論文の「批判的吟味」をしたい!でもどういう風に論文を読めば「ヤバいところ」を見抜けるかわからない!!実はあと1時間後に抄読会始まるけどまだ本腰入れて読んでない・・そんな時,臨床試験の質を『爆[…]

1つの RCT で結論はできない

ここまで見てきましたように,結局,1つの RCT には常に複数の Limitation がつきまとうものです。

ですからより強固なエビデンスにするためには,複数の RCT の結果を組み合わせることが必要になります。

良質な RCT を集め,全ての結果を統合し,解析する。

この「複数の RCT の結果を併せて解析したシステマティックレビュー&メタ解析」こそ「エビデンスの最終段階」とされています(▼)。

複数RCTのメタ解析が最上位

類似する良質な RCT のデータをたくさん集めることで,疑似的に巨大なサンプルサイズの「超大規模な比較試験」を紙面上で再現する様なイメージです。

システマティックレビュー & メタ解析

ここまでこれば,さすがに「絶対的に信頼できる科学的データ!」と歓迎したいところですね。

しかしここまで来ても,まだ弱点はあります。

それは「メタアナリシスやシステマティックレビューは,あくまで2次情報」という点です。

これらは RCT と違い「統計家が机の上で行う」研究であるというのが問題です。

これまで血と汗と涙と莫大な人的・金銭的資本のもとに行われた RCT(=一次情報) の結果を,統計家が複数拾い上げて,バイアスリスクを評価した上で分析・統合する(▼)。

SR and MA

パソコン1台と頭脳があれば,極論 1人でもできてしまう研究と言えます。

実際はチームで行われたものが大多数です

情報をどう拾い上げて加工するかというバイアスが生じる

しかし,人が介在して整理した〈二次情報〉である以上,その過程でバイアスが入り込む余地が必ずできてしまいます。

「数ある RCT からどれをピックアップして解析に含めるか」という選択が恣意的になれば,それは結果を歪めかねません。

システマティックレビューを行わずにメタ解析だけ行う場合は特に危険です(▼)

そもそも,それぞれの RCT は質もバラバラであり,均一なものではないため,単純に統合することは難しいのです。

うまく均質化するため,様々な指標などを用いて数学的に処理した上で〈統合〉するわけですが,そうした「処理」が入ってしまったデータを額面通りに受け取っていいのか?という議論もあります。

つまり,結局このレベルの論文になっても,その結果得られたデータを解釈する際には注意が必要になるのです。

また,低質な RCT ばかりを集めて統合しても,Garbage in/ Garbage out にしかなりません。あくまでバイアスリスクの低い〈良質な RCT〉の統合に限るべきです。

出版バイアスも残る

〈システマティックレビュー & メタ解析〉を読む際,特に注意すべきなのが,先述した「出版バイアス」です。

本当は効果がなかった RCT も沢山あったのに,報告されなかったことで「なかったこと」になってしまっている。そうなると「入口からバイアスがかかってしまっている」わけです。

「有意差が出て『効果がある!』と報告しているRCT」の結果ばかりを集めてメタアナリシスを行ったところで,「効果はある!」という結果にしかなりようがありません(▼)。

どんな論文も,読者のリテラシーが問われる

結局,〈システマティックレビュー & メタ解析〉であっても,結果を鵜呑みにするわけにはいきません。

RCT の批判的吟味はできることが前提で,さらにシステマティックレビューやメタ解析が包含する Limitation を理解した上で結果を読まなければなりません。

それらが取り上げた論文・取り上げなかった論文の〈選択基準〉が妥当であったかどうか,また,そもそもそれらの論文の質が十分高いものなのかどうかなどを批判的に吟味する能力が必要になります。

どれほど上位のエビデンスになっても未だにバイアスのリスクは複数抱えているのです。100 % 完璧な研究など存在しません。

読者は,そうした「バイアスリスクがどの程度回避されているか?」をよく理解した上でデータを見ないといけないわけです。

どのレベルのエビデンスであれ,誰かにとって都合の良い〈解釈〉や〈数字〉に騙されないためには,きちんと生データを読むリテラシーが必要になります。

どこまで行っても真実は不明

さらに元も子もないことを言ってしまうと,そもそも母集団を直接調査しているわけではない以上,絶対に「真実」を直接知ることはできません。

あくまで母集団から抽出した標本データを基にして,母集団における真実を〈推定〉しているに過ぎません。

〈推定〉に過ぎない以上,どこまで行っても「真実と異なる推論をしてしまう」という〈エラー〉の可能性はゼロにはなりません

これはその試験にバイアスがあろうがなかろうが,絶対に避け得ない問題です。確率的にランダムに起きる誤差は絶対にゼロにはなりません。

しかし

可能性はゼロではない

ということを言い始めてしまうと,私たちは妥当な意思決定をいつまでも下すことができません。

そこで,確率論的には「こう考えておいた方が妥当だろう」という妥当性の高い結論を得る手段が〈推測統計学〉であると言えます。

そして RCT はその〈推測統計学〉の叡智を集めた実験手法であり,最も信頼性が高いものとされているのです。

現状,もっとも妥当な「意思決定のための科学的証明プロセス」が RCT です。

その長所と限界を理解して,データと向き合っていきたいものです。

合わせて読みたい

〈統計学的に有意な差〉とは?今やどんな研究論文でも,あるいはビジネスシーンでも,必ず目にする〈統計学的に有意〉 significant という言葉。「統計学的に有意」ってどういう意味?と人に聞かれた時,皆様はその意味を[…]

コラム:真実なんてない?

シロ

結局,世界に「真実」なんて無いんだよね。「解釈」があるだけで…

ミケ

唐突なニーチェ。

まとめ

RCT にゼッタイついて回る 5 つの限界

  1. 莫大なコストがかかる
  2. 資金源バイアス・実験効果により結果が誇張されやすい
  3. サンプルサイズの影響が大きい
  4. 希少なものは相手にできない
  5. ただ1つの仮説しか〈検証〉できない

この記事が読者の皆さんの一助になることができれば,それに勝る喜びはありません。

コラム:どうせ信じるなら,バイアスの少ない世界を

ミケ

結局,科学は最初から最後まで「バイアスとの戦い」なんだよね…

クロ

作為を排除し,徹底的に客観的であること。それを突き詰めて得られた事実こそ「本当に信頼できる」エビデンスというわけだな。

シロ

でも突き詰めすぎも疲れちゃうよね・・

ミケ

うん。だからとりあえず「このデータにはこういうバイアスのリスクがあるから,このくらいのことまでしか言えないよね」と限界をわかっておくことが大事だよね。その上で自分の意思決定に利用する,というのが正しい付き合い方かな

クロ

そうだな。それだけのリテラシーがあれば,自ら情報を探し出し,選び,解釈し,受け入れることができる。幸福で自由な意思決定のはじまりだ!

ミケ

どうせ信じるなら,多人数で再現性のあることがいいものね

シロ

統計リテラシー……奥深いねぇ

[おすすめ本紹介]

User’s Guides to the Medical Literature


EBMを学ぶにあたり 1 冊だけ選ぶとしたら間違いなくコレ,という一冊です。著者 Gordon Guyatt 先生は「EBM」という言葉を作った張本人。かなり網羅性が高く分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「User’s Guides to the Medical Literature (JAMA)」の邦訳版です。一生言い続けますが,EBMと言えばこの1冊です。唯一の欠点は,Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG