怪しげな治療の「効かない証明」が永遠にされない3つの理由

効かないとは言えない

効く可能性」が「否定できない」なら,その治療へのアクセスは担保されるすべきだ。

検証的データが不十分でも,選択の自由は当人に委ねられるべきだ。

といった主張は,様々な医療行為・化学物質に関してしばしば持ち上がります。

ビタミン系サプリ,高額免疫治療,○○○○ン点滴, etc etc …. 最近では COVID-19 におけるイベルメクチンの問題もそうでしょう。

また,これは非承認薬だけに限った問題ではありません。

第 III 相試験(▼下図)での検証を行うことなくいきなり新薬を上市させる〈条件付き早期承認〉のシステムも,同一延長線上の問題を抱えています。

合わせて読みたい

この記事ではCOVID-19 関連で注目度が高くなっており,また混乱のタネになっている様にも思われる医薬品の〈迅速承認〉制度についてまとめます。 以下〈承認〉と記載する場合は,いわゆる〈薬事承認〉を指すものとします。 〈承認〉を受ける=[…]

近年ではFDA が条件付き承認した認知症新薬アデュカヌマブも好例です。線引きの位置が異なるという程度問題はありますが,本質的には同じ議論をしています。

「かもしれない治療」は提供すべきか

このように「効く可能性が否定できない」ために,意義が不明ながら提供される医療行為の是非については,様々な意見があります。

少なくとも「公費」で行われるべきでないということにはコンセンサスがあると思いますが,では自費ならどうか。あるいは信条的に強く希望された場合にはどうか

あくまで患者希望に基づき,エビデンスが乏しい医療行為を提供する

── 医師のそうした態度は,どこまでであれば倫理的に許容されうるのでしょうか。

中には根拠がバイアスされすぎているものや,害が明らかなものも含まれますが,それでも自費で希望された場合には?

こうした線引きはサイエンスの土俵からは外れた問題であり,ただ1つの正解はありません。私たち自身が自分の頭でよく考えて判断を下すしかないように思います。

もちろん不誠実な情報提供で不当な金銭を要求するような詐欺紛いの行為は論外ですが,なぜそのようなものが無くならないかと言えば,それは

医学・統計学は構造的に〈効かない〉証明を得意とするものではない

からでしょう。

今回は,このなぜ効かない証明は困難かという点に関して取り上げ,問題の整理を試みたいと思います。

「効かないことの証明」が難しい3つの理由

医学領域において「効かないこと」を直接的に示すのが困難である理由としては,以下の3点が挙げられます。

「効かないこと」を直接的に示せない3つの理由
  1. そもそも「統計学的仮説検定」の論理的構造の問題
  2. 無益性を示すための試験は倫理的に不可能
  3. 「あなた個人の未来は誰にも分からない」問題

順に詳しく取り上げます。

─ ads ─

① 統計学的仮説検定の論理構造

まず第一の理由として

統計学的仮説検定の手続き上「効かないこと」の直接証明は難しい

ということがあります(※統計学的に限らず,論理的にも「ないこと」の証明は悪魔の証明と言われ難しい)。

有益性を示すための臨床試験は,慣習的に

「効かない(偽薬と差がない)」という仮説(=帰無仮説)を棄却する

という論理構造を基軸に P値や信頼区間を算出します。

結果として,その試験の結論は

  • 統計学的有意差あり=「効かない」仮説を棄却できる(▶︎ 効きそう)
  • 統計学的有意差なし=「効かない」仮説を棄却できない(▶︎ 結論不明)
|補足
「母集団では差がない」という帰無仮説が正しいと仮定したとき,ランダム抽出された標本データであまりにも極端な値が出た場合,帰無仮説を棄却する。つまり「母集団でも差があるハズ」と判定する(=統計学的有意差あり)。なお,この前提条件としてランダム抽出であること,その後の解析に至るまでの過程においてバイアスがないこと,が極めて重要。

のいずれかに収束します(解説動画)。

(※)このような二項対立主義 dichotomania,Nullism 帰無仮説偏重主義は近年(特に2019年のアメリカ統計学会の一連の論文シリーズ以降)「されるべきでない」というコンセンサスが広がっていますが,ここでは簡略化のため古典的な上記の解釈について解説します。
▲ 統計的に有意かどうかは,標本データで母集団を推測する際に用いる尺度の1つ。

有意差なし ≠ 差なし

ここで重要な点は,治験で「有意差なし」という結論になったときにも,積極的に「効かない」ことが証明されるわけではないということです。

いわゆるネガティブスタディ,有意差なし研究の結論は

母集団では「効かない」(=比較対照と差がない)という仮説を棄却できない、、、、、、、、、

となるだけです。

母集団では「効かない」(=比較対照と差がない)という帰無仮説が正しい、、、、、、、、

ということにはなりません、、、、、(▼)。

理想的なRCTにおける有意差なし

「治験で有意差がなかったこと(P値が高かったこと)」は「その薬が効かないこと」の証明には全くならないのです。

そのような結果が得られたとき,主張できるのは以下のことだけです(▼)。

今回得られた標本データは『効果の差=0』という仮説が正しかったとしても十分モデルに適合する(=確率的に十分得られうる)(=compatibleな)ものだった。母集団での真実は分からない。

つまり,母集団で効くかどうかは「判定保留」です。「無効の証明」ではありません。この時点で「本当は(母集団では)多少なりの効果がある薬」である可能性は,全く否定できません(※βエラー)。

ここに仮説検定の限界があります。

βエラーの可能性を否定できない
合わせて読みたい

この記事では 〈αエラー〉と〈βエラー〉とは何なのか? ということについて,基本的内容に絞ってまとめます。 さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]

② 無益性を示す目的の試験はできない

では〔無益性〕(=偽薬プラセボと差がないこと)を直接、、証明するための臨床試験は可能なのか? …… といえば,それもできません。

効能に関して「プラセボとの同等性試験」や「プラセボとの非劣性試験」をデザインすること自体は可能ですが,そのような試験は被験者に何のメリットも供しません

被験者にメリットがないことを期待して行う人体実験は倫理的に許されないため,実施は困難です。

ですから,ランダム化比較試験 RCT で「無益性」が直接的、、、に示されるようなことはほぼ無い,ということになります。

|無益性解析
なお臨床試験の途中で「これ以上続けても有意差は絶対出なさそう」あるいは「明らかに害の方が多そう」と明白になり,試験が中断される場合もあります。そのような途中解析を〈無益性解析〉と呼びます。あきらかに勝ち目のない(=新薬群の被験者にメリットがなさそうと明白である)試験を継続することは倫理的にもコスト的にも許容されないため,そのようなことが行われます。そうした極端に「見込み薄」なデータが得られた場合,後発 RCT での追加検証が行われることすらなく「効かない判定」が下されることもあります。製薬会社としても見込みが薄い薬の臨床試験は早いところで見切りをつけてしまい,別の新薬の開発にコストを投下した方が経済性の観点で合理的だからです。

サンプルサイズとの関係

では,私たちはいつ「効かない」判定が可能になるのか。

それは「十分な、、、サンプルサイズで差が出ないことがわかったとき」です。

たとえば,効くことを証明しようとする(効かない仮説を棄却しようとする)臨床試験が複数行われて,毎度毎度芳しくない結果が出続ければ……その結果を統合し

この規模の人数で差が出ないなら「効かない」と判断してよいだろう

という結論に落ち着くことになります。

ここでいう「効かない」とは「仮に効いたとしても効果量が小さすぎるので検出する価値がない」という意味です。

方法論としては,良質なデザインの RCT を複数集めて統合(メタ解析)することで,疑似的に大きなサンプルサイズで効果の推定を行うことが一般的です。統合されたサンプルサイズ十分、、集まったところで「差」がないと分かれば,そこでようやく「効かない」判定が下されることになります。

積極的に「効かない」ことが示されるのではなく,消極的に「効かない」という結論に収束していくイメージです。

本当に効かない薬なら,差がない方向に収束していく
※この段階でもまだ「効果量が0である」とは言えません。というより,母集団の全数調査を行っているわけでない以上,そのような主張は永久にできません。
|単一試験ではダメなのか?
そのような回りくどいことをしなくても,最初から十分大規模なサンプルサイズで試験をデザインして検証すれば,単発試験でもある程度高い精度で効果量の推定は可能なのでは?と思われるかもしれません。実際,検証的試験では「この程度の差がつかなければ臨床的に意味がないよね」というラインをあらかじめ決め,その差を十分検出できるだろうと見込まれるサンプルを集めて行われます(power analysis)。その試験で有意差にならなければ「最低ラインとして期待していた効果量よりは小さそう」と解釈されます。しかし,単一試験では「本当に効く治療」であっても純粋なエラーで検出し損なう可能性も高い(通例 βエラーは10〜20%まで許容する試験デザインが多い)という問題があり,必ずしも効果量が小さいとも言い切れません。また,試験デザインやバイアス,地理的要因などで偏った結果になる可能性もあるため,「まだ効果が否定されていない」という主張は常に可能です。実際「別の患者層にしていれば差がついたのでは?」「内服タイミングが悪かったのでは?」などと言い続ければ検証余地は残り続けます。そうしたこともあり,単一試験で判断するだけでなく,複数試験の一貫性を見た上で統合して検討することが好まれます。

「小さな効果量」はどこから先が検出不要か

問題は「この十分なサンプルサイズ」という恣意的な線引きをどこで行うかです。

サンプルサイズを大きくすれば小さな差も統計的有意と検出しやすくなりますから,膨大なデータを解析すれば,些細な差を「統計的有意」として検出することは可能です。

しかしそのような小さな効果量に臨床的意義はないため,検出する意味がありません。

つまり「十分なサンプルサイズ」が集まったという判定を下すということはこれ以上小さい効果量は検出しても仕方がないという線引きを行うこととほぼ同義です。

たとえば,ある疾患の罹患リスクが 50% に減らせる薬剤です!と言われても,1000 人に1人しか罹患しない稀な疾患ならば,0.1%のリスクを0.05%にできるだけです。

この薬剤は 2000 人に投与されて初めて,発症者を1人減らすことができる(NNT=2000)だけの効果量しかない,ということになります。

このような差を検出するために膨大なサンプルサイズの治験を行う意義は小さく,あまりにもコストに見合わないものです。

しかし,対象集団の罹患リスクが1000人に1人ではなく,100人に1人だったら? あるいはアウトカムが「罹患」ではなく「死亡」だったら? その基準はまた異なったものになるでしょう。

効かない証明は難しい。サンプルサイズが十分かどうかもある程度恣意的な線引きにならざるを得ない

線引きは誰がどう行うのか?

当然ながら,対象疾患やアウトカムの重症度によって「小さいとはいえ無視できない差」というラインは変わってきます。

どこから先が「臨床的に意味のない差」であって,どこまでが「臨床的にそれなりの意味がある差」なのか。その差を十分に検出するためのサンプルサイズはいかほど必要なのか。

適切なデザインの臨床試験の前には,必ずそうした計算が行われます(power analysis)が,その基準はどうしても一定程度恣意的になります。

予防のインパクトが大きく,かつリスクが小さい治療であれば,効果量が小さくても意味がある,と判定される場合もあります。逆にたとえ一見大きな効果量がある治療に見えても「採血の “値”」や「画像所見」といった代用アウトカムを改善させただけであれば,本質的には意味がないかもしれません。

臨床的意義の有無は,高度に専門的な判断となるため,専門家の中でも同じ「線引き」になるとは限りません。

また,特定集団には効果が今ひとつの薬剤でも,ハイリスク集団に限れば効果を示せる場合や,ある抗体が陽性のがんに限れば効果を示せる薬剤などもあります。そうした「特殊集団にだけ効く可能性」まで話を広げると,より「効かない」証明は困難になっていきます。

厳密な推定は「症例集積」を待つしかない

結局,現実的な「効果」がどの程度かは,時間が経って推測値が収束してくるまで(=サンプルサイズを十分集めたうえで検証されるまで)見通しが立たないものです。

そのため「効かなそうな薬」がきちんと「効かない」とコンセンサスが得られるまでにはそれなりの時間がかかります。

それまでの間,結論が曖昧な段階から前のめりにその治療を行なうということは,相当な不確実性を伴う行為となります。

もちろんそのような行為は公費でカバーすべきでない,というのが業界のコンセンサスです。
|メタ解析の補足
なお,同じ仮説検証のために類似デザインの RCT が複数回行われれば,その都度〈点推定値〉(平均値・発症割合など)は介入群 better に傾いたり対照群 better に傾いたりします。その薬が「効かない」という帰無仮説が正しい(=プラセボとの相対リスク RR が 1.00である)のであれば,これは五分五分ジャンケンの勝ち負けを競っているだけとも言えます(※実際には RR 1.00 であることの証明はほぼ不可能)。結局,1つ1つの試験のサンプルサイズが小さければ,バラツキの幅も大きくなり母平均(=母集団における真の効果)の推定は困難です。そこで,せめてサンプルを増やして誤差の幅を小さくするため,メタ解析を行うわけです。しかしメタ解析も完璧ではなく「どの試験を統合するか」という選択バイアスが生じます。そのため実際にはメタ解析そのものより「どの試験を組み入れるか」吟味する過程(=システマティックレビュー)こそ重要となります。

③「あなた自身の未来は誰にも分からない」問題

最後の問題は,もっと根本的な話です。

ここまでで取り上げた①②の内容は,主に統計学的仮説検定の手続き上の問題(論理構造上の問題)でした。

しかしそれ以前に,

臨床試験のデータは「他人のデータに過ぎない」

という問題が大きく存在しています。

研究では集団の期待値しかわからない

臨床試験に限らず,医学研究で処理されるデータは「アカの他人」のもので,しかもその「平均的な値」が示されるのみです。

実際には著効するケースもあれば重篤な有害事象に見舞われるケースもありますが,それらをならした〈平均〉が目の前に数字として与えられるだけ。「平均的にはこのあたりに落ち着くだろうという期待値」が分かるだけです。

しかし期待値がわかったところで,結局 他ならぬ「その人、、、自身」に「効くか効かないか」は,絶対に分からないわけです。

個々人のアウトカムの完全な予見はできない

詭弁のようですが,実際問題,未来のことは誰にも分かりません。

研究から推定できるのは「集団のアウトカム」だけ

であり,薬を投与された「個々人」にどのような結果が待ち受けているかは神のみぞ知ることです。

ある人には著効してチャンピオンケースになるかもしれない一方で,また別の人は重篤な有害事象に見舞われてしまうかもしれません。

ですからたとえ(平均的な)効果量が小さい〜全くない薬剤であっても,

他ならぬその人、、、には「効く」という可能性は否定できない

──とは,常に主張することができます。

このレベルでの「効くかもしれない」を否定しようとしても,それはいわゆる「悪魔の証明」です。原理上,絶対に否定できません。

医学に100%はない

そもそも医療行為が「未来の改善」を目指すものである以上,常に不確実性を伴います。

医師らは目の前の患者さんの状況と,過去の他人のデータの蓄積(=エビデンス)をすり合わせ「ほぼ効かなそう」「かなり効きそう」「五分五分くらい…」などと判断しますが,これはあくまで確率的な推論に過ぎません。

しかもその推定は,医師の経験などによって必ずバイアスを受けます。

結局どこまで突き詰めたところで「絶対に効く」「絶対に効かない」とは言えません。

医学に100%はない

── その意味で,結局すべての行為に対して半永久的に

「効かない」とは言えない

と主張できてしまうのです。

「3つの理由」まとめ

総括しますと,

  1. そもそも「統計学的仮説検定の論理構造」の問題
  2. 「無益性を示すための試験は倫理的に不可能」問題
  3. 「あなた個人の未来は誰にも分からない」問題

──これら3つの理由から,あらゆる医療行為・化学物質について,いつまでも

(少なくともこの人個人には)効く、、かもしれない

と主張することが可能です。

医療者の応え方は?

このような限界を踏まえた上で次に考えたいのは,こうした「効かないとは言いきれない治療」に対する医療者の向き合い方です。

対立する2つの意見

ここでは,大別して以下2つの対立意見があります。

  • 「かもしれない止まり」なら「使うべきでない」
  • 「効くかもしれない薬」なら「使えるべき」
専門用語では,前者は「αエラーに厳しい立場」で,後者は「βエラーに厳しい立場」です。

こと〈公的医療〉という観点に立つ場合,合理的なのは前者の立場です。勝ち目の低いギャンブルに公費を投じるわけにはいきませんから,当然のことです。

しかし科学的合理性から離れて倫理的立場や患者信条などを考慮したとき,後者の考え方を全て捨て置くことも難しくなります。

統計学的な立証に拘泥するあまり,それ以外の価値観に対して不寛容になりすぎることも健全ではないでしょう。

問題は,医学に必ずつきまとう「不確実性」に対して,私たちがどう向き合うか。そしてプロは患者さんに対してどのような情報提供をすべきか。だと思います。

効く期待値にはスペクトラムがある

そもそも,現実の医療行為は「効く」か「効かない」かと綺麗にシロクロ2分されるわけではありません。エビデンスの質によって,どの程度「効果が期待できるか」にはスペクトラムがあります(▼)。

効くかもスペクトラム
※一般に公的医療保険でカバーされる診療は上図の〔黄領域〕と〔赤領域の右端の方〕のみ

一口に「効くかもしれない治療」と言っても,それが上図のどのレベルのものを指しているのかで,話はだいぶ変わります。

そしてその領域のプロでなければ,そうした「レベル」について解像度高く理解することは容易ではありません。

だからこそ,医療者側の情報提供のあり方やモラルが問われているように感じます。

とくに COVID-19 のような新しい病気が現れた時,いきなり上図〔黄領域〕の薬剤が彗星の如く現れるわけではありません。〔赤領域〕の段階から,泥臭い検証を経て〔黄領域〕まで登るものが少しずつ出てくる,という地道なプロセスを経ます。

不確実性が高い治療が提唱されては否定されて……ということが,この数年いかにたくさん繰り返されたかは周知の通りです。

そしてその期間,医療者側は適切な情報発信ができていたでしょうか。

次回の記事では上記〔赤領域〕の医療行為に対して,私たちがどう向き合っていくべきか? 私見をまとめてみたいと思います。

合わせて読みたい

ある医療行為に対し,どの程度「効果、、」が期待できるかには,スペクトラムがあります(▼)。 たとえば COVID-19 のような新しい病気が現れた時,いきなり上図〔黄領域〕の治療法が彗星の如く現れるわけではありません。〔赤領域〕の[…]

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG