知らないと騙される!臨床試験の「闇が深い」エンドポイント 8 選

この記事は医療関係者の方向けです

製薬会社さんが配る薬剤パンフレットを見ると,立派なジャーナルに載った 立派な RCT の結果が必ず載っています。そしていつも「いい感じにまとまった図表」がバンと貼ってあり,大変目を引きます。

どうやら統計学的有意差もしっかり出ている様です。よかったよかった,じゃあこの薬は「効く薬」だ!早速患者さんに使おう……  

果たして本当に,それで良いのでしょうか?

この薬はちゃんと benefit が risk を上回るはずだ。

患者さんを前にして,私たちは自信を持ってそう断言できるでしょうか。

この点についてよく考えるためには,臨床試験の論文に目を通すしかありません。中でも特に注目すべきなのが〈エンドポイント〉,つまりその試験における評価指標です。

しかし臨床試験を読むためには,防護知識が必須です。特に医学論文の多くは過大評価させるための粉飾手段に溢れており,彼らの「やり口」にはこちらも精通している必要があります。

この記事では臨床試験結果を「過大評価」させるための手練手管,ヤバい〈エンドポイント〉粉飾手口について特集します。

臨床試験 RCT におけるヤバいエンドポイント粉飾 8 選
  1. 試合途中にルール変更──秘技ゴールポストずらし
  2. 治したのは「数値」だけ──代用エンドポイントの問題
  3. 現場で効果盛られ放題──非盲検 × ソフトエンドポイント
  4. ほとんどガラクタの「福袋」──やり過ぎ複合エンドポイント
  5. 仮説なんてどうでもいいの──多重検定しまくり問題
  6. 安全でした!試験中はね ──検出力ないのに棚上げ問題
  7. ここでは良いセンだったよね ── 試合後に印象操作(spin)
  8. 相対リスク 50 % 減!! ── NNT は ”宝くじ” レベル
この記事はネタ要素も多く含んでいます。また一部表現はやや過激な誇張表現になっています。一般的なエンドポイントの知識についてはまず以下の記事を参照下さい。扱っている内容はほぼ同じです。
エンドポイントの解説

この記事では,「医学系 RCT を正しく読む」ための必須知識となる,エンドポイントの種類についてまとめます。 エンドポイントの種類まとめ 真のエンドポイントと代用エンドポイント ハードエンドポイントとソフトエンドポイント 主要エンドポイ[…]

1.試験途中にルール変更

途中でルール変更

秘技ゴールポストずらし
  • 闇堕ち度:★★★★★
  • 遭遇頻度:★★
  • ステルス性:★★★

ヤバい粉飾手法の代表格として,やはり最初に挙げるべきはこれでしょう。

秘技ゴールポストずらし

臨床試験の実施前には,必ず評価項目やその解析手法について明記した実施計画書プロトコルを公開する必要があります。これは「後出しジャンケン」や都合のいいデータ解析結果のつまみ食い(P-hacking)を許さない様にする重要な取り決めです。

あらかじめ「試合のルールを明確にした上で,正々堂々戦います」── それが本来あるべき臨床試験の姿です。

しかしその根本部分にド直球で挑み「途中でルール変更」をするというパワープレイが,この「必殺ゴールポストずらし」です。

これは要するに,試験デザイン当初では〈主要評価項目〉primary endpoint として提出していたものを,後からこっそり「有意差が出せそうなエンドポイント」にすげ替えてしまうという裏ワザです。

例として下記の様なエンドポイント変更が挙げられます(▼)。

  • 当初「心血管イベントの発症(抑制)」を主要エンドポイントにしていたが有意差が出なさそうだったので,途中で「心・血管イベント+腎機能低下+全死亡(抑制)」という複合エンドポイントに変更
  • 当初「12症状合計スコア」の低下を主要エンドポイントにしていたが,途中から「5症状合計スコア」に変更(具体例はコチラ

いまだに蔓延る後出しジャンケン

いやいや,さすがにプロトコルも事前掲示してるんだから,そんな見え透いたインチキやられるわけないでしょ!

と思われる方もいらっしゃるでしょう。実際,私もそう信じていました。

しかし残念ながらこうした「後出しジャンケン」はいまだに少なからず実在しています。また,こうした根本的な問題を抱えた薬剤であっても,その点を認識せず世間の期待を煽ってしまうような報道は少なくありません。

─ ads ─

種まき試験 seeding trial に御用心

最初に「今から野球の試合をします!」と言って試合を始めたのに,試合途中(または試合後)に

実はこの試合,得点数ではなく「ヒット数とエラー数の比率」を競うゲームだったんです!

などということは,当然許されるはずがありません。

最初に「試合のルールを明記」し,そのルールを貫くことは,臨床試験において本来非常に重要なことであり,その掟破りは重大な問題です。

ですからこうした「大きなプロトコル変更」は,規制当局(米国 FDA や 本邦 PMDA)による薬事審査では鋭く突っ込まれます。そのため上市前の「露骨なやり口」はある程度弾かれます。

しかし薬事承認「後」に行なわれる研究(広告目的の研究*)や,そもそも上市を目的としないもの(自費診療前提の介入)の研究には注意が必要です。

これらはどんな設計で研究を組もうが自由であり,途中でエンドポイントを好き放題入れ替えようが,規制当局ほど鋭く指摘する人はいません。

もちろん論文を載せるジャーナルの査読者はチェックするでしょうが,最終的には雑誌編集部がどこまで許容するかという問題に過ぎません。どこかしらでは許容され掲載されることになります。

*こうした研究を種まき試験 seeding trialと呼びます。

「途中でルール変更」の見抜き方

論文読者である私たちとしては,このような破廉恥なウラワザを行った試験はきちんと同定する必要があります。

そして幸い,見抜き方はそう難しくありません。データベースで RCT のプロトコルを確認すれば良いだけです。

大規模な RCT であれば必ず事前にどこかのデータベースに プロトコルを登録しているはずですし,しばしば RCT のプロトコルだけで論文を1本出してます。ですからそこを確認するだけで,エンドポイントの変更履歴はすぐにチェックできます(▼)。

途中でルール変更の見抜き方
  1. データベースを確認して,登録時のエンドポイントを確認する
  2. プロトコル論文があれば,記載されたエンドポイントを確認する
  3. それらの記載と,最終的な発表論文に記載されているエンドポイントとの相違を確認する

データベースを確認してみよう

医学系臨床試験の登録データベースとしては,ClinicalTrials.gov(NCT) が最大手ですから,まずはここを確認しましょう。

一流雑誌に載るような大規模臨床試験の論文には,ほとんど必ず「NCT number…」と書いてあるはずです。アレはこのデータベースでの登録 ID のことです。

RCTの論文を読むときは,まずその本文に取り掛かる前に,この辺りに探りを入れた上で読むのも良いかもしれません。

なお,NCT データベースで「エンドポイントの変更歴」をチェックするには,該当トライアルのページで [Tabular View] という場所をクリックする必要があります(▼)。

実例:とある臨床試験 「FREED」
  • Clinicaltrials.govリンク先で “Tabular View” というタブをクリック➡︎ “Current Primary Outcome Measures”(表の6行目)と “Original Primary Outcome Measures”(表の7行目) が異なる内容であることが確認できる.この試験は当初から複合エンドポイントを主要評価項目としたものであったが,複合の中身が途中で水増しされている.なおこのウェブページでは “Change History” を見ることで編集履歴を全て確認することも可能.

FREED changed endpoint

2.治したのは「数値」だけ

代用エンドポイントに過ぎない

「代用エンドポイントに過ぎない」問題
  • 闇堕ち度:★★
  • 遭遇頻度:★★★★★
  • ステルス:★

次は「一番あるある」かつ「最も根深い問題」(解決が難しい問題)です。

代用エンドポイントの問題

代用エンドポイント(代理エンドポイント surrogate endpoint)とはその名の通り,「代用」のエンドポイントです。

本質的意義の大きい真のエンドポイント(=全死亡や心筋梗塞発症など)の代わり、、、に用いられる評価指標で,具体的には「採血データ改善」や「画像データ改善」などが該当します(▼)。

  • 「心血管イベント予防」の代用 ━▶︎ 血圧低下,LDL-C低下
  • 「認知症進行予防」の代用 ━▶︎ 脳画像データの維持・改善
  • 「全生存期間延長」の代用 ━▶︎ 腫瘍サイズ縮小・維持

なぜこの様な「代理指標」が必要かといえば,〈真のエンドポイント〉は確かに重大なイベントではあるものの,起きるイベント数が多くない,という問題があるためです。

たくさんイベントが起きなければ,介入群とコントロール群で差が付いたとしても,それが本当に統計学的に有意な差なのか(偶然では説明できないほどの偏りなのか)検証することは困難です。そのため〈真のエンドポイント〉で統計学的有意差を出すためには,よほど著効する介入でない限り非常に大規模な RCTを組まなければなりません。

しかしそのような大規模な試験はコスト的にも容易にできるものではありません。そのためまずは代用エンドポイント surrogate endpoint では有意差が出る」ということくらいは確認するというステップを踏むことが一般的です。

ただ問題なのは,「代用」エンドポイントを改善させても真のエンドポイントが本当に改善するかはわからないということです。場合によっては,むしろ悪い結果をきたす可能性すらあります。

経口血糖降下薬の問題

2000年〜2010年代にその点で問題となったのが経口血糖降下薬(=糖尿病薬)でした。

高度の高血糖はそれ自体が症状をきたすこともあるため,経口血糖降下薬は「血糖値を下げる」というだけでも意味があります。それによって多くの新薬が承認されてきました。

しかし高度高血糖でない人にとって,血糖値を適正域で維持する目標は「心血管イベントの発症抑制」であるはずです。教科書的にはそうだとされています。

ところが「心血管イベントの発症抑制」という観点から言えば,実は糖尿病薬のほとんどが代用エンドポイント(血糖の改善)まで証明することができていませんでした

そんな中,メタ解析の結果むしろ「血糖は下げるけど,心血管イベントは増やすかもしれない」という悲劇的な疑惑をもたらされた薬剤があり,非常に大きな問題になりました(ロシグリタゾン)。

Effect of rosiglitazone on the risk of myocardial infarction and death from cardiovascular causes|NEJM. 2007 Jun 14;356(24):2457-71. [PMID: 17517853]

「血糖は下がったけど心筋梗塞は増えた」では本末転倒もいいところです。この事態を重く見た米国 FDA が

『血糖値の低下』で適応の通った糖尿病薬は,ロシグリタゾンの様に心血管イベントを「増やさない」ことを最低限示しなさい!

と言い出す事態に発展しました。

以降,糖尿病薬は「市販後調査でプラセボと比べて心血管イベントを『増やさない』ことを示さなければならない」──つまり,心血管イベント発症率について「プラセボとの非劣性試験」(通称 CVOTs)を組まなければならないことになってしまったのでした。

|*補足
2020年現在も「糖尿病薬」として心血管イベント抑制をきちんと検証された薬剤は基本的にメトホルミンのみ.「心不全入院」というソフトエンドポイントに対してはSGLT2阻害薬も達成しているが,いまや糖尿病とは無関係に心不全薬として売り出しており,動脈硬化性の心血管イベント抑制とはまた別の話である

プラセボ比較の非劣性試験 ?!

プラセボとの「非劣性試験」ですから,そうして行われた試験は全て「安全性」を示すためのもの,ということになっています。

しかし,そもそも血糖値を下げる目的は「心血管イベントの予防」だったはずで,本来これは「安全性試験」ではなく「真のエンドポイントの検証」とされるべきものです。

本来プラセボ比較で「優越性」を示すべきものでまず最初に「非劣性」を示さなければならなくなってしまった。なんとも悲劇的というか,倒錯的な出来事でした。

もちろん各社は「プラセボ比較の非劣性試験」を実施しながらも「非劣性を示せたらそのまま優越性も検定する」という解析計画にしていました。「優越性試験で負けたから非劣性試験をする」という順序の検定はできませんが,「非劣性を示すついでに優越性も狙う」ということは可能だからです。とはいえそれで優越性を示すことができたものは全然ありませんでした。つまり数万人規模の試験でも「血糖値を下げる」ことで短期的に心血管イベント予防につながる薬はほとんどなかったということであり,糖尿病薬の不都合な真実とも言えそうな問題です(※ SGLT2i だけは “心不全入院” という項目で一定程度結果を出しました)。
|心血管イベントが安全性 ??
しかしいくら安全性に疑念があるからと言って,あらゆる新規糖尿病薬の「プラセボ比較の非劣性試験」を大規模(数万人レベル)の市販後調査で行うなんて,なかなかスゴいことです。「プラセボに劣らないことを示す」ための試験に被検者が参加しても得られる利益は基本的にないわけですからね。どうやって膨大な参加者を募ったのか気になるところです。

真のエンドポイントは闇の中

話が逸れてしまいましたが,ココから私たちが学ぶべき教訓は1つです。

代用エンドポイント改善は,真のエンドポイントに直結しないことがある

それどころか,かえって悪い結果を出す可能性すらある,ということです。

代用エンドポイントの見抜き方

この問題のチェック方法は簡単で,Abstract や Methods を見てPrimary endpoint の内容を確認するだけで済みます。

死亡や心血管イベントの発症など,普遍的な意義が確立されたアウトカムであれば問題ありません。しかし採血データや画像データの改善にとどまる場合は,結果の解釈(risk/benefitバランスの推定)には注意が必要になるでしょう。

尚この時,一見〈真のエンドポイント〉のように見えても,主観の入る余地のある〈ソフトエンドポイント〉の場合,注意を要します。代表的なものが,「心不全”入院”」などです。

次はその問題を論じたいと思います。

3.現場で効果が “盛られ” 放題

COIがズブズブなソフト×オープンは怖い

「ソフトエンドポイント×非盲検で自由自在」問題
  • 闇堕ち度:★★★
  • 遭遇頻度:★★
  • ステルス:★★

エンドポイントのハードとソフト

主観が入り込みにくく臨床的インパクトの大きいエンドポイントのことを〈ハードエンドポイント〉と呼ぶ一方,主観的な判断基準で恣意的に水増しできる様なエンドポイントを〈ソフトエンドポイント〉と呼ぶのでした。

具体例:自覚症状,全般改善度

ハードエンドポイントよりもソフトエンドポイントを据えた試験の方が小規模で済むため,コストの問題から(研究者やスポンサーに)好まれる傾向があります。

例えば「心筋梗塞の発症(カテーテル検査で確定診断)」といった”ハード”なものではなく,「心不全症状による“入院”」「狭心症の”症状”」などいくらでも水増しできそうな”ソフト”なものをアウトカムに据える試験は,星の数ほどあります。

もちろん,ソフトだからいきなり悪であるわけではありませんが,読者としては「バイアスの匂い」に気をつけなければなりません。

ソフトエンドポイントは盲検化が命

ソフトエンドポイントを据えた試験で重要なことは,

盲検化 masking が徹底されているか?

という部分です。

ソフトエンドポイントであったとしても,現場の医師やアウトカム評価者が

  • スポンサーと一切利益相反関係にない
  • しっかりと盲検化されている

のであれば,バイアスリスクをある程度抑えることはできます。しかし非盲検open label試験」にこの〈ソフトエンドポイント〉が組み合わさると最悪です。

たとえば「入院」は医者やアウトカム評価者による「判断」ですが,その人達がスポンサーとズブズブの関係であったりした場合,その「判断」の基準を恣意的に調整することができてしまうからです。これでは「control 群側で少し閾値を下げて入院させる,新薬群ではあまり入院させない」といったことも自由自在です。

その判断をする人物が,その製薬会社と本当に利益相反関係がないのか?徹底的に洗わない限り結果はバイアスされたものと考えるのが妥当でしょう。

PROBE は非盲検

尚,〈ソフトエンドポイント〉と組み合わせれることでバイアスリスクを生み出すものは,何も純粋な非盲検試験だけではありません。近年よく見かける PROBE(Prospective Randomized Open Blinded-Endpoint)法というデザインにも注意が必要です。

PROBE は名称に『Blinded』が入っていますが,結局のところ非盲検オープン試験です。PROBEの【O】は Open の【O】。盲検化されるのはアウトカム評価者だけで,現場の医者や被検者は割り付け結果を知ってしまっているのです。

つまり観察を行う『最前線』が盲検化されていないわけですから,結局バイアスを防ぎ切ることができません。

まず被験者からすれば,自分がコントロール群か介入群かはわかっていますので,プラセボ効果やホーソン効果の影響をしっかり受けてしまいます(▼)。

プラセボ効果とホーソン効果

また現場の医師も,評価すべきイベントの報告基準を,かなり恣意的に決めることができます。そのため都合のよいデータが選択された上で報告される危険性が残ってしまうのです。

PROBE 法には「コストが低く済み,研究が容易」というメリットがあり,近年では多くのスポンサー主導試験で導入されています。しかし実際にはディオバン事件のような悲しい実例もありました。

スポンサー主導 × PROBE × ソフトエンドポイント= バイアスの塊

というのは後世に伝えるべき大きな教訓と言えるかもしれません。

ソフトエンドポイント × 非盲検の見抜き方

この問題の見抜き方も,非常に簡単です。

まずソフトエンドポイントかどうかは,Abstract や Methods に目を通して〈Primary endpoint〉が何かを確認するだけです。ここが自覚症状など「解釈次第で増やせそう」な内容になっていればソフトエンドポイントと考えて良いでしょう。

またオープン試験であるかどうかの見抜き方はさらに簡単です。まず盲検化 masking されている試験であれば,Double-blind といった記載が Title や Abstract レベルで強調されていることがほとんどだからです。もし Title や Abstract に そうした記載が無くとも,本文の Methods には必ず記載があります。

盲検化がどこまでされているか要チェック

なお,ここで注意すべきは,double-blind 試験であっても,アウトカム評価や解析担当者は masking されていないことがありうる,という点です。

double-blind というのは一般に被検者(=患者さん)と現場の医師に対して割付け結果が盲検化されている,という意味でしかありません。

本来は評価者まで盲検化されていれば triple-blind,解析者まで盲検化されていれば quadriple-blind ということになるのですが,あまりこの言葉は流行っていないよう(?) で,実際には double-blind と標榜している RCT の中にこれらが混在している印象です。

|割付け結果に対する盲検化の度合い
  • 4重盲検:下記に加えて解析担当者まで masking
  • 3重盲検:被検者と医師と評価者の全員が masking
  • 2重盲検:被検者と医師の双方が masking
    • 注)実質的には評価者も盲検化され,三重盲検になっていながら,わざわざ三重盲検と書いていないことがある
  • 単盲検:被検者のみ masking,医師や評価者には筒抜け
  • 非盲検:被検者も医師も評価者も全員オープン
    • PROBE法:評価者のみ masking,被検者や現場医師には筒抜け

4.ほとんどガラクタ「福袋」

詰め合わせセット

複合エンドポイントで「悪質な福袋」問題
  • 闇堕ち度:★★★★
  • 遭遇頻度:★★★
  • ステルス:★★

複合エンドポイント

RCTをデザインする際,そのプロトコルを提出する段階で 〈Primary endpoint〉即ち「最も大切な評価指標」を1つ選定して明記することが求められます。

ただ1つの重要なアウトカムのみに仮説検定を行うからこそ,適切な 症例数計算をして必要十分なサンプルサイズを集めて試験を実施できるのですし,何より多重検定の問題回避にもなります。

しかし,昨今この primary endpoint を「詰め合わせにしてしまおう」という試みがよく見られるようになってきました。こうした「詰め合わせエンドポイント」のことを,複合エンドポイント composite endopoint と呼びます。

複合エンドポイントが用いられる主な理由は「イベント発生数を『かさ増しする』ことで検出力 power を高めるため」です。

許容できるパッケージ

このような「詰め合わせセット」は,ある程度医療現場でのテンションが近いイベントのパッケージであれば許容されるものと考えられます。

例えば,心筋梗塞+不安定狭心症による緊急カテーテル治療+脳卒中+それらによる死亡といった複合エンドポイントです。

この場合,その内のどれが起きても臨床現場に与えるインパクトは大きく,また病態としても全て急性の血管障害であり,類似しています。この複合エンドポイントで統計学的有意差をしっかりつけられる介入があるのなら,その介入は確かに価値があるものと言えるでしょう。

この組み合わせはよく使われるエンドポイントの1つで,俗に 4 MACE (major adverse cardiovascular events) と呼ばれます。

許容しがたいパッケージ

しかし,同じ「複合エンドポイント」と言っても,それが

脳心腎血管疾患それ以外による死亡+脳卒中+冠動脈疾患の発症+心不全による入院+治療を要する動脈硬化性疾患の発症+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生

というものであった場合は,どうでしょうか?

このパッケージがトータルで増えただの減っただのと言われても,臨床現場にどれほどのインパクトがあるでしょうか?全くわかりません。

上記の複合エンドポイントの中では,死亡も脳卒中も顕性蛋白尿増加も,すべて同じ 1 加算として数えられているということです。「死亡」が増えるのと「顕性蛋白尿の増加」が増えるのとでは,あまりにも臨床現場へのインパクトが違います。

この複合エンドポイントで「増えました!」「減りました!」などと言われても

で,どれが増えたんですか?その中で一番大事なものは結局どれですか?その大事なやつ単体で有意差はついたんですか?

という様にツッコミどころ満載になってしまうのです。

たとえば仮にこの複合エンドポイントの NNT が 3年で 20 だったとしたら,その薬効はどう説明したら良いのでしょうか。

このお薬を 3年飲み続けると,20 人に 1 人は脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+冠動脈疾患の発症+心不全による入院+治療を要する動脈硬化性疾患の発症+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生のうちのどれかが防げますよ!

などと正直に説明したら,患者さんから「バカにしてんのか?」と言われてローキックをキメられても仕方がありません(▼)。

Luckybags

「ガラクタ福袋」の見抜き方

このようなエンドポイントも,概念を理解してしまえば見抜くことは簡単です。

まずは論文のエンドポイントの部分に “composite” という単語があるかどうか確認します。そして composite だった場合には,具体的に何がセット扱いされているか確認しましょう。

そしてそのパッケージを許容できるかどうかは,読者である私たちが自分で判断することになります。

5.多重検定しまくり問題

いつかは有意差が必ず出る

「多重検定しすぎ」問題
  • 闇堕ち度:★★★★
  • 遭遇頻度:★★★
  • ステルス:★★

多重検定の問題とは,1つの試験で何度も〈統計学的仮説検定〉を繰り返すことによって生じるエラーの問題です。

最近は統計の扱いが厳しくなっているため,一流誌でこの点を落とす論文を見かけることはほぼ絶対にありません。しかし査読があまり機能していない雑誌の論文やニュース記事においてはいまだに多くの誤解を見かけますので,注意が必要です。

多重検定の問題

統計学的仮説検定において p = 0.05 を閾値としてそれ以下を「有意」と取る時,5%の確率で「本当は差なんてないのに差があると勘違いしてしまう(=αエラーを起こす)リスクを包含するのでした。

しかし,これはあくまで1つの仮説検定についての話に過ぎません。1つの臨床試験で何度も何度も仮説検定を行なった場合には,もっと多くのαエラーを包含することになります。

たとえば p<0.05 となる項目が,secondary endpoint に 10個 あったとき,その全てを「統計学的に有意」と主張して良いのでしょうか?このとき私たちが犯しうるαエラーの確率は,まだ 5%に収まっていると言えるでしょうか?

答えは当然 NOです。

1つ1つの仮説検定で αエラーのリスクを 5% ずつ有するわけですから,その全てが本当に「有意」である確率は,

(1 – 0.05)10 = 0.598 ≒ 60 %

です。つまり 40%の確率で,少なくともどれか1つは「本当は差がない」と言うことになります(=αエラー)。そしてその αエラーが10個のうちのどの仮説で起きているかはわかりませんから,どの結果を信じていいのかは分かりません。

ここから分かるように,二次評価項目やサブグループ解析で大量に並べられた P値の中で多少小さい(p<0.05)ものがあったとしても,それを安直に「有意」と解釈してはならないということです。

検定する「仮説」を何度も何度も入れ替えて統計学的仮説検定を行いつづければ,いつか必ず P 値が低くなる「仮説」を見つけ出すことはできます。しかしそれは「手元のデータセットに対して過度に適合した偏り」を一生懸命見つけ出すだけの行為に過ぎないのです。そのような偏りを見つけたところで,母集団に一般化しにくくなることは自明です。

ですからたまたま P値が低い仮説を見つけたからといって「有意性」を主張することはできないのです。仮説探索としては許されますが,少なくとも仮説検証として扱われることはありません(ボンフェローニ法など多重性の補正を行う場合は別)。

合わせて読みたい

この記事では,医薬品に関するリテラシーとして必須知識である 「仮説検証」と「仮説探索/提唱」の違い について解説します。 「統計的に有意」は等価ではない 医学研究には多くの種類がありますが,ほとんどの研究で最終的に〈統計的に有意[…]

|多重検定と P値ハッキング
なお,事前に仮説を立てず手当たり次第に検定を繰り返して P値が低くなるものを見つけた上で「あたかも最初からその項目だけをピンポイントで検定していましたよ」というように論文にまとめてしまう行為のことを「P 値ハッキング」と呼びます。これの何がいけないかというと,一体何回の多重検定が先に行われたかが全くわからないため,どれほどのαエラーの確率を内包しているか分からないという所です。RCT を組む際に「試験開始前から Primary endpoint についてその解析方法も含めてプロトコルに記載させて提出させる」と言うのは,これを防ぐための施策の1つです。

多重検定の見抜き方

多重検定の問題を確認するには,まず Secondary endpoint やサブグループ解析結果について示した図表を確認しましょう。

そして,その図表の中で〈仮説検定〉を繰り返しまくっていないか ── つまり「ゴチャゴチャ P値を列記していないか?」を確認します。

もちろん P 値を列記すること自体には何の問題もありません。しかし,そのような多重検定を行なっておいて,同じ有意水準(p=0.05)を採用して判定しているかのような記述があった場合(p<0.05 の項目についてうっかり significant と言ってしまっているような場合)はアウトです。

有意水準を 0.05 より厳しくするといった補正を行なった形跡がないのであれば,その論文は多重検定の問題を抱えていることになります。

もし複数個の仮説検定で同時に有意性を主張したいのであれば,ボンフェローニ法やダネット法,ホルム法など特定の補正法を用いてきちんと補正しなければなりません。わかりやすいのはボンフェローニ法で,仮説検定を行う回数分だけ有意水準を割っていく,という手法です。たとえば 2 回仮説検定を行うのであれば,有意水準 0.25 に厳しくする。4 回行うのであれば,0.125 にする。その様にしてトータルでのαエラーの確率(ここでは 5%)を維持する補正法です。

シンプルな結論

ただそうした細かい理論的なことは置いておいて,以下の様に考えてしまえば済む話です。

Primary endpoint 以外は “眉唾”

これさえ分かっていれば,後はなんでも良いかもしれません。結局 Primary endpoint 以外については何も検証的なことは言えないし,言うべきではないのです。

6.安全でした!試験中はネ

RCTは”安全性”を示すのに向かない

「検出力ないのに安全性を強調しちゃう」問題
  • 闇堕ち度:★★★★
  • 遭遇頻度:★★★
  • ステルス:★

先述したように〈Secondary endpoint〉というのはあくまで「オマケ」のデータ解析に過ぎません。しかし多くの新薬の RCT では,secondary の方に「安全性(有害性)のアウトカム」を据えています。そこで,

「安全性(有害性)のアウトカム」でコントロール群と比べて有意差がつくようなことはありませんでした!良かったです!安全です!

と安全性を強調する論調が見られることがありますが,注意を要します。

Primary 以外は全部オマケ

そもそも臨床試験というのは原則として「有効性」を示すための研究です。

そのため照準はあくまで「有効性」の〈Primary endpoint〉に合わせてあり,サンプルサイズもそこで有意差を出すために必要十分な数を推算し募っています(power分析)。

安全性のエンドポイントに照準を合わせているわけではないのです。ですからそちらに関しては power分析など行なっていませんし,むしろ有意差は出ない方が良いくらいです。

糖尿病薬の CVOTs のように,有害事象や安全性を Primary Endpoint に据えるた市販後調査(安全性試験)は例外です。

有意差なし ≠ 差なし

また,有害性のエンドポイントで「統計学的有意差がつかなかった」としても,イコール安全ということには全くなりません

統計学的有意差がないということは,帰無仮説(=安全性に差がないという仮説)を棄却できないというだけのことであり,帰無仮説が正しいことを主張するわけではないからです。

  • 「本当に差がない」のか
  • 「サンプルサイズが小さかったから差を検出できなかった(=βエラー)」=「数倍の人数でやれば統計学的にも有意になる」のか

このどちらなのかは,誰にも分かりません。にも関わらずこの問題を棚上げして安全性を強調した記載をするのは,非常に危険な思想です。

RCT は「害」の検出に向かない

そもそも薬剤副作用による重篤なイベントは稀ですから,よほどの毒薬でない限り臨床試験で有意差がつくことはほとんどありません。

第 III 相試験の様な数百人レベルの RCT で〈統計学的有意差〉を持って有害性が示されなかったとしても,ただ power 不足なだけであることがほとんどです。つまり「本当は差があるのに,標本が少な過ぎてその差を検出できなかった」というβエラーだということです。

むしろ「あまり起きないけれど重大な副作用」が「プラセボと比べても本当に全然増えません」と頑健に示すためにはめちゃくちゃ膨大なサンプルサイズが必要であるため,臨床試験での証明は不可能と言っていいでしょう。

ですから,新薬の本当の意味での安全性の検証は,薬剤承認後にその薬が世の中に広く流通してから『市販後調査』という形でしか行えません。その規模のサンプルサイズでなければ検出されないからです。

臨床家が口を酸っぱくして「新薬は 2 年寝かせろ」だとか「3 年寝かせろ」だとか言うのはそういうことです。

RCTの少人数では統計学的有意差が出なかった有害事象が,リアルワールドで1万人,10万人,100万人レベルに処方されたとき,無視できない頻度で報告される様になる,ということは大いにあり得ることなのです。

近年の例だと,免疫チェックポイント阻害薬による数多の自己免疫性疾患の惹起が問題となりました。irAE による心筋炎,甲状腺機能異常,わけのわからない神経疾患(筋炎合併の重症筋無力症)などで循環器内科,内分泌内科,神経内科は完全に虚をつかれた形だったと思います。

あくまで重要なのは risk/benefit バランス

もちろん「有効性」や「その他の面でのメリット」が従来手法と比べあまりに絶大・画期的なケースであれば,稀な副作用なんてどうでもいいからとりあえず早く使いたい,という意見はあっても良いと思います。

要するに,risk/benefit を当事者がよく理解して使っているのであれば問題はないのです。

ただ,主要評価項目で好ましい成績が出せなかったばかりに,副次評価項目だったはずの安全性のエンドポイントを急に前面に出して押してくる様な論文は,ゴミ箱行きだということです。

そもそも臨床試験で頑健な安全性は全く示せませんし,その様な「すり替え」は許すべきではありません。

7.試合後に印象操作(spin)

すり替えてspinしちゃう

結論をすり替えて粉飾的記載 spin をしちゃう問題
  • 闇堕ち度:★★★★
  • 遭遇頻度:★★★
  • ステルス:★

Spinとは,本来検証したかった 主要評価項目で有意差が出せなかったばかりに,良い傾向を示した他のアウトカム(副次評価項目や,そのサブ解析)を強調して conclusion や abstract に記載する粉飾的記述のことです。

なぜ spin が起きるのか

なぜこのような悲しい記載が起きてしまうのか?答えは単純です。

主要評価項目で思う様な結果が出せなかったとき,Conclusionで

主要評価項目では有意差が出ませんでした。

だけだと寂しい気分になってしまいます。ですから気を紛らわせるために,本来オマケに過ぎなかったはずの他項目での有意性を強調してしまう。

Spin はそんな研究者たちの,悲しい断末魔なのです。

そうした「何らかの有意性」を示さないと,ジャーナル側がアクセプトしてくれない傾向がある,という業界全体の問題もあるのでしょう。

しかしこの時,先述した「多重検定」の問題を解決できていないにもかかわらず,secondary や explaratory のエンドポイントでの有意差を強調するのは完全に禁じ手です。

特に explaratory endpoint(探索的エンドポイント)などという,primary でも secondary でもない完全に後付けの解析で「有意差が出ました!」と言われても,そのウラで一体どれだけ多重検定が行われたのか全くわかりません。そのような後出しジャンケンは許されるべきではありません。

ハックした P 値で spin なんて言語道断です。

P 値至上主義の弊害

これらは「p 値至上主義」が横行してしまったことの弊害であると言えます。

〈統計学的な有意差〉が十分に出なかったことをまるで汚点であるかの様に隠してしまい,逆に〈有意差〉が出た項目を(たとえそれが臨床的に意味がある項目か疑問でも)祭り上げてしまう。

業界自体が「5% の呪い」, Significantosis(有意病) を患ってしまっているのかもしれません。

アメリカ統計学会(ASA)も声明を出すなどして「p値至上主義」への警戒を強めていますが,なかなか解決する兆しはなく,根が深い問題のようです。

Spin の 見抜き方

Spin

Spin の見抜き方は,その概念さえ知っていれば容易です。

要するに,primary endpoint で有意差がついていないのに,別の項目で小さい P値になる仮説が出たことを祭り上げていればそれは spin です。

これを見つけると,なんだか研究者の悲しいうめき声が聞こえてくる様で,いたたまれない気分になります。その研究者だって本当は primary endpoint で有意差を出してバン!と自信を持って発表したかったでしょうからね…。

ありがちな spin の例を下記に列記しておきます。

ありがち Spin とその問題点
  1. 安全性を強調
    • はじめから安全性検証のために設計された RCT でない限り,有害性のアウトカムで有意差がつかなくてもサンプルサイズ不足によるβエラーの可能性が高い.鵜呑みにすべきではない.
  2. 副次評価項目を強調
    • 多重検定の補正がされていないのであれば,αエラーの可能性が高い.真に受けるべきではない.
  3. 探索的エンドポイントやサブグループ解析結果を強調
    • その裏でどれだけたくさんの多重検定が行われているか不明であり,再現性に疑問が残る.P 値ハッキングの疑惑も残る.
なお,spin にも厳しい journal とユルい journal があるようです。インパクトファクターの高いジャーナルでも spin は許容されていることがあるため,やはりこれも読者のリテラシーが問われる問題です。

8.「NNT が宝くじレベル」問題

NNTが宝くじ

「NNT が宝くじレベル」問題
  • 闇堕ち度:★★★
  • 遭遇頻度:★★★
  • ステルス:★★

最後に取り上げるこの問題は,これまでとは少し性質が違います。バイアスや解析の問題ではなく, 効果量 effect size の話だからです。

これは「効きはするけど効果が非常に小さい」とき,副作用や金銭的コストをかけてまでその治療を受けるか?という非常に実際的な問題です。

相対リスクと絶対リスク

ある新薬 α の RCT 結果についてイメージしてみてください。その薬を飲むことで,

疾患 Aの発症リスクが 50% に減りました!

と書かれていたとします。なんだかスゴいリスク低減効果の様に見えます。しかしここに数字のマジックがあります。

「相対リスク50%」と一口に言っても,

  • 「発症リスクが 20% から 10% に低下」した場合
  • 「発症リスクが 1% から 0.5%に低下」した場合

いずれの可能性もありうるからです。

この2つの大きな違いは,実際に 1000 人に内服してもらうシチュエーションを想定してみればすぐにわかります。

前者のケースであれば,1000人がその薬を内服すれば,本来は200人(20%)が病気を発症するところだったのを,100人(10%)の発症に抑えることができます。つまりその「差」にあたる 100 人が利益を得られる(疾患にならずに済む)ということであり,この 100人にとっては「飲む価値のある薬であった」と言えます。

1000人内服して,100人が得をする。つまり 10 人内服するごとに 1 人助かる人が出る,ということになります。これが NNT (number needed to treat) = 10 という意味です。

いっぽう後者のケースでは,1000人がその薬を内服しても,もともと10人(1%)しか発症しないのが 5人(0.5%)に減るだけです。つまり薬のおかげで助かるのは,差分の 5人だけ。1000 人の内服で 5 人だけだということです。これは 200 人内服してようやく 1 人が助かるという計算であり,NNT (number needed to treat) = 200 ということです。この1人に自分がなるよりもロトシックスのほうが当たるくらいです。

絶対リスク表記と相対リスク表記の違いは,これほどまでに大きいのです。

メディアにしろ製薬会社にしろ研究論文にしろ「数字のインパクトを大きく見せたい」という思いが背景にあるため,多くの場合,絶対リスクではなく相対リスク表記を採用しています。

つまり,読者がみずから計算しない限り,NNTという大事なデータは前面に出てこないことが多いのです。計算自体はさほど難しいものではありませんので,臨床試験の RCT を読むときは必ずチェックする様にしましょう。

NNT の見抜き方(計算方法)

特に「発症割合(単位%)」から NNT を計算することは非常に単純です。

NNT の計算方法(発症割合)

  • 絶対リスク差 ARR = Control群の発症割合 – 介入群の発症割合
  • 治療必要人数 NNT = 1/ARR

先ほどの例で,例えば 20% の発症割合を 10% にできたケースでは,絶対リスク差 ARR は 0.2 – 0.1 = 0.1となります。NNTはその逆数ですから,10 と求めることができます。

NNT の計算方法(発症率)

しかし「発症(単位 patient-year)」での比較となると若干計算式が煩雑となります。

〈率 rate〉という単位は〈割合 proportion〉と異なり時間的な概念を含みます。そのため,発症率をもとに NNT を計算する場合には,時間を加味して〈累積発症割合〉というものを算出し,その差の逆数を見るのが一般的です。

積分したりなんだりする過程で, ネイピア数(e)なんかも出てきたりします。数学的な細かい証明は省きますが

$$\begin{eqnarray*}R_0 &=& 1-e^{(-\text{Control群のイベント数}/\text{時間})}\\
R_1 &=& 1-e^{(-\text{介入群のイベント数}/\text{時間})}\\
\text{NNT} &=& 1/(R_0-R_1)\end{eqnarray*}$$

と計算することになります。ギョッとした方もいらっしゃるかもしれません。私も最初はギョッとしました。

しかし大丈夫です。こんなクソめんどくさい計算をしなくても,ネットには無料計算ツールが落ちています(ClinCalc)。このサイトに行ってデータをブチ込むだけで NNT は即,計算可能です(割合でも率でも可)。便利な世の中です。

合わせて読みたい

今回の記事では,特に誤用や誤解の多い〈割合〉と〈比〉と〈率〉の違いについて簡潔にまとめます。 本頁で扱う内容のまとめ 〈割合 proportion〉 ── 時間的概念を含まない|単位 % 〈率 rate〉 ── 時間的概念を[…]

作り出される「有意差」の怖さ

有意差は作り出せる

ここまで,臨床試験の効果を過大評価させる「8つのヤバい手口」について見てきました。

結局,統計学的な有意差などというものは,データの解析方法を変えればいくらでも生み出すことができるということです。

ほとんど無価値の薬であっても「後付けでエンドポイントをいい感じに設定し直せば」,一見価値がある様なデータに粉飾することはいくらでも可能です。そして何かしらで有意差が出れば,どこかしらのジャーナルに載せることは可能です。

  • 途中でエンドポイントを変更しようが
  • エンドポイント自体が現実世界では意味のないものになっていようが
  • たくさんのエンドポイントを複合したものになっていて結局どこで差がついたんだか不明になってようが

構いません。そうした「やばいエンドポイント問題」を抱えた RCT の論文を,ジャーナル側がアクセプトするかしないかは,その雑誌の編集部の方針次第でしかないからです。

一流ジャーナルにも溢れる「やばい RCT」

残念なことに,インパクトファクターが 20 を超えて一流とされる有名雑誌であっても「やばいエンドポイント」の RCT なんていくらでも載せてます。

いかに有名ジャーナルであっても,本質は商業誌です。「データは読者が自己責任で判断してね❤️」ということであって,その内容をどう解釈しようが責任は取ってくれません。

そしてひとたびそうしたジャーナルに結果が載ってしまえば,あとはそのデータをどんな風に広告しようが,それもまたスポンサーの自由です。

理解できない人,自ら確認しない人は騙され利用されるしかありません。

結局,私たちのやるべきことはただ1つです。自らの統計リテラシー・論文リテラシーを高めるしかない。元データを見て「自分の脳みそで考える」しかない。

そうして医療者が当事者意識を持って薬剤の適応を考える様になれば,この業界がそんな人ばかり溢れる様になれば,徐々に構造は変わっていくかも知れません。

この記事がそんな流れの一助になれば,それに勝る喜びはありません。

まとめ

Thinking light

「やばいエンドポイント」を用いて有意差を作り出した医学論文は,実はたくさんある。代表例は,以下の通り。

臨床試験 RCT におけるヤバいエンドポイント 8 選
  1. 試合途中にルール変更──秘技ゴールポストずらし
  2. 治したのは「数値」だけ──代用エンドポイントの問題
  3. 現場で効果盛られ放題──非盲検 × ソフトエンドポイント
  4. ほとんどガラクタの「福袋」──やり過ぎ複合エンドポイント
  5. 仮説なんてどうでもいいの──多重検定しまくり問題
  6. 安全でした!試験中はね ──検出力ないのに棚上げ問題
  7. ここでは良いセンだったよね ── 試合後に印象操作(spin)
  8. 相対リスク 50 % 減!! ── NNT は ”宝くじ” レベル

参考文献

  • JAMA Users’ Guide to the Medical Literature (3rd Edition)
    言わずとしれた名著。これさえ読んどけばなんとかなる。原著の英語版がオススメです。Amazon
  • 医学文献ユーザーズガイド(訳:相原守夫)
    上記の日本語版。実際に読む医学論文は全て英語なので,本書も原著の英語版がオススメなのですが,セットで日本語訳も確認するという使い方は結構いい感じです。Amazon
  • 臨床論文のMethods を読む Method(著:笹渕裕介)
    基本的内容をしっかり押さえて教えて頂ける名著です。Amazon
  • 今日から使える医療統計(著:新谷歩)
    米国で生物統計家としてのキャリアがある先生の著書で,非常に説得力がありつつ難しくなり過ぎない内容にまとまっています。すきです。Amazon
  • 〈J-CLEAR主催座談会〉no.4885 2017.12.9
    全臨床家が読みこむべき興味深い議論です。糖尿病薬やDOACの臨床試験に関する不都合な真実にもかなり鋭く突っ込んでいます。日本医事新報社

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG