【闇】知らないと騙される臨床試験の「ヤバいエンドポイント」8 選【完全保存版】

この記事は医療者・研究者の方向けです

臨床試験の論文を読む時,皆様は【エンドポイント】についてどの程度気にしておられるでしょうか?

御手元に,製薬会社の薬剤パンフレットがある状況を想像してみてください。

そこに記載してあるのは,立派なジャーナルに載った 立派な RCT の結果です。
いい感じにまとまった図表がバン!と貼ってあり,目を引きます。

どうやら【統計学的有意差】がしっかり出ている様です。

しかしそれが,手練手管を使って『作り出された有意差』だったとしたら?

本当はそこに本質的意味なんてないのだとしたら?

そんなことを考え,ふと不安になったご経験はないでしょうか。

今回は,臨床試験の RCT を読むにあたってメチャクチャ!!
重要な〈エンドポイント〉に関するチェック事項をまとめてみたいと思います。

臨床試験 RCT におけるヤバいエンドポイント 8選

  • 「試験途中にルール変更」のインチキ
  • 「代用エンドポイントに過ぎない」問題
  • 「ソフトエンドポイント × オープン試験で自由自在」問題
  • 「複合エンドポイントで”悪質な福袋”」問題
  • 「二次エンドポイントで多重検定しすぎ」問題
  • 「検出力ないクセに安全性を強調しちゃう」問題
  • 「エンドポイントすり替えて記載しちゃう(spin)」問題
  • 「NNT が ”宝くじ” レベル」問題

そもそもエンドポイントとは?

まず本題に入る前に,基本的事項のおさらいをさせてください。

Endponint エンドポイントとは,治験や臨床試験(ランダム化比較試験)において,

新しい薬(ないし手法)の有効性や安全性をはかるための指標

です。

日本語ではそのまんま〈エンドポイント〉や〈評価項目〉と呼びます。

単に〈アウトカム〉(結果)と言う場合もあります。

エンドポイントは,臨床試験の様な RCT を実施する前に,必ず「実施計画書(プロトコル)」に記して提出する必要があります。

解析方法をどうするかも含めて,あらかじめ決めておくのです。

これにより「後出しジャンケン」や「多重検定からのデータドレッシング(p値ハッキング)」といったインチキを許さない様にしているのでした。

エンドポイントの解説

この記事では,「医学系 RCT を正しく読む」ための必須知識となる,エンドポイントの種類についてまとめます。そもそもエンドポイントとは?Endponint エンドポイントとは,治験や臨床試験(RCT)において,新しい薬(ないし[…]

エンドポイントを見る上で重要なこと

では,【ヤバい臨床試験】では,このエンドポイントについて一体どんな裏技を使って,有意差を作り出しているのでしょうか。

逆に私たちはどの点に着目すれば,その「やばさ」を見抜くことができるようになるのでしょうか。

今回の記事は実際にその代表例を8つ見ていくわけですが,先に結論をいってしまうと,実はその要点は以下の2つに集約されるように思います。

それはつまり,

  1. そのエンドポイントは『本当に意味があるか』?
  2. 結果が出たとして『その結果に普遍性はあるか』?

これだけです。

本当に意味があるか?

「本当に意味があるか」ということは,突き詰めれば

  • そのアウトカム自体に「現場での価値」があるか?
  • アウトカムの「差」は「意味があるほどの『差』か?」
  • 副作用リスクやコストと天秤にかけても「意味がある」と言えるか?

ということです。

─ ads ─

結果に普遍性があるのか?

そして「結果に普遍性があるか」ということは,突き詰めれば

  • その研究の質にはどの程度の信頼性があり,どの程度バイアスリスクがあるか?全く同じデザインの研究を別の研究者がやっても再現性があるのか?
    (=内的妥当性の問題)
  • その研究結果は「特定の状況の特定の人物にだけしか当てはまらない」ものではないか?目の前の問題に応用して良いものなのか?
    (=外的妥当性の問題)

ということです。

以下では実際に数々の「やばいエンドポイント問題」を見ていきますが,結局は全て,上記のいずれかの問題に他なりません。

上記のいずれかを著しく損なう行為であるために「やばい」のです。

やばいエンドポイント 8 選

「試験途中にルール変更」のインチキ

途中でルール変更

■ 途中でルール変更のインチキ

  • ヤバみ:★★★★★
  • 遭遇頻度:★★
  • ステルス性:★★★

やはりまず最初に挙げるべきはこれでしょう。

「途中でルール変更」という,いきなり根本的な部分を揺るがすパワープレイです。

要するに,試験デザイン当初では【主要評価項目 primary endpoint】として提出していたものを,試験途中で「これ統計学的な有意差が出なさそうだな〜」などの理由で,こっそり「統計学的な有意差が出せそうなエンドポイント」にすり替えてしまうというワザです。

つまり「ちゃぶ台返し」です。
必殺技みたいなもんです。

もちろん主要評価項目だけでなく,副次評価項目を入れ替えたりすることもあります。

例として,下記の様なエンドポイント変更が挙げられます。

  • 当初「心・血管イベントの発症(抑制)」をエンドポイントにしていたのに,あまり有意差が出なさそうだったので,途中で「心・血管イベント+腎機能低下+全死亡」という複合エンドポイントに変更
  • 当初から「複合エンドポイント」で設計された 臨床試験だったが,「複合エンドポイント」の中身が,試験途中でこっそり増えたり減ったりしている

そんなことがありうるのか?

これをご覧になって

いやいや,さすがにプロトコルにも事前に提示しているし,何ならそのプロトコルだけで1本論文書いちゃったりしてるわけで,途中でルール変更なんてそんな見えすいたことやってる研究者がいるわけないでしょ! 百歩譲って仮にやっていたとしてもジャーナルに reject されるでしょ!

と思われる方もいらっしゃるでしょう。

実際,私もそう信じていました。

ところが

「試験途中でのエンドポイントの変更」という後出しジャンケンは,現実に起きています。

ハッキリ言って極めて根本的なルール違反なのですが,残念なことに少なからず実在するようです。

普通に考えたら,

最初に「今から野球の試合をします!」と言って試合を始めたのに,試合が終わってみたら

実はこの試合は,得点数ではなくヒットの数の多さを競うゲームだったんです!
だからコッチのチームの勝ちです!

なんてこと許されませんよね。

この様なルール変更を許して「途中ですり替えられたエンドポイントを達成した薬」ばかりが世の中に溢れてしまったら,それこそ地獄です。

そうした事態を防ぐためにも,最初に「試合のルールを明記」しておいて,そのルールを徹底して貫く,ということは,非常に重要なことなのです。

当然,フェアなルールを徹底した研究デザインでなければ,国や政府機関からの研究予算(グラント)もまず降りません。

また,FDAによる薬事承認審査の際などは,途中で試験プロトコルの変更なんてしている新薬は相当するどく突っ込まれると思います(多分)。

製薬会社資本に御用心

しかしすでに薬事承認「後」のお薬などで,完全に製薬会社資本のみでやる様な研究は話が違います。

すでに承認された薬剤なのですから,それに対してどんな設計で研究を組もうが,自由です。途中でエンドポイントをこっそり入れ替えてしまおうが,FDAほどにそこを鋭く指摘する人はいないことでしょう。

そもそも研究資金が製薬会社のみから提供されるのであれば,FDA や 政府に怯える必要すらありません。

もちろん論文を載せるジャーナルの査読者はチェックするでしょうが,その雑誌編集部がどこまで許容するかどうかだけの問題ですので,許容しているジャーナルに掲載して貰えばいいだけです。

重要なことは,製薬会社は,政府や国とは根本的に異なる動機で動いている,ということです。

製薬会社にとって最も重要なことは「自社資本の最大化と拡大再生産」です。

「資本主義」なのですから,当たり前のことです。

当然,お金にならない研究はしませんし,巨額を投じて行う RCT で「結果が芳しくない」なんてことになっては困るのです。

「採算が合わない」では困るのです。

ですから途中で「あれ?このまま行くと,この結果まずいんじゃない?」となると

ここまで時間やお金や人的資本をかけて,大規模な RCT を行ったのだから,【結果】が出なくちゃ困るよ!!

などと サンクコストバイアスも働いてしまい,

エーイ 何でもいいからとりあえず有意差出せ!
プロトコル?知らんわ!!しれっと変えとけ!
そんでもって,そのプロトコル変更についてツッコンでこない「物分かりのいい」ジャーナルに投稿しちまえ!

となるわけです(筆者の妄想です)。

「途中でルール変更」の見抜き方

さて,この様なインチキを行ったトライアルを見分けることは,実は難しくありません。

ただしその論文の中には答えがないことが多い,というのが厄介な点です。

つまり「自ら検索する」というステップが必要となります(若干面倒です)。

ではどこを探せば良いか?

大規模な RCT であれば,必ず事前に何らかのデータベースに プロトコルを登録しているはずですし,しばしば RCT のプロトコルだけで論文を1本出してます。

ですから

途中でルール変更の見抜き方

  1. データベースを確認して,登録時のエンドポイントを確認する。
  2. プロトコル論文があれば,その論文に記載されたエンドポイントを確認する。
  3. それらの記載と,最終的な発表論文に記載されているエンドポイントとの相違を確認する。

これだけで,途中でしれっとエンドポイントが変更されていないかどうかはすぐに分かります。

上述した「データベース」としては,医学系 RCT であれば

ClinicalTrials.gov(NCT) が最大の代表格です。

よく 臨床試験 RCTの論文に NCT number… などと書いてあるのを見かけるかと思いますが,アレはこのデータベースでの登録番号のことです。

RCTの論文を読むときは,まずその論文に取り掛かる前に,この辺りに探りを入れた上で読み始めるのが良いでしょう。

なお,NCT データベースで「エンドポイントの変更歴」をチェックするには,該当トライアルのページで [Tabular View] という場所をクリックする必要がありますので御留意ください。

実例:とある臨床試験 「FREED」 の NCT

リンク先で “Tabular View” というタブをクリック
➡︎ “Current Primary Outcome Measures” と “Original Primary Outcome Measures” が異なる内容であることが一目瞭然です。この試験は当初から複合エンドポイントを主要評価項目としたものでしたが,複合の中身が途中で水増しされています。
なお NCT の頁では,”Change History” で編集履歴を全て確認することも可能です。


FREED changed endpoint

「代用エンドポイントに過ぎない」問題

代用エンドポイントに過ぎない

「一番あるある,かつ,最も根深い問題」です。

■ 「代用エンドポイントに過ぎない」問題

  • ヤバみ:★★★
  • 遭遇頻度:★★★★★
  • ステルス度:★

糖尿病薬の不都合な真実

【糖尿病薬の不都合な真実】について耳にされたことがあるでしょうか。

実は糖尿病薬は,「心血管イベントの発症抑制」という「真に意味のあるエンドポイント」を達成できた薬剤はほとんどありません。

いずれの薬剤も「HbA1c 値」や「血糖値」といった〈代用エンドポイント〉の RCT で成果を出し,薬事承認されています。

しかし,血糖を下げた先の真の目的である「心血管イベントの抑制」で,プラセボと比較して有意差を出せていない薬ばかりなのです。

それどころか,RCTの結果,かえって「心血管イベントを増やす」ことが判明した血糖降下薬すらあります。

〈代用エンドポイント〉で有意差 ≠ 〈真のエンドポイント〉で有意差

これが,この問題の本質です。

代用エンドポイントとは?

代用エンドポイント(代理エンドポイント;サロゲートエンドポイント surrogate endpoint)とは,その名の通り,「代用」のエンドポイントです。

本当に意味があり主観の入り込まないハードエンドポイント,あるいは真のエンドポイント(=全死亡や心筋梗塞発症など)の「代用」に過ぎません。

なぜこの様な代理のエンドポイントが必要だったかといえば,〈真のエンドポイント〉は確かに重大なイベントではあるものの,起きるイベント数が多くはない,という問題があるためです。

少ないイベント数では,統計学的有意差を出すことは困難なのです。

たくさんイベントが起きなければ,介入群とコントロール群で差が付いたとしても,それが本当に統計学的に有意な差なのか(偶然では説明できないほどの偏りなのか)なかなか証明できません。

つまり,〈真のエンドポイント〉で統計学的有意差を出すためには,「実際にメチャクチャ差がつく介入」でない限りは「非常に大規模な RCT」を組まなければならないのです。

そのため「とりあえず 代用エンドポイント surrogate endpoint を用いて有意差を出す」というデザインの RCT が組まれることは非常に多いわけです。

というか,ほとんどの新薬の RCT(第 3 相試験) はコレです。

血圧を下げる新薬を開発したとしたら,第 3 相試験は「血圧を下げる」という代用エンドポイントの RCT であって,いきなりその先の真のエンドポイント ── 「心血管イベントを減らすか?」── を対象にした RCT はできません。

必要になる被験者数のケタが違うからです。

こうしたステップを踏むことは「得体の知れない新薬を必要以上の被験者に曝露させない」という倫理的理由のため,必要なことなのです。

あるいは「単純にたくさんのサンプルサイズの研究は高コストである」という経済的理由もあります。

いずれにせよ,こうした RCT で仮に

統計学的に有意に『効果』がありました!

と示されても,その『効果』の指標となっているものがあくまで「代用」エンドポイントである,というのは全ての医療者が知っておくべき本質的問題です。

経口血糖降下薬の【闇】

代用エンドポイントで有意差がついたとしても,その薬が〈真のエンドポイント〉においても「本当に『効果』があるのか?」は決してわからない。

その代表的な問題を抱えるのが,冒頭でご紹介した経口血糖降下薬(=糖尿病薬)です。

繰り返しになりますが,糖尿病薬は,「心血管イベントの発症抑制」という「真に意味のあるエンドポイント」を達成できたものがほとんどないのです。

新薬は「HbA1c値」や「血糖値」という代用エンドポイントを用いた RCT を経て承認されたものばかりです。

しかし本来 「血糖値を下げた結果,何を期待しているか?」

と言えば,それは心血管イベントの抑制ですよね。

ですから本来であれば,糖尿病薬にもやはり,降圧薬やスタチンの様に心血管イベントを減らすことを期待したい所です。

しかし,RCTの結果「血糖は下げるけど,心血管イベントは増やすかもしれない」という悲劇的な結論をもたらした薬剤すらあり(ロシグリタゾン wiki),非常に大きな問題になりました。

「血糖は下がったけど心筋梗塞は増えた」では本末転倒もいいところですからね。

結果,この事態を重く見た米国 FDA が

『血糖値の低下』で適応の通った糖尿病薬は,ロシグリタゾンの様に心血管イベントを「増やさない」ことを最低限示しなさい!

と言い出す始末です。

その結果,今や糖尿病薬は,

「市販後調査でプラセボと比べて心血管イベントを『増やさない』ことを示さなければならない」

つまり,心血管イベント発症率について「プラセボとの非劣性試験」を組まなければならない,という非常に倒錯した事態になってしまっています。

プラセボ比較の非劣性試験 ?!

プラセボとの「非劣性試験」ですから,そうして行われた試験は全て「安全性」を示すためのもの,ということになっています。

しかし,そもそも血糖値を下げる目的は「心・血管イベントの予防」だったはずで,本来これは「安全性試験」ではなく「真のエンドポイントの検証」とされるべきだったはずです。

そんなエンドポイントに対して,プラセボ比較で「優越性」を示そうとするならまだしも,「非劣性」を示そうとするなんて,これを倒錯と呼ばずに何と呼びましょう。

補足|製薬会社にとっても好都合?
こうなると製薬会社としてはひとまず「プラセボ比較の非劣性試験」という非常〜に負けにくいデザインで試験を組んでおいて「ついでに優越性も示せたら真のエンドポイントも達成できてラッキー」ということになるので,悪くない展開になっている様にも思えます(もちろんプラセボに負けたら最悪一切売れなくなるというリスクもあるわけですが)。「優越性試験で負けたから非劣性試験をする」という順序の検定はできませんが,「非劣性を示すついでに優越性も狙う」ということは可能なわけです。当然,製薬会社としてもそのラッキーを狙って色々頑張っておられるものと思われます。通常なら一世一代の大勝負で「真のエンドポイントで優越性を示すぞ!」とやるところを,「プラセボとの非劣性を示せれば OK」だなんて,相当ユルい勝負です。ある意味,かなり保険をかけた状態で真のアウトカム(=安全性のアウトカムと言っているわけですが)について検証できるわけです。しかしいくら安全性に疑念があるからと言って,あらゆる新規糖尿病薬の「プラセボ比較の非劣性試験」を大規模(数万人レベル)の市販後調査で行うなんて,なかなかスゴいことです。その試験の参加者にとってはつまり何の利益もないわけですからね。どうやって説得して参加者を募っているのでしょうか。「FDAが指示してきたから…」というお免状がなければなかなかあり得ない状況に思えます。まさに ”不都合な真実” と言うべき問題です。

真のエンドポイントは闇の中

少し話が逸れてしまいましたが,とにかくココから私たちが学ぶべき教訓は1つです。

代用エンドポイントを達成しても,
真のエンドポイントでは意味がない可能性がある

それどころか,かえって悪い結果を出す可能性すらある,ということです。

ですから,代用エンドポイントの RCT を経て薬事承認された新薬について,本当に「お高いお金をかけてその薬を飲み続ける意味があるのか?」は,また別に考える必要があるのです。

現実には「効果がない」のみならず,「副作用のせいで,かえって体に悪い影響がある」というリスクもあるわけですからね。

代用エンドポイントの見抜き方

この問題のチェック方法は簡単です。

Abstract や Methods に普通に記載されている〈primary endpoint〉を確認するだけです。

死亡や心血管イベントの発症など,確立された主観の入りにくいものであれば OK です。

尚この時,一見〈真のエンドポイント〉のように見えても,主観の入る余地のある〈ソフトエンドポイント〉の場合,注意を要します。

代表的なものが,「●●による”入院”」などです。

次はその問題を論じたいと思います。

「ソフトエンドポイント × オープン試験で自由自在」問題

COIがズブズブなソフト×オープンは怖い

■ 「ソフトエンドポイント×オープン試験で自由自在」問題

  • ヤバみ:★★★★
  • 遭遇頻度:★★★
  • ステルス度:★★

これもなかなかエグいバイアスですので,必ずチェックすべきです。

ハードエンドポイントとソフトエンドポイント

主観が入り込みにくく臨床的インパクトの大きいエンドポイントのことを〈ハードエンドポイント〉と呼びますが,

一方で,主観的な判断基準で恣意的に水増しできる様なエンドポイントを〈ソフトエンドポイント〉と呼ぶのでした。

ハードかソフトかという問題は,「代用エンドポイント」か〈真のエンドポイント〉か,という問題と本質的には同一です。

とにかくイベント数が増えなければ統計学的有意差をつけられない,という問題のため,しばしばハードエンドポイントよりもソフトエンドポイントが(研究者やスポンサーに)好まれる傾向があるのです。

例えば「心筋梗塞の発症(カテーテル検査で確定診断)」といった”ハード”なものではなく,「心不全症状による“入院”」「狭心症の”症状”」などいくらでも水増しできそうな”ソフト”なものをアウトカムに据える試験は,星の数ほどあります。

もちろん,ソフトだからいきなり悪である,というわけではありません。

ただ,このソフトエンドポイントが主要評価項目に据えられているとき,読者としては「バイアスの匂い」を嗅ぎつけなければなりません。

ソフトエンドポイントは盲検化の徹底が大原則

重要なことは,盲検化 masking が徹底されているか?

という部分です。

ソフトエンドポイントであったとしても,入院判断を行う人物やアウトカムの評価をする人が,

  • スポンサーと一切利益相反関係にない
  • しっかりと盲検化されている

のであれば,バイアスリスクをある程度抑えることはできます。

しかし盲検化のない「オープン試験」のデザインにこの〈ソフトエンドポイント〉が組み合わさると最悪です。

「入院」は医者やアウトカム評価者による「判断」ですが,その人達がスポンサーとズブズブの関係であったりした場合,その「判断」の基準を恣意的に調整することができてしまうからです。

「control 群側で少し閾値を下げて入院させる,新薬群ではあまり入院させない」といった調整も自由自在です。

その判断をする人物が,その製薬会社と本当に利益相反関係がないのか?徹底的に洗わない限り結果はバイアスされたものと考えるのが妥当でしょう。

PROBE 法 という魔術

尚,〈ソフトエンドポイント〉と組み合わせれることでバイアスリスクを生み出すものは,何も純粋なオープン試験だけではありません。

近年散見するようになったPROBE(Prospective Randomized Open Blinded-Endpoint)法というデザインにも注意が必要です。

注意すべき点として,PROBE は名称に『Blinded』が入っていますが,結局のところオープン試験である,と言うことです。

一見ブラインド試験であるかの様な顔つきをしていますが,完全に子供騙しです。

PROBEの【O】は Open の【O】なのです。
その点についてはもはや誰も隠してません。公然の事実です。

確かに PROBE法は,「純粋な open-label 試験」とは異なります。

通常のオープン試験では通例,被験者も,医師も,エンドポイントを評価する人間も「全員」が割付け結果を知っています。つまりバイアスリスクが極めて高いわけです。

そこで,せめて最低限エンドポイント評価者だけは盲検化しよう,というのが PROBE法です。

PROBE法の場合,「エンドポイントを評価する委員会」は独立したものを用意して,割り付けられた群を知らない状態で評価しなければならない,ということになっています。

そのため普通のオープン試験よりは客観的にエンドポイントが評価できる,とされています。

しかし,肝心の被験者や医師は「どちらに割り付けられたか」丸わかりの状態なのです。

そしてそれこそが最も大きな問題なのです。

エンドポイント評価委員会が独立性を保っていたとしても,医師や被験者が割り付け結果を知っている時点で,バイアスは全然防ぎようがないからです。

医師からすれば,被験者が「なんか調子が・・」などと言ったところで「そもそもエンドポイント委員会に報告をあげない」ということが可能です。

また被験者からすれば,自分がコントロール群か介入群かはわかっていますので,プラセボ効果やホーソン効果の影響をしっかり受けてしまいます。

自分は運よく新薬群に割り振られたから,なんだか調子がいい!
【プラセボ効果】

自分は運よく新薬群だから,これを機にもっと健康になっちゃおう。
野菜たくさん摂って,ジムにも通っちゃうぞ〜!
【ホーソン効果】

などという心理的影響をモロに受けてしまうのです。

逆にコントロール群に割り振られた(ことを知っている)被験者は「なんか最近調子悪いな〜」「新薬群がよかったなぁ〜,多分新薬群に割り振られなかったから調子悪いんだよなぁ〜」などと言ったりするかもしれません。

さらにそれを聞いた医師が,それを評価すべきイベントとして報告するかどうかも,かなり恣意的に決めることができます。

つまり,エンドポイント評価者に上げられるイベント報告それ自体が,すでにバイアスされてしまっているのです。

たとえ評価者が盲検化されていようが,観察を行う『最前線』が盲検化されていない以上,都合のよいデータが選択された上で報告される危険性は残ってしまうのです。

PROBE 法には「コストが低く済み,研究が容易」というメリットがあり,近年では多くのスポンサー主導試験で導入されています。

しかし

【スポンサー主導×PROBE法×ソフトエンドポイント】= バイアスの塊

と思って見る必要があると感じます。

ソフトエンドポイントの見抜き方

ソフトエンドポイントの確認方法は,難しくありません。

Abstract や Methods を見て, Primary endpoint の記載部分に目を通すだけです。

そこで,Endpoint の内容が「いくらでも解釈次第で増やせそうだな」という内容になっているかどうかです。

そして「ソフトエンドポイントが入っている」と気づいたら,試験のデザインがオープン試験になっていないか?ということをすぐにチェックしましょう。

オープン試験の見抜き方

オープン試験であるかどうかの見抜き方は,さらに簡単です。

きちんと masking がされている論文は,必ず double-blind といった記載が Title や Abstract レベルで強調されています。

その記載がどこにも見つからなければ,その時点で基本的に OUT の可能性が高い と言えるでしょう。

もし Title や Abstract に そうした記載がなければ,本文の Methods を見れば確認できます。

ランダム化比較試験(RCT)であれば,必ず Open-label ないし blinded, masking といった単語を見つけられるはずです。そこで open という言葉を見つければ,一丁あがりです。

そしてクドイようですが,PROBE 法は,オープン試験です。

盲検化がどこまでされているか要チェック

なお,ここで注意すべきは,double-blind 試験であっても,エンドポイントの評価者は masking されていないことがありうる,という点です。

double-blind というのは研究対象者(=患者さん)と研究者(=その試験を組んでいる医者など)に対して割付け結果が盲検化されている,というだけの意味であり,アウトカム評価者も盲検化されているかどうかは別問題です。

本来は評価者まで盲検化されていれば triple-blind ということになるのですが,あまりこの言葉は流行っていないよう(?) で,実際には double-blind と標榜している RCT の中に,アウトカム評価者まで盲検化しているものとそうでないものが混在している印象です。

割付け結果に対する盲検化の度合い

  • 3重盲検:研究対象者と研究者と評価者の全員が masking
  • 2重盲検:研究対象者と研究者の双方が masking
    • 注)実質的には評価者も盲検化され,三重盲検になっていながら,わざわざ三重盲検と書いていないことがある
  • 単盲検:研究対象者のみ masking,研究者や評価者には筒抜け
  • 非盲検:研究対象者にも研究者にも open(全員筒抜け)
    • PROBE法:評価者のみ masking,研究対象者や現場医師には筒抜け

複合エンドポイントで ”悪質な福袋” 問題

詰め合わせセット

■ 複合エンドポイントで「悪質な福袋」問題

  • ヤバみ:★★★★
  • 遭遇頻度:★★★
  • ステルス度:★★

複合エンドポイントとは

RCTをデザインする際,そのプロトコルを提出する段階で 〈Primary endpoint〉即ち「最も大切な評価指標」を1つ選定して明記することが求められます。

Primary endpoint というただ1つの重要なアウトカムのみに仮説検定を行うことで,多重検定の問題を回避したり,適切な power 計算 をして必要十分なサンプルサイズで trial を行なったりすることができる,という利点があるのでした。

しかし,昨今ではこの primary endpoint を「詰め合わせにしてしまおう」という企みがあちこちで見られる様になってきました。

こうした「詰め合わせエンドポイント」のことを,複合エンドポイントと呼びます。

複合エンドポイント台頭の理由

複合エンドポイントが用いられる主な理由は,

「イベント発生数を『かさ増しする』ことで検出力 power を高めるため」

です。

本質的には,先述した〈ソフトエンドポイント〉や〈代用エンドポイント〉を用いる理由と変わりません。

たくさんイベントの加算を取ることで,差をつけようというわけです。

許容できるパッケージとは

さて,現実問題としてこの「複合エンドポイント」というパッケージングは,ある程度医療現場でのテンションが近いイベントの詰め合わせである場合においては,許容されるものと考えられます。

例えば,【心筋梗塞+不安定狭心症による緊急カテーテル治療+脳卒中+それらによる死亡】といった複合エンドポイントです。

この場合,その内のどれが起きても臨床現場に与えるインパクトは大きく,また病態としても全て急性の血管障害であり,類似しています。

この複合エンドポイントで統計学的有意差をしっかりつけられる介入があるのなら,その介入は確かに価値があるものと言えるでしょう。

この組み合わせはよく使われるエンドポイントの1つで,俗に 4 MACE (major adverse cardiovascular events) と呼ばれます。

許容できないパッケージとは

しかし,同じ「複合エンドポイント」と言っても,それが

【脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+冠動脈疾患の発症+心不全による入院+治療を要する動脈硬化性疾患の発症+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生】

というものであった場合は,どうでしょうか?

このパッケージがトータルで増えただの減っただのと言われても,臨床現場にどれほどのインパクトがあるでしょうか?

全くわかりませんよね。

上記の複合エンドポイントの中では,死亡も脳卒中も顕性蛋白尿増加も,すべて同じ 1 加算として数えられている,ということです。

「死亡」が増えるのと「顕性蛋白尿の増加」が増えるのとでは,あまりにも臨床現場へのインパクトが違います。

この複合エンドポイントで「増えました!」「減りました!」などと言われても

で,どれが増えたんですか?
その中で一番大事なやつは結局のところ何なんですか??
それでその大事なやつ単体では有意差はついたんですか????

という様にツッコミどころ満載になってしまうのです。

仮にこの複合エンドポイントが primary composite endpoint として設定されていて,その NNT が 3年で 20 だったとしたら,この薬の効果はどう説明したら良いのでしょう?

このお薬を 3年飲み続けると,20 人に 1 人は,
【脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+冠動脈疾患の発症+心不全による入院+治療を要する動脈硬化性疾患の発症+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生】のうちのどれかが防げますよ!!

えっ?
どれが防げるかって?

それはわかりませんよ。確率論ですから。
まあ運次第ですね!
福袋みたいなもんだと思ってくださいよ!ハハッ!

などと正直に説明したら,患者さんから「バカにしてんのか?」と言われてローキックをキメられても文句が言えません(▼)。

Luckybags

複合エンドポイントの見抜き方

これも,概念を理解してしまえば見抜くことは簡単です。

論文のエンドポイントの部分に “composite” という単語があるかないか見るだけです。

composite だった場合には,具体的に何がセット扱いされているか確認しましょう。

そしてそのパッケージを許容できるかどうかは,読者である私たちが自分で判断することになります。

「多重検定しすぎ」問題

いつかは有意差が必ず出る

■ 「多重検定しすぎ」問題

  • ヤバみ:★★★
  • 遭遇頻度:★★★★
  • ステルス度:★

多重検定の問題とは,1つの試験で何度も〈統計学的仮説検定〉を繰り返すことによって生じるエラーの問題です。

統計学的仮説検定とは?

復習ですが, p値というものは,

『本当は(母集団では)介入によって差が生じない』という前提(=帰無仮説)が正しい場合に,標本のランダム性のみによって,その様な、、、、データが得られる確率

より厳密には
より厳密には,得られたデータ以上に極端なデータが得られる確率の総和

Infer stats null

なのでした。

つまりこれが相当低い確率であれば

その様なミラクルはそうそう起こらないので,『差がない』という前提仮説が間違っていたのだ

ということになり,【統計的に有意な差】があると言える。

こうした上図(▲)の手続きを〈統計的仮説検定〉と呼ぶのでした。

この時,多くの場合は有意水準を 5 % としているので,p値は5%を切っていれば,「有意」な差として採択されます。

しかし逆を言えば,5%の可能性で,その様なミラクルはあり得たはずです。

つまり p = 0.05 を「有意」と取る時,5%の可能性で「本当は差なんてないのに差があると勘違いしてしまう」つまり「αエラーを起こす」可能性があるのです。

αエラーの復習

この記事では〈αエラー〉と〈βエラー〉とは何なのか?ということについて,基本的内容に絞ってまとめます。さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]

多重検定の問題

ここで,ある試験の中で「たった1つの検定」のみを行って,その p値が 5% を切っていれば,その結果は確かに「統計学的に有意な差」と言ってよいかもしれません。

しかし,その 1つの試験で何度も何度も検定を行なっていたとしたらどうでしょう。

p=0.05 となる「統計学的に有意な差」を示した項目が,secondary endpoint に 10個 あったとき,その全てが本当に統計学的に有意と言えるのでしょうか?

答えは当然, NOです。

その1つ1つのエンドポイントで αエラーのリスクを 5% ずつ有するわけですから,
その全てが本当に「有意」である確率は,

(1 – 0.05)10 = 0.598 ≒ 60 %

です。逆を言えば,40%の確率で,少なくともどれか1つは「本当は差がない」と言うことになる(=αエラー)のです。

これではその secondary endpoint のうち,どの結果を信じていいのか分からなくなってしまいます。

ですから〈secondary endpoint〉で複数回の検定をしているような論文では,記載された p値 をそのまま解釈してはいけない,ということです。

p値を計算すること自体は構いませんが,同じ有意水準(たとえば 5%)で全ての仮説検定の有意性を主張しては絶対にいけないのです。

もし複数個の仮説検定で同時に有意性を主張したいのであれば,ボンフェローニ法やダネット法,ホルム法など特定の補正法を用いてきちんと補正しなければなりません。わかりやすいのはボンフェローニ法で,仮説検定を行う回数分だけ p値の有意水準を割っていく,という手法です。2回仮説検定を行うのであれば,有意水準 0.25 に厳しくする。4回行うのであれば,0.125 にする。その様にしてトータルでのαエラーの確率(ここでは 5%)を維持する補正法です。しかし実際にそうした補正は臨床論文ではあまり見かけません。
補足:多重検定と p値ハッキング
なお,仮説を立てず手当たり次第に「検定」を繰り返し,【統計学的有意差】が出るものを見つけてから,「あたかも最初からその項目だけをピンポイントで検定していましたよ」というように論文にまとめてしまう行為のことを「p 値ハッキング」と呼びます(フィッシング,データドレッシングと呼ぶ場合もあります)。
これの何がいけないかというと,その【有意差が出る項目】を見つけるために,一体何回の多重検定が先に行われたかが全くわからないため,どれほどのαエラーの確率を内包しているか分からないのです。先述したRCT を組む際に「試験開始前から primary endpoint についてその解析方法も含めてプロトコルに記載させて提出させる」と言うのは,これを防ぐための施策の1つなのです。

多重検定の見抜き方

多重検定の問題を確認するには,Secondary endpoint やサブ解析結果について示した図表を確認しましょう。

大体,Results に出てくる Table 2〜3 くらいにまとめらている印象です。

そして,その図表の中で〈仮説検定〉を繰り返しまくっていないか ──

── つまり「ゴチャゴチャ p値を列記していないか?」

を確認します。

p値を列記すること自体は罪ではありませんが,そのような多重検定を行なっておいて,全て同じ有意水準(大抵 p=0.05)を採用している場合は重罪です。

つまり,複数回の検定を行なっておきながら,p=0.05 を下回った全ての項目で「有意差あり」つまり「significant」と言っているような論文は問題だということです。

有意水準を 0.05 より厳しくするといった補正を行なった形跡がないのであれば,その論文は多重検定の問題を抱えていることになります。

シンプルな結論

ただそうした細かい理論的なことは置いておいて,以下の様に考えてしまえば済む話です。

primary endpoint 以外は “眉唾”

ぶっちゃけ,これさえ分かっていれば,後はなんでも良いかもしれません。

結局,primary endpoint 以外については何も言えないし,言うべきではないのです。

Secondary endpoint で有意差があったとしても,多くの場合は多重検定による αエラー の可能性がついて回ります。

また,逆に有意差がつかなかった場合でも,サンプルサイズ不足による βエラーの可能性がついて回ります。

次はこのβエラーの問題について検討してみましょう。

【検出力ないのに安全性を強調しちゃう問題】です。

検出力ないのに安全性を強調しちゃう問題

RCTは”安全性”を示すのに向かない

■ 「検出力ないのに安全性を強調しちゃう」問題

  • ヤバみ:★★★★
  • 遭遇頻度:★★★
  • ステルス度:★

先述したように〈Secondary endpoint〉というのはあくまで「オマケ」のデータ解析であるわけですが,多くの新薬の RCT では,secondary の方に「安全性(有害性)のアウトカム」を据えているものです。

そこで,

「安全性(有害性)のアウトカム」でコントロール群と比べて有意差がつくようなことはありませんでした!
良かったです!安全です!

というように安全性を強調する論調が見られることがあり,注意を要します。

Primary 以外は全部オマケ

RCT というのはそもそも,その多くが基本的に「効能」を示すための研究です。

ですから,あくまでもその「効能」の〈Primary endpoint〉に照準を合わせ,そこで有意差を出すために必要十分と思われる人数の参加者を集めています(power分析)。

そもそも安全性のエンドポイントに照準を合わせているわけではないのです。

有害事象や安全性を Primary Endpoint に据える様な市販後調査(安全性試験)は例外です。

要するに,臨床試験の多くはそもそも有害性のエンドポイントで有意差を出すことは目的としていないのです。

当然〈Secondary endpoint〉については,power分析も行なっていません(むしろ有意差は出ない方が良い)。

ですから,有害性のエンドポイントで統計学的有意差がつかなかったとしても,それは

  • 「本当に差がない」のか
  • 「サンプルサイズが小さかったから差を検出できなかった(=βエラー)だけで,数倍の人数でやれば統計学的にも有意になる」のか

誰にもわからないのです。

にもかかわらず,この問題を棚上げして安全性を強調した記載をするのは,非常に危険な思想であると言えます。

論旨のすり替えにも注意

特にタチが悪いのは,primary endpoint で有意差を出せなかったケースです。

その様な場合に,secondary endpoint の1つに据えられていた「全死亡」や「全ての有害事象」といった安全性の評価項目 safety outcome で

『統計学的有意差』はありませんでした!
よかったよかった,少なくとも安全な薬ではありますよ

という強調を行うことは,論点のすり替え以外の何者でもありません。

Primary endpoint で差がつかない様な,ほとんど意味のない薬なら,そもそも飲まなければいいだけなんです。飲まないのが一番安全ですから。

そもそも RCT は「害」の検出に向かない

また,そもそも薬剤副作用による重篤なイベントは稀ですから,小規模な RCT では統計学的有意差がつきにくいのです。

第 3 相試験の様な数百人レベルの RCT で【統計学的有意差】を持って有害性が示されなかったとしても,ただ power 不足だっただけの可能性があります。

「本当は差があるのに,その差を検出できなかった」というβエラーの可能性が常について回るのです。

結局,「あまり起きないけれど重大な副作用」が「プラセボと比べても本当に全然増えません」と頑健に示すためにはめちゃくちゃ膨大なサンプルサイズを要することになります。

先述した〈真のエンドポイント〉や〈ハードエンドポイント〉と同様,あるいはそれ以上の検出しにくさです

ですから,新薬の本当の意味での安全性の検証は,薬剤承認後にその薬が世の中に広く流通してから『市販後調査』という形でしか行えないのです。

臨床家が口を酸っぱくして「新薬は3年寝かせろ」だとか「新薬は5年寝かせろ」だとか言うのはそういうことです。

RCTの少人数では統計学的有意差が出なかった有害事象が,リアルワールドで1万人,10万人,100万人レベルに処方されたとき,無視できない頻度で報告される様になる,ということは大いにあり得ることなのです。

近年の例だと,免疫チェックポイント阻害薬による数多の自己免疫性疾患の惹起,某糖尿病薬による膀胱癌リスクの医療訴訟事件,などが話題に上がった問題です。

もちろん,『効能』あるいは『その他の面でのメリット』があまりに絶大・画期的なケースで,稀な副作用とかはどうでもいいからとりあえず早く使いたい,という意見はあっても良いと思います。

要するに,risk/benefit を当事者がよく理解して使っているのであれば問題はないのです。

ただ,主要評価項目で好ましい成績が出せなかったばかりに,副次評価項目だったはずの安全性のエンドポイントを急に前面に出して押してくる様な論文は,ゴミ箱行きだということです。

その様な「すり替え」は許すべきではありませんし,そもそもその様な条件では頑健な安全性は全く示されていません。

しかし実際,この様な「安全性を強調した “すり替え”」は,粉飾的記載 spin としてしばしば見受けられます。

次はその「spin」の問題について見ていきましょう。

エンドポイントをすり替えた粉飾的な記載 spin

すり替えてspinしちゃう

■ エンドポイントをすり替えて粉飾的な記載 spin をしちゃう問題

  • ヤバみ:★★★★
  • 遭遇頻度:★★★
  • ステルス度:★

spin とは,
本来見たかったはずの 主要評価項目 primary endpoint で有意差が出せなかったばかりに,有意差が出た他のアウトカム(副次評価項目や,そのサブ解析)を強調して conclusion や abstract に記載する,といった粉飾的記述

のことです。

先述した【検出力ないのに安全性を強調しちゃう問題】も,この spin の一種です。

なぜ spin されるのか

ここで一度,研究者の気持ちを想像してみてください。

主要評価項目で思う様な結果が出せなかったとき,Conclusionで

主要評価項目では有意差が出ませんでした。

だけだと寂しい気分になってしまいますよね。

ですから気を紛らわせるために,本来はおまけに過ぎないはずの他の項目での有意差を強調してしまうわけです。

そうした「何らかの有意性」を示さないと,ジャーナル側がアクセプトしてくれない傾向がある,という業界全体の問題もあります。

しかしこの時,先述した「多重検定」の問題を解決できていないにもかかわらず,secondary や explaratory のエンドポイントでの有意差を強調するのは完全に禁じ手です。

「多重検定」×「粉飾的記載 spin」=最悪

 

です。

特に explaratory endpoint(探索的エンドポイント)などという,primary でも secondary でもない完全に後付けの解析で「有意差が出ました!」と言われても,そのウラで一体どれだけ多重検定が行われたのか全くわかりません。

ハックした p値で spin なんて言語道断です。

p 値至上主義の弊害

これらは「p 値至上主義」が横行してしまったことの弊害であると言えます。

〈統計学的な有意差〉が十分に出なかったことをまるで汚点であるかの様に隠してしまい,逆に〈有意差〉が出た項目を(たとえそれが臨床的に意味がある項目か疑問でも)祭り上げてしまう。

業界自体が「5% の呪い」, Significantosis(有意病) を患ってしまっているのかもしれません。

アメリカ統計学会(ASA)も声明を出すなどして「p値至上主義」への警戒を強めていますが,なかなか解決する兆しはなく,根が深い問題のようです。

なお,spin にも厳しい journal とユルい journal があるようです。

インパクトファクターの高いジャーナルでも spin は許容されていることがあるため,やはりこれも読者のリテラシーが問われる問題です。

spin の 見抜き方

Spin

Spin の見抜き方は,その概念さえ知っていれば容易です。

要するに,primary endpoint で有意差がついていないのに,別の項目で有意差がついたことを祭り上げていればそれは spin です。

なお,これを見つけると,なんだか研究者の悲しい断末魔が聞こえてくる様で,いたたまれない気分になります。

その研究者だって本当は primary endpoint で有意差を出してバン!と自信を持って発表したかったでしょうからね…。

ありがちな spin の例を下記に列記しておきます。

ありがちな spin

  1. 安全性を強調
    はじめから Primary Endpoint も安全性検証のために設計された RCT でない限り,有害性のアウトカムで有意差がつかなくてもサンプル不足(power不足)によるβエラーの可能性があります。鵜呑みにすべきではありません。
  2. 副次評価項目を強調
    多重検定の補正がされていないのであれば,αエラーの可能性があり,真に受けるべきではありません。
  3. 探索的エンドポイントやサブグループ解析など後付け解析結果を強調
    同上です。もともとプロトコルに提出されていなかった項目で「有意差がありました!」と言われても,一体その影でどれだけたくさんの多重検定が行われているか不明であり,再現性に疑問が残ります。つまりデータドレッシング(p値ハッキング)の疑惑が残ります。ad-hoc analysis も同様です。

「NNT が宝くじレベル」問題

NNTが宝くじ

■ NNT が宝くじレベル問題

  • ヤバみ:★★★
  • 遭遇頻度:★★
  • ステルス度:★★★★

さて,長くなりましたが,いよいよ大詰めです。

ここまで全ての問題点をクリアしてきても,最後の最後に立ちはだかるのがこの大問題です。

この問題だけは,少しこれまでとは性質が違います。バイアスの問題ではなく, 費用対効果 cost-effectiveness の話だからです。

この問題は,一言で言えば

相対リスクではなく,絶対リスクの差を確認すると「しょっぱい」

┗━▶︎ じゃあ,お金をかけてその介入をやる意味は?

という非常に本質的な問題です。

これが,【NNT(number needed to treat)宝くじレベル問題】です。

相対リスクと絶対リスク

ある新薬 α の RCT 結果についてイメージしてみてください。

その薬を飲むことで,

疾患 Aの発症リスクが 50% に減りました!

と書かれていたとします。

なんだかスゴいリスク低減効果の様ですよね。

これが相対リスク表記のマジックです。

しかし実際には

  • 「発症割合が 20% から 10% に低下」した場合
  • 「発症割合が 1% から 0.5%に低下」した場合

いずれも

発症リスクが 50% 減りました!相対リスクは 50 %です!

と表現できてしまうのです。

この大きな違いは,実際に 1000 人に内服していただくシチュエーションを想定してみればすぐにわかります。

前者のケースであれば,1000人がその薬を内服すれば,本来は200人(20%)が病気を発症するところだったのを,100人(10%)の発症に抑えることができるわけです。

つまりその「差」にあたる 100 人が利益を得られる(疾患にならずに済む)ということであり,この 100人にとっては「飲む価値のある薬であった」と言えます。

1000人内服して,100人が得をする。

つまりここから計算すると,要するに10 人内服するごとに 1 人助かる人が出る,ということになります。

これが NNT (number needed to treat) = 10 という意味です。

いっぽう後者のケースでは,1000人がその薬を内服しても,もともと10人(1%)しか発症しないのが 5人(0.5%)に減るだけです。

つまり,薬の内服のおかげで助かるのは,差分の 5人だけ。
1000 人の内服で 5 人だけだということです。
200 人内服してようやく 1 人が助かる計算です。

これが NNT (number needed to treat) = 200 ということです。

1/200 の当選確率なんて,まあまあの宝くじですよね。

ロトシックスのほうが当たるんじゃないでしょうか?

ともあれ,絶対リスク表記と相対リスク表記の違いは,これほどまでに大きいのです。

大体,メディアにしろ製薬会社にしろ研究論文にしろ「数字のインパクトを大きく見せたい」という思いが背景にあるため,多くの場合,絶対リスクではなく相対リスク表記を採用しています。

つまり,読者がみずから計算しない限り,NNTという大事なデータは前面に出てこないことが多いのです。

この計算自体はさほど難しいものではありませんので,臨床試験の RCT を読むときは必ずチェックする様にしましょう。

NNT の計算方法(発症者割合)

特に「発症割合(単位%)」での比較であれば計算は非常に単純です。

先述した計算を行うだけです。

〈絶対リスク差 ARR〉= Control群の発症割合 – 介入群の発症割合
〈治療必要人数 NNT〉= 1/ARR

先ほどの例で,例えば 20% の発症割合を 10% にできたケースでは,
絶対リスク差 ARR は 0.2 – 0.1 = 0.1となります。

NNTはその逆数ですから,10 と求めることができます。

NNT の計算方法(発症率)

しかし「発症(単位 patient-year)」での比較となると若干計算式が煩雑となります。

〈率 rate〉という単位は〈割合 proportion〉と異なり時間的な概念を含みます。

そのため,発症率をもとに NNT を計算する場合には,時間を加味して〈累積発症割合〉というものを算出し,その差の逆数を見ることになるのです。

積分したりなんだりする過程で, ネイピア数(e)なんかも出てきたりします。

数学的な細かい証明は省きますが

$$\begin{eqnarray*}R_0 &=& 1-e^{(-\text{Control群のイベント数}/\text{時間})}\\
R_1 &=& 1-e^{(-\text{介入群のイベント数}/\text{時間})}\\
\text{NNT} &=& 1/(R_0-R_1)\end{eqnarray*}$$

と計算することになります。

ギョッとした方もいるかもしれません。
私も最初はギョッとしました。

しかしご安心ください,こんなクソめんどくさい計算をしなくても,ネットに無料で計算ツールが落ちています(ClinCalc)。

つまり上記のサイトにうつってデータをブチ込むだけで NNT は即,計算可能です(割合でも率でも可)。

便利な世の中です。

「え割合?率?どういうこと?」となった方は,ぜひそれらの違いについての解説記事もご覧ください。
合わせて読みたい

今回の記事では,特に誤用や誤解の多い【割合】と【比】と【率】の違いについて簡潔にまとめます。本頁で扱う内容のまとめ 〈割合 proportion〉 ── 時間的概念を含まない|単位 % 〈率 rate〉 ── 時間的概念を[…]

作り出された「有意差」の怖さ

有意差は作り出せる

さて,ここまで読んでいただければ,エビデンスの王と言われる「RCT」ですら,

統計家が本気を出せばいくらでも結果をバイアスして都合の良いものにしてしまうことが可能である

ということが良くお分かりいただけたものと思います。

作り出せる「有意差」

結局「統計学的な有意差」などというものは,データの解析方法を変えればいくらでも生み出すことができるのです。

全く無価値の薬であっても「エンドポイントをいい感じに設定し直せば」,一見価値がある様なデータに粉飾することはいくらでも可能です。

薬事承認前の第Ⅲ相試験の時点では,FDAの厳しい目を通りますので,その様なインチキは通り抜けにくいかも知れません。

しかし,その一番厳しい部分を,ひとまず【代用エンドポイント】で通り抜けて薬事承認さえ受けてしまえば,あとは自由の身です。

市販後にその薬剤を用いてどの様な研究デザインをしてもそれは研究者の自由なのです。

ひいてはスポンサーの自由です。

  • 途中でエンドポイントを変更しようが
  • エンドポイント自体が現実世界では意味のないものになっていようが
  • たくさんのエンドポイントを複合したものになっていて結局どこで差がついたんだか不明になってようが

自由なのです。

何かしらで有意差が出れば,どこかしらのジャーナルに載せることは可能です。

そうした「やばいエンドポイント問題」を抱えた RCT の論文を,ジャーナル側がアクセプトするかしないかは,その雑誌の編集部の方針次第でしかないからです。

一流ジャーナルにも溢れる「やばい RCT」

残念なことに,インパクトファクターが 20 を超えて一流とされる有名雑誌であっても「やばいエンドポイント」の RCT なんていくらでも載せてます。

いかに有名ジャーナルであっても,本質は商業誌なのです。
そこにもお金は流れています。

結局「データは読者が自分で判断してね❤️」ということなのです。

さらに,ひとたびそうしたジャーナルに結果が載ってしまえば,あとはそのデータをどんな風に広告しようが,それもまたスポンサーの自由です。

都合の悪いデータは Appendix だの Supplementary figure だのに押し込んでありますので,「一見よさそう」なグラフだけをパンフレットに差し込んで,世界中のお医者さんを相手に営業を繰り広げることが可能です。

あの ○○nc○tに!
あの ○ur○pean H○art J○urnal に!
こんな「立派なRCT」で有意差がついて掲載されました!

と営業できるわけです。

こうした営業用のRCTのことを,種まき試験 seeding trial と呼んだりします。

とにかく,理解できない人,自ら確認しない人は騙され利用されるだけなのです。

厳しい世界です。

批判的吟味ができない医療者たち

極論を言えば,

論文読者の全員が統計リテラシーを持って〈批判的吟味〉ができる様になれば誰も騙されないし,何の問題もない

と言えます。

ところが,実際にはほとんどの医療者は批判的吟味ができません。

結局のところ,問題の本質はそこにあると言えるかもしれません。

これには非常に根深い構造的な問題があり,そう簡単に解決はできない様に思えます。

誰も医療統計を学ばない

まず,そもそも医療統計をきちんと系統だって教えてくれる様な講座自体が,日本ではまだまだ少ないようです。

アメリカではほとんどの大病院に常勤しているとされる【生物統計家】なる職種も,日本ではほとんど見かけません。

その上,医師や薬剤師も臨床現場にひとたび出てしまうと,現場の激流の様な仕事量に忙殺されてしまい,臨床スキルを磨くのだけで必死,悠長に統計リテラシーを磨く様な時間もなかなか取れません。

そもそもゆっくり論文を読む時間自体,ほとんどないのではないでしょうか。

そして,その忙しい時間の合間に,お弁当まで用意してくれた上で,こうした RCT のご立派なデータを小綺麗にまとめて持ってきてくれるのが,製薬会社の営業マン(MRさん)なのです。

━━ そんなん(製薬会社の)思い通りですやん。

しかしここでジャーナルや製薬会社を責め立てたり,そんなルールを許す世の中の法律を責め立てたりしても仕方がありません。

ジャーナルだって商業誌ですし,製薬会社だって資金が増えなければ次の薬剤も開発できませんから。

資本主義のもとで合理化すれば,当然こうなります。

むしろ逆に分かりやすくて清々しいくらいです。
スポンサーががっつり資金提供している様な RCT は,そういうものなのです。端からこっちが「相当に穿った目で見る」ことにすれば良いだけです。

結局,私たちのやるべきことはただ1つです。

自らの統計リテラシー・論文リテラシーを高めるしかない。
元データを見て「自分の脳みそで考える」しかない。

そうして医療者が当事者意識を持って薬剤の適応を考える様になれば,この業界がそんな人ばかり溢れる様になれば,
徐々に構造は変わっていくかも知れません。

この記事がそんな流れの一助になれば,それに勝る喜びはありません。

統計や医療統計,ファクトフルな考え方を効率的・実践的に楽しく学べる様な場所を作れたらなあと思う次第です。

まとめ

Thinking light

    「やばいエンドポイント」を用いて有意差を作り出した医学論文は,実はたくさんある。

    知っていないと,容易に騙されてしまう。

    代表例は,以下の通り。

■ 臨床試験 RCT におけるヤバいエンドポイント 8選

  • 「試験途中にルール変更」のインチキ
  • 「代用エンドポイントに過ぎない」問題
  • 「ソフトエンドポイント × オープン試験で自由自在」問題
  • 「複合エンドポイントで”悪質な福袋”」問題
  • 「多重検定しすぎ」問題
  • 「検出力ないクセに安全性を強調しちゃう」問題
  • 「エンドポイントすり替えて記載しちゃう(spin)」問題
  • 「NNT が ”宝くじ” レベル」問題

参考文献

  1. JAMA Users’ Guide to the Medical Literature (3rd Edition)
    言わずとしれた名著。これさえ読んどけばなんとかなる。
    原著の英語版がオススメです。Amazon
  2. 医学文献ユーザーズガイド(訳:相原守夫)
    上記の日本語版。実際に読む医学論文は全て英語なので,本書も原著の英語版がオススメなのですが,セットで日本語訳も確認するという使い方は結構いい感じです。Amazon
  3. 臨床論文のMethods を読む Method(著:笹渕裕介)
    基本的内容をしっかり押さえて教えて頂ける名著です。Amazon
  4. 今日から使える医療統計(著:新谷歩)
    米国で生物統計家としてのキャリアがある先生の著書で,非常に説得力がありつつ難しくなり過ぎない内容にまとまっています。すきです。Amazon
  5. J-CLEAR通信 日本医事新報 no.4885 2017.12.9
    全臨床家が読みこむべき興味深い議論です。糖尿病薬やDOACの臨床試験に関する不都合な真実にもかなり鋭く突っ込んでいます。PDF (富山大Hpより)

[おすすめ本紹介]

ファクトフルネス FACTFULNESS


ビル・ゲイツが希望者全員に配布したことで有名な世界的超ベストセラー。スウェーデン医師・国際保健学教授である筆者が,誰もが勘違いしている「世界の事実」を1つ1つ挙げながら,本質を歪めて見てしまう人間の本能・バイアスを列挙していきます。脳髄に金槌で釘を打ち込まれるくらいの衝撃を何度も与えてくれる名著です。やや分厚い本ですが,Audible なら通勤時間で聞けてしまうので,大変オススメです。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG