【徹底解説】臨床試験におけるエンドポイントの種類 総まとめ

この記事では,「医学系 RCT を正しく読む」ための必須知識となる,エンドポイントの種類についてまとめます。

エンドポイントの種類まとめ
  1. 真のエンドポイントと代用エンドポイント
  2. ハードエンドポイントとソフトエンドポイント
  3. 主要エンドポイントと二次エンドポイント
  4. 複合エンドポイント

そもそもエンドポイントとは?

Endponint エンドポイントとは,治験や臨床試験(RCT)において,

新しい薬(ないし手法)の有効性や安全性をはかるための〔指標〕

です。

日本語では〈エンドポイント〉ないし〈評価項目〉と呼びます。単にアウトカム(結果)と言ってしまう場合もあります。

なぜ評価項目のことを「エンドポイント」というかというと,その評価イベントを起こした試験参加者は原則その時点で追跡終了となるからです。イベントを起こして追跡が「終わる」「時点」なのでエンドポイントと呼ぶわけです。

試験前から提示しておく義務がある

エンドポイントは臨床試験の実施「前」に,項目の解析方法も含めて必ず実施計画書(プロトコル)に記すことが求められます。

これは「後出しジャンケン」を防ぐための倫理的なルールです。

たとえば,最初に「今から野球の試合をします!」と言って試合を始めたのに,途中で旗色が悪くなってきたら

実はこの試合は「得点数」ではなく「ヒット数」を競う競技なんです。というか,今からそうなります。よろしくです✌️✌️

などとすることが許されて良いわけがありません。

そうしたルール変更を許して「本質的には意味がない薬」ばかりが世の中に溢れてしまえば,人の健康のみならず,莫大な資金(医療費)も無に帰する可能性があるからです。

その様な悪夢を防ぐためにも,最初に「その試合のルールは何なのか」明記しておくことが求められるのです。

エンドポイントは本当にピンキリ

しかし,実際そうして予め提出された〈エンドポイント〉も,よく見るとピンからキリまでとんでもなく幅広いことに気づきます。

そもそもこのエンドポイントには現実世界での『意味』があるのか?

という本質的な問いが必要になる様な RCT が,現実にはごまんとあります。

そうした問題のあるエンドポイントは,どの様に見抜いたら良いでしょうか。

今回は,そんな魑魅魍魎が跋扈する医学系 RCT を読むための基本知識,「エンドポイントの分類」について,以下の順(▼)でまとめていきたいと思います。

  1. 真のエンドポイントと代用エンドポイント
  2. ハードエンドポイントとソフトエンドポイント
  3. 主要エンドポイントと二次エンドポイント
  4. 複合エンドポイント
─ ads ─

真のエンドポイントと代用エンドポイント

Basket goal

第一に,エンドポイントはその「本質性」という観点で以下の2種類に分けられます。

順に見ていきましょう。

真のエンドポイント

真のエンドポイント true endpoint
  • 客観性・普遍性があり「現実世界で確かに意味がある」エンドポイント
  • 医学研究であれば,その最たるものは〈全死亡〉
  • 「重症疾患 A の発症」なども該当する(心筋梗塞など)

ここからわかる様に,真のエンドポイントは一般に,たくさん起きる様なイベントではありません。

そのため,小規模試験や短期間の追跡では,介入群とコントロール群で統計学的有意差がつきにくくなります(そもそも両群ともイベントが観測されず “差” がつかない)。

逆を言えば,このエンドポイントで〈統計的に有意な差〉を検出しようと思うと,よほど大規模か長期間追跡する研究デザインにしなければ,検出力 power 不足となりやすい点に注意が必要です。

言い換えれば,サンプルサイズが小さいと,比較的まれなアウトカムに対しては統計学的な有意差がつきにくいということです。

それにより,本当は(母集団では)差があるのに,研究結果(標本調査)からはその差を見逃してしまうことがあるのです(=βエラー)。

そのため,より発生頻度が高く〈統計学的有意差〉をつけやすい,という点で下記の「代用エンドポイント」を用いる RCT が多くを占めています。

合わせて読みたい

この記事では 〈αエラー〉と〈βエラー〉とは何なのか? ということについて,基本的内容に絞ってまとめます。 さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]

代用エンドポイント

代用エンドポイント;サロゲート〃 surrogate endpoint

  • 真のエンドポイントと関連があると知られているもので,すぐに効果として観測しやすいエンドポイント

代用エンドポイントの最大の利点は,計測が比較的ラクだということです。

例えば「心血管疾患の発症」という真のエンドポイントで差が出るかを検証するのは,容易ではありません。そうしたイベントは発生数そのものが多くないからです。

〈統計学的な有意差〉を出すためには,先述したように相当数の参加者が必要となります(=大きなサンプルサイズを要する)。

そこで,心血管イベントとの関連が知られる「血糖値(HbA1c値)」「血圧」「コレステロール値」などを代用エンドポイントに据えた RCT を設計する,ということが行われます。

これらはの変化は「数字」としてすぐ目に見えるため,沢山の参加者を募らずとも〈有意差〉を演出できるわけです。

代用は代用に過ぎない

しかしここで重要な点は,

代用エンドポイント(血糖値の低下など)の差が試験期間中の短期に「有意」となったからと言って,真のエンドポイント(心・血管イベントの発症率など)の差に本当に寄与するかは不明である

ということです。

むしろ長期使用していると予期せぬ副作用などが体を蝕み,「真のエンドポイントではプラセボより悪い結果をもたらす」という悲劇的逆転が起こる可能性も否定できません。

  • 血糖降下薬として承認されたが,のちに「心筋梗塞のリスクは増すかもしれない」とメタ解析で示唆された薬剤
  • 腫瘍サイズを小さくするとして承認されたが,生存期間は伸ばさないことがわかった「抗がん剤」

は実在します。ここに代用エンドポイントの難しさがあります。

倫理の壁

では〈真のエンドポイント〉を達成していない薬剤はそもそも薬事承認しなければいいのでは?

という意見もあるかもしれません。

極論を言えば確かにその通りかもしれないのですが,実際には大きな倫理的障壁があり,そうはなっていません。真のエンドポイントだけを検証しようとすると,毎回あまりにも大人数のデータを必要とし過ぎるからです。

「効く」のかイマイチ不明な化学物質を,大勢の人に投与すべきでない

というのは倫理的にごく自然な発想です。特に第 III 相試験で検証される前の「新薬」は,正直まだ「得体が知れない」ものです。そもそも新薬と言うこともできません。まだ「薬」として承認すらされていないのです。

実際に人の体の中で効果があるのか不明であることはもちろん,安全性もごく限定的な状況でしか示されていない段階です(第 I 相試験,第 II 相試験)。そんな段階で,生身の人間数万人にいきなり投与するわけにはいきません(▼)。

第 III 相試験で示されること

ですから,薬事承認前の RCT(第 III 相試験)では,最低限、、、

  1. 「短期的には”効く”」(=代用エンドポイントくらいは満たす)こと
  2. 「その短期ですら有害事象が”効果”を上回ったりはしない」こと

を示すことができれば OK とされています。

そしてこの時,予め ①についての power 分析を行なって,必要十分なサンプルサイズを見積もった上で試験を行うことが求められています。

不必要に「得体の知れない化学物質」の危険性に暴露される人は,極力減らす努力がされなければならないのです。

合わせて読みたい

この記事では,RCT を読む時の必須知識の1つ, 〈検出力分析〉パワー分析;power analysis について解説します。 最初に本項のまとめを示します(▼) パワー分析に関するポイントまとめ パワー分析 ──〈統計学的[…]

〈真のエンドポイント〉を達成するまでの道のり

具体的に,新しい降圧薬が〈真のエンドポイント〉── ここでは「心血管イベントの抑制」── を達成するまでの流れをまとめてみます。

降圧薬 Aが〈真のエンドポイント〉を検証するに至るまで
  1. 化学物質Aが「血管拡張作用」を示すことが動物実験で示される
  2. A がヒトに対して「1. 降圧作用を示すこと」「2. 直ちにわかる様な明らかな毒性はないこと」が,ごく少人数の臨床試験(〜第 II 相試験)で示される
  3. 第 III 相試験で有意な血圧低下作用を示し,最低限の安全性も確認
  4. 承認申請 → 規制団体(FDA や PMDA)から薬事承認が降りる
  5. 晴れて「医療費」という”公費”をつかって処方できる様に
  6. ただしこの時点では「短期的」に「血圧」というデータを改善させる,ということしかわからない
  7. 長期的な安全性や「心血管イベント」(真のエンドポイント)への寄与は,数万人規模のデータで初めて見えてくる(あるいは第 IV 相 RCT で検証して初めてわかる)
ほとんどは第 III 相試験にすら辿りつきません。

本当に長い道のりです。

こうした地道なステップを踏まなければ,そうそう簡単に「本当に効く薬」を見つけることはできないのです。

|第 IV 相は製薬会社次第
なお製薬会社としては,薬事承認まで行けば「ひと段落」なので,その後に「真のエンドポイント」でのガチンコ勝負の 大規模 RCT まで仕掛けるかどうかは,経営戦略次第です。もし行うにしても,そういう大事な RCT で微妙なデータを出すわけにいかないので,後述する手練手管を弄して「一見良さそうなデータ」を一生懸命出すことになります(利害バイアス)。そしてそれでも上手くいかなければ,論文化せずにそっと「なかったこと」にするワザもあります(出版バイアス)。

その新薬は本当に「効く」のか?

こうした背景のため,

新薬はしばしば〈真のエンドポイント〉未検証の状態で上市される

という問題があります(特に迅速承認の場合)。

さらに,新薬はどうしても薬価が高くなってしまいます。

加えて,安全性(稀だが重篤な有害事象のリスク)も第 III 相試験ごときのサンプルサイズでは分かりません(後述)。とくに長期的な安全性に関しては全く証明されていません(誰も長期に使ったことがないので当然です)。

そのような段階で,「新薬をすぐ試す」ことのメリットとは何でしょうか。この辺りは臨床家がよく考えていく必要のあるポイントだと思います。

もちろん,潜在リスクを遥かに上回るメリットがあると考えられる場合は早期に新薬をトライする価値があるでしょう。しかしその臨床判断の前には必ず,第 III 相試験データの批判的吟味が必須です。原著のデータに目を通さず製薬会社のパンフレットだけ読んで新薬を処方する,などということは避けたいものです。とくに既存治療がある程度 確立した分野なのであれば,新薬には手を出さず「数年寝かせる」というのも,十分妥当な practice だと思います。

ハードエンドポイントとソフトエンドポイント

Question tablets

続いて,別の観点での分類も見てみましょう。エンドポイントを「客観性の度合い」によって分けたものが,「ソフト」か「ハード」かというものです。

ソフト & ハード

ソフトエンドポイント
  • アウトカム評価者の主観が入り込む余地のある項目
  • 「心不全悪化による”入院”」・「冠動脈再建術の”施行”」・「狭心症”症状”」・「一過性脳虚血発作 TIA の”症状”」など。
狭心症や TIA の「発症」と言われると一見ハードにも思われるが,これらの疾患は “自覚症状に則った病歴診断に過ぎない” ことがポイント。診断基準が画像診断など客観性が高いものではないため,ソフトと考えた方が妥当。
ハードエンドポイント
  • 総死亡,心筋梗塞の発症,脳梗塞の発症など
  • 客観性が高く,アウトカムの発生に解釈の余地が入りにくい
  • しばしば重篤で,患者・医師双方にとって重要性の高い項目
  • 最もハードなエンドポイントは「死亡」
    └─ そこにはどんな言い訳も解釈もない

ソフトとハードの重要な違い

これらの最も重要な違いは,

客観性に問題があり重要度も低い〈ソフトエンドポイント〉の方が,客観性が高く重要度の高い〈ハードエンドポイント〉よりも「よく発生する」

ということです。

ソフトエンドポイントの方が,少ないサンプルサイズでも統計学的有意差を出しやすいわけです。そのため製薬会社主導治験では非常によく用いられるエンドポイントです。

また,研究者にとっても,イベントが多く発生してくれた方が統計学的有意差がついて論文にしやすいので,セーフティーネットとして好まれる傾向があります。

この点は,真のエンドポイントと代用エンドポイントの関係性に類似しています

悪用されるソフトエンドポイント

特に悪用されやすく注意を要するのが,

「盲検化されていない研究」×「ソフトエンドポイント」

という組み合わせです。

盲検化のない試験では,現場でソフトエンドポイントを判断する医師も,実際に薬を飲んでいる参加者も,誰が〈治療群〉で誰が〈対照群〉なのか分かっています。

そうすると,〈対照群〉に割り付けられた参加者は〈治療群〉に割り付けられた患者よりも,より不安に駆られたりする可能性があります。つまり,症状を頻繁に訴える可能性があります。

ホーソン効果やプラセボ効果の影響も受けます。

それに加え,医師やアウトカムの評価者が製薬会社と利益相反関係にあったりすると,

この〈対照群〉の人の訴えを,1つのイベントとして報告すれば,また1つ『差』になるな〜

などと新薬治療群に有利な「恣意的かさ増し」も可能になってしまいます。

この様に,「非盲検×ソフトエンドポイント」というのは非常にバイアスリスクが高い構造であるため,結果解釈は相当に割り引いて行う必要があります。

ソフトエンドポイントのメリット

なお,ソフトエンドポイントのメリットとして

「臨床診断」や「現場の判断」などリアルワールドの情報を汲み取ることができる(=リアルワールドへの外的妥当性がある)

ということを挙げる意見もあります。

しかしその様なポジティブな捉え方ができるものかどうかは,試験デザインを見て判断する必要があるでしょう。そもそも盲検化されていないのであれば,何をどう言ったところで『バイアスの塊』でしかなく,注意が必要です。

ただ試験実施者側からすれば,ハードなものより検証コストが安く済むことが多く,代用エンドポイント同様によく用いられる指標です。

最近流行りの PROBE 法なるデザインも,本質的にはオープン試験(PROBEのOはOpenのO)ですので,ソフトエンドポイントとの組み合わせには注意が必要です。

主要エンドポイント と 二次エンドポイント

Calc

続いて,〈主要評価項目 primary endpoint〉と,〈副次評価項目 secondary endpoint〉という分類について考えてみます。

臨床試験の論文を読めば本文中にも必ず出てくる言葉ですね。

主要評価項目と二次評価項目

主要評価項目 primary endpoint
  • 臨床試験は唯一この1つのエンドポイントについて仮説を〈検証〉ないし〈立証〉するためデザインされる
  • この仮説で〈統計的有意差〉があるかどうかを示すために十分な power を計算された上で,集めるべきサンプルサイズが決定される
副次(二次)評価項目 secondary endpoint
  • 研究で得られたデータをもとに, Primary endpoint 以外の他の仮説を〈提唱〉するため,オマケとして解析するもの

冒頭で述べたように,これらのエンドポイントは試験開始「」から必ずプロトコルとして提出しておくことが求められます。

原則,試験途中からの変更は認められません。

あらかじめ「解析しますよ」と宣言していなかったエンドポイントを後から設定して解析する場合,それらはすべて「後付け解析」(post-hoc analysis)の扱いとなり,かなり信頼性が下がることになります。

こうしたエンドポイントは〈探索的評価項目 Explaratory Endpoint〉と呼ばれますが,実際には多くの場合バイアスの塊と考えて支障ありません。一見それらしい、、、、、、、データが出ていても,相当割り引いて考える必要があります。そのウラで一体どれほどの多重検定が行われたか不明だからです。
|Other prespecified endpoints
大規模 RCTでは〈二次エンドポイント〉というほどでもないけれど一応データ解析するよ,とあらかじめ宣言しておくエンドポイントも散見されます。〈Other prespecified endpoints〉などと本文中に記載されています。

二次エンドポイントはオマケに過ぎない

二次エンドポイントやそれ以下のオマケ解析を見た時,最も重要なことは,これらが「あくまでオマケに過ぎない」ということです。

誤解されていることが多いのですが,

二次エンドポイントは仮説を「提唱」するために行われるオマケの解析

に過ぎません。

仮説を「検証」したものではない

ということです。

1つの試験できちんとした「手順」を踏んで立証できる仮説は,本来1つだけです。それこそが唯一無二の〈主要評価項目 Primary endpoint〉なのです。

しかし,RCTなどの大きなコストをかけて行う研究で,せっかく得られた貴重な臨床データを Primary Endpoint の〈検証〉あるいは〈立証〉のみに用いるのはもったいない。他の仮説が〈提唱〉できそうな「傾向」がないかについても,ついでにちょこっと検討して見ましょう。── それが二次エンドポイントです。

ですから二次エンドポイントでそれらしい、、、、、データが得られた時も,主張できることは以下が限界です。

今回この二次エンドポイントについても「効果」がありそうな感触があったが,この試験はこれについて検証するためのデザインになっていない。そのため,妥当性が低くバイアスのリスクもある。この仮説を改めて検証するため,次回はこの点を primary endpoint にして改めて RCT で検証しよう

臨床試験というのは最初から最後まで primary endpoint について検証するために設計されているのです。

1試験 → 1つのエンドポイントしか検証できない

そしてそれは primary endpoint のことである,というのは非常に重要なポイントです。

合わせて読みたい

この記事では,医薬品に関するリテラシーとして必須知識である 「仮説検証」と「仮説探索/提唱」の違い について解説します。 「統計的に有意」は等価ではない 医学研究には多くの種類がありますが,ほとんどの研究で最終的に〈統計的に有意[…]

|実例:ELITE 試験
好例として,ELITE 試験[pubmed]ELITE II 試験 [pubmed]が挙げられます。これらはいずれも NYHA II〜IV,EF40% 以下の慢性心不全患者を対象とした試験で,ロサルタン 50 mg をカプトプリル最大 150mg と比較した二重盲検 RCT です。前者の ELITE 試験(n=722人)では主要エンドポイント(血清クレアチニン悪化)で有意差が出なかったのですが,二次エンドポイントで「死亡率は低い傾向」がありました(17例:4.8 % vs 32例:8.7%, p=0.035)。その効果が本物なのか偶然のバラツキなのか立証するため,後者の ELITE II 試験では死亡率を主要エンドポイントに設定し,より大きなサンプルサイズ(n=3152)で検証されました。結局,死亡率で有意差は出ませんでした。ELITE 試験 の死亡者は 17 例と 32 例と実数が少なく,偶然のバラツキを検出してしまっただけなのでしょう。ELITE II 試験が白黒ハッキリさせました。

多重検定の問題

そもそも,仮に複数の二次エンドポイントで p<0.05 のデータが得られていたからと言って,それらを全て同じ水準で「有意 sginificant」と主張することは問題です。

この点も非常に誤解が多い部分だと感じます。

これには統計的理由があって,〈統計的仮説検定〉は繰り返せば繰り返すほどαエラーの確率が高まってしまうからです(=多重検定の問題)。

ここで何よりも重要となるのが,

p 値が 何%から有意と取るか(=有意水準)は,αエラーを何%まで許容するかと同義

という事実です。これはつまり,p=0.05 を有意と取る」とき,同時に 5 %のαエラーを許容しているということです。

αエラー:本当は(母集団では)差がないのに,標本調査の結果から,「本当に(母集団でも)差がある」だろうと推定してしまう誤りのこと。

当然,複数回の〈検定〉をおこなって,毎回 p=0.05 という同一の有意水準で判定し続けたら,「いずれかの〈検定〉でαエラーを含む確率」はどんどん高まっていきます。

多重検定の例

新薬 vs プラセボ(偽薬)の比較結果(▼)

アウトカム ハザード比(95%信頼区間) P値
心血管死 or 心筋梗塞 or 脳卒中 0.85(0.72-0.99) 0.04
心筋梗塞 0.65 (0.50-0.85) 0.04
腎機能の悪化 0.70 (0.56-0.87) 0.04
脳卒中または一過性脳虚血発作 0.81 (0.65-0.99) 0.05
心不全による入院 0.62 (0.45-0.86) <0.01

上記 5つのアウトカムについて〈仮説検定〉を 全て 5 %の有意水準で行った場合,結果はいずれも〈有意〉に見えます。しかしそれは同時に,「本当は差がないのに有意と判定してしまう可能性(αエラー)」を,全ての〈仮説検定〉でそれぞれ 5% 孕むことになります。


そのため「5つのうち 少なくとも1つは αエラーである確率」は

1 – 0.955 = 0.23,つまり 23%

となります。この時,どのアウトカムも αエラーになり得ますし,どれが真実なのかも当然分かりませんから,全体としての信頼性を貶めてしまいます。

|厳密には・・
とはいえ実は,上記の数式も厳密には誤りです。上記のアウトカムは全てが「独立」とは言い難いため,綺麗に 1-0.955として扱うことも本来は問題があります。

有意水準の補正

こうした問題のため,本来〈有意水準〉というものは,検定の数を増やすごとに厳しくしていかなければなりません。

主要エンドポイントのみに対して1回だけ検定を行うのであれば,p=0.05 を有意水準として検定し終了,でOKです。

しかし複数のエンドポイントについて検定を行って,その全てで「有意性」を主張したいのであれば,有意水準はドンドン厳しくしていかなければなりません。

そうした補正を行わないのであれば,複数回「有意性」を主張してはいけない,ということです。

この様な原則を無視し,Secondary Endpoint や post-hoc endpoint で<0.05となるものを引っ張り出してきて「有意!」と主張することは許されません。

仮説提唱として扱うなら許容できますが,まるで立証されたことのように主張することは,単純に統計的な誤りであり,注意が必要です。

特に Primary Endpointで有意差が出なかった時,Secondary Endpoint でp値が低いものを持ってきて有意性を主張する様な「すり替え」をよく見かけます。その様な論理のすり替えは,Spinと呼ばれます(後述)。
有意水準の補正例:ボンフェローニ法
なお,有意水準の補正でよく用いられるのが Bonferroni 法です。これは,仮説検定の回数分だけ有意水準を割って,より厳しくするという手法です。たとえば Primaryと Secondary で1つずつ,合計2回の〈仮説検定〉を行う時,いずれも p < 0.25 なら双方「有意」と主張して構わないと考えるものです。この時,両仮説とも α=0.05 の有意水準で検定することは紛れもない〈多重検定〉であり,αエラーのリスクを高める行為です。しかし Bonferroni 法を用いれば,αエラーのリスクを高めずに済みます。

安全性は示せない問題(βエラーの問題)

また primary endpoint と secondary endpoint をめぐる話題としてもう1つ重要なのが

「有害事象に対するβエラー」の問題

です。

経済的・倫理的観点から,RCTは「必要十分な最小限」のサンプルサイズでデザインされるべきであることは先述した通りです。

この時,主要評価項目 primary endpoint の差に対する〈検出力 power〉が必要十分となる様,あらかじめ計算しておいて,募る参加者の数もプロトコルに記載し提出することが求められるのでした。

ここで重要な点は,

power 計算は「あくまで primary endpointに対して行ったものである」

ということです。

第 III 相試験レベルでは,安全性は「オマケ解析」

先述した様に,多重検定の問題があるため,あくまで primary endpoint 以外は「オマケ」です。

副次評価項目 secondary endpoints に対する power なんてイチイチ計算していませんし,十分なサンプルサイズも集められていません。

そして多くの新薬の RCT(第 III 相試験)では「まず効果を示すこと」が第一目標であり,primary endpoint はあくまで「効能のアウトカム」です。

必然,副作用や有害事象などの「安全性のアウトカム」は secondary endpoint の方に入れられることになります。そして secondary にすぎない「安全性の指標」に関し,検出力が十分になる様に試験はデザインされていません

つまりそこで「有意差」が出なかったからと言って,それは βエラー(検出力不足)の可能性があるということです。

これが,第 III 相試験が「安全性を担保してくれない」ということの原理です。

この様に〈二次エンドポイント〉というのは,αエラーの確率が高くなっている(=多重検定の問題)のみならず,βエラーの確率も高くなっているのです。

製薬会社としては,第III相試験の様な「効能」を示すための RCT で,念のため検証しておくに過ぎない「有害性のエンドポイント」で「有意差」がついてもらっては困るわけです。有意差は出ない方がいい。この部分に限っては,βエラーの方がむしろ都合が良い,という構図になっている点に注意が必要です。

架空の例:こんな糖尿病薬は安全か?

例えば,ある新しい糖尿病薬で RCT が組まれたとします。

Primary endpoint(血糖値降下)は しっかり有意差が出て,めでたしめでたし,という結果だったとしましょう。しかしこのとき,安全性のアウトカムについては以下の結果が得られていたとします(架空データです)。

とある糖尿病薬のRCT :安全性のアウトカム
secondary endpoints 新薬 プラセボ ハザード比 P値
急性膵炎 25 (0.4%) 12 (0.2%) 2.01 (0.96-3.88) p=0.07
重症低血糖 80 (1.3%) 60 (1%) 1.33 (0.89-2.44) p=0.10
(▲)有害イベント数は明らかに新薬側で多いが,p 値 > 0.05

上表で急性膵炎や重症低血糖は(有意水準 0.05 の時)P 値としては「有意差なし」となるわけですが,果たして「本当に差がない」と言い切ってよいのでしょうか?

答えは NO です。

なぜなら「本当に差がない」可能性もありますが,「本当は差があるのに,サンプルサイズが不足していたから有意差として検出できなかった(=βエラー)」可能性もあるからです。

上の表を見ると,急性膵炎も重症低血糖も,いずれも数%程度と比較的まれな有害事象です。ですからこれらの現象で統計学的有意差を出すには,サンプルサイズが圧倒的に足りません(power 不足)。

しかし現実問題として,この標本においては急性膵炎が実薬群で 2 倍もの頻度で観測されているのです。

もしこの RCT が 3 倍や 5倍 のサンプルサイズで行なわれ,それでも万が一 上記と同程度の頻度で有害事象が起きた場合(プラセボよりも急性膵炎が2倍に増えていた場合)は,P値はもっと小さくなります。そうなると power が十分となり,これらの有害事象についても〈統計学的有意差〉がついた可能性が否定できません。

糖尿病は全世界で数億人(!)規模の患者さんがいる病気です。リアルワールドに比べれば,RCTで対象にするサンプルサイズなど,吹けば飛ぶような人数です。この新薬が数億人の患者さんに渡ったとき,本当に上記の有害事象が「ただの偶然だよ」と主張し続けることはできるでしょうか?

これは,誰にも分かりません

結局,この標本データはサンプルが少な過ぎて,実際ただの偶然だという可能性もあるからです。今回のデータではたまたま 2 倍近い頻度で観測されただけで,次回同じ様な研究を行えば,全くそんな傾向はないかもしれません。

しかし「安全性を断言できるものではない」ということは厳然たる事実です。

これは,そもそも試験デザインが「比較的稀だが無視できない重篤な副作用」という「安全性のアウトカム」でも有意差を出すことを目的としていないからです。

あくまで「効能のアウトカム」に照準を合わせて最低限のサンプルサイズを集めただけの RCT では,それらの項目については検出力がないのです。これが有害事象に対するβエラーの問題です。

新薬は寝かせろ

『新薬は3年寝かせろ』『いや5年寝かせろ』

といった格言は,臨床家によく知られています。

これはまさに上述した第 III 相試験の限界のために,市販後から大きな副作用や有害事象が明らかになることがあるためなのです。

近年でも,とある糖尿病薬における膀胱癌のリスクの問題で莫大な金額の薬害訴訟が起きたり,免疫チェックポイント阻害薬で数々の自己免疫性疾患の有害事象が問題になったりすることがありました。

この様に,市販後(に膨大なサンプルサイズを対象にした)調査で「到底無視できないレベルの重篤な有害事象の報告が目立ち始める」ということはしばしばあり,実際によく問題になります。

「くすり」は「リスク」と言いますが,何の副作用もなく効能ばかりを発揮してくれる魔法のアイテムなんてありません。副反応や有害事象が一定程度の割合で発生してしまうのは仕方がないことです。薬を飲むということは,その「稀な有害事象」と「大きな効能」を天秤にかけて,リスクを許容した上で行う行為なのです。

問題はその「リスク」の部分が,承認されたばかりの新薬では十分に検証されていないことが多い,ということです。

これは構造上の問題です。

第 III 相試験程度では『稀だが重篤な副作用』などの有意差を検出できない

──この限界については,臨床家も患者さんもよく知っておくべきだと思います。

もちろん「効能のエンドポイントで差を示そうとデザインしたのに,有害事象のエンドポイントの方でばかり有意差がついてしまう」ような毒薬は,薬事承認の時点できちんと弾かれます。risk/benefit バランスが崩壊した薬品が承認されることは稀です。ですから,新薬であっても「短期間における最低限の安全性」は示されていると言えます(その臨床試験に参加した被験者と背景因子が近い患者さんにおいては)。しかしそれでも「長期投与の安全性」や,「希だが重篤な有害事象」といったリスクが第 III 相試験レベルでは判定できないことは事実です。また,第 I/II 相試験の段階で明らかに有害性が示唆されていた場合,第 III 相時点ではハイリスク患者を対象から外したりすることがありますので,臨床試験の inclusion criteria は非常に重要です(例:催奇形性のある薬剤で若年女性を治験に参加させない様にするなど)。
|アビガンは?
ところで,アビガン®︎は抗インフルエンザ薬としてプラセボとの比較(米国第2相試験)でも有意差を示せなかった上に催奇形性の強い懸念(添付文書で男性にまで避妊を徹底させるほど)があったのに,なぜ日本でのみ限定承認・厳重保管──それも「基本的には使わない」という強い条件付きで──されていたのでしょう。そしてそんな怪しい薬がなぜ突然,何の臨床試験も経ずに COVID-19 へ効くと喧伝され始めたのでしょうか。それは うっ・・頭が・・・ 
PMDA(p.168 参照)
薬害オンブズパースン会議

それでもなお新薬を処方するか

こうした現実を理解した上で「それでもなお新薬を試す価値があるか?」については,その薬の効能の大きさや,患者さんの状況を踏まえて,医療者がよく考えなければならない問題です。

言われてみれば当然のことだとは思うのですが,案外,日常診療の中では抜け落ちてしまっている観点ではないでしょうか。

重要なポイント
  • 「有意差がない」≠「本当に(母集団でも)差がない」
  • 「有意差がない」➡︎「サンプル不足(βエラー)」または「本当に差がない」
合わせて読みたい

〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]

エンドポイントのすり替え記述(spin)にご用心

Primary endpoint と secondary endpoint の話を閉じる前に,最後にもう1つ言及しておくべきことがあります。それが「Endpoint のすり替え記述」の問題です(spin)。

spin とは
もともと設計していた Primary endpoint で有意差を出せなかった場合などで,そのことを棚上げにして secondary endpoint やそのサブ解析で有意差が出た項目だけを取り上げる「粉飾的記述」。「conclusion」や「abstract」でよく見かける。

要するに Conclusionが

主要評価項目では有意差が出ませんでした

だけだと論文著者としても寂しい気分なので,気を紛らわせるために入れちゃうわけですね。spin についてはしっかり 禁止している雑誌もありますが,許容しているところもあり,トップジャーナルでもしばしば見かけます。

結局,インパクトファクターが高い雑誌だからといって,abstract だけを鵜呑みにしてしまうのは極めて危険だということです。

主要エンドポイントに有意差のなかった 72 本の RCT 論文で粉飾的記載(spin)がなかったか調べた JAMA の論文が有名です。この論文では, spin が論文のタイトルに含まれていたものが18.0%,Abstract の「結果」に含まれていたものが 37.5%,「結論」に含まれていたものが 58.3 % もあったという衝撃的な報告がされています
── JAMA. 2010 May 26;303(20):2058-64)[pubmed]
─ ads ─

複合エンドポイント

Assort

最後に〈複合エンドポイント composite endpoint〉の問題を取り上げたいと思います。

先述した様に,研究プロトコル提出の段階で〈主要エンドポイント〉primary endpoint をただ 1 つ選定して明記することが,RCTの原則です。

しかし昨今では〈主要エンドポイント〉に据えるものを「詰め合わせ」にしてしまおう,という企みがあちこちで見られる様になってきました。

こうした「詰め合わせ」を〈複合エンドポイント〉と呼びます。

「詰め合わせ」を用いる利点と欠点

複合エンドポイントが採用される主な理由は,「エンドポイントにあたるイベントの発生数を『かさ増しする』ことで検出力を高められるから」です。

イベント数が増えれば,その差を検出できないという βエラーのリスクが下がるため,小さなサンプルサイズの RCT でも十分な統計学的有意差を出すことができます。

これにより試験参加者を減らすことができる,という経済的/倫理的メリットがあることは事実です。この点はソフトエンドポイントや代用エンドポイントが用いられる理由と同じだと言えます。

一方,デメリットは当然ながら

「詰め合わせ」の中身が増えるほど,結局何の効果を見ているか不明になる

ということです。

複合エンドポイントの実例

複合エンドポイントを用いた臨床試験の例として,以下の様なものが挙げられます(▼)。

複合エンドポイントの実例
  1. 非致死的心筋梗塞+非致死的脳卒中+心血管死+原因不明死
    [REWIND] [EMPA-REG OUTCOME]
  2. 致死性ないし非致死性心筋梗塞を含む冠動脈心臓疾患+狭心症の最初の発症+心臓疾患による死亡+突然死+冠動脈血行再建術
    [MEGA]
  3. 全死亡+非致死性心筋梗塞(無症候性を含む)+脳卒中+急性冠症候群(ACS)+冠または下肢動脈における血管内または外科的インターベンション+足首より上の下肢切断
    [PROactive]
  4. 脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+非致死性冠動脈疾患+心不全による入院+治療を要する動脈硬化性疾患+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生
    [FREED]

いずれも実在する trial の実在する複合エンドポイントです(link先 は Pubmed)。

これらの複合エンドポイントの中身を見ると,死亡という最重要なものからあまり重要でないものまで幅広く軽重が混在していることにお気づきになると思います。

④ に至っては,中身の重症度の振れ幅が大きすぎて,この〈複合エンドポイント〉で統計的有意差が出たから「じゃあなんなの?」「結局なにが減ったの?」という話になってしまいます。

複合エンドポイントの本質は「イベントのかさ増し」である,ということがよくお分かりいただけることでしょう。

複合エンドポイントの悪質な利用方法

さらに言えば,複合エンドポイントには

重大なイベントと正直どうでもいいイベントとの「詰め合わせ」にすることで「あたかも重要なイベントも減らしたかの様な錯覚を与える」

という効果もあります。

特に abstract や 図表のみしか見ない読者には「被験物質の効果を過大評価させる」,あるいは「誤った印象付けをする」ことになり得ます。

当然,こうした〈複合アウトカム〉を用いるのであれば,その構成要素1つ1つを見て「実際どこで差がついていたのか」を公開する義務があるはずです。

しかしそうした個別のアウトカムは secondary endpoint に追いやられてしまっているため,解析データは本文中に掲載されないことも少なくありません。appendix やsupplementary figure だとか言って,別の PDFに分けられてしまうことすらあります。

あくまで複合したパッケージこそが Primary であり,個別解析は Secondary なんだから,そりゃあ個別解析の扱いは下になるでしょう,という論理です。しかしそれはつまり臨床的重要性の高い項目がサブ扱いされ,どうでもいいイベントとの複合という「パッケージ」の方がメインになってしまっているという,奇妙な逆転現象が起きてしまっていることを意味します。

そのパッケージを許容できるか

もちろん全ての〈複合エンドポイント〉が悪なわけではなく「ある程度臨床現場でのテンションが近い」イベントの詰め合わせであれば許容されます。

問題は,死亡の様な重大なエンドポイントも,蛋白尿の様な正直どうでもいいエンドポイントも,「ソフト」も「ハード」も何もかも詰め合わせて「欲張りセット」の様になっている様なケースです。

その「パッケージ」が増えただの減っただのと言われても,結局何が増えたんだか減ったんだかわからない。そんなエンドポイントの臨床試験では,残念ながら臨床的価値が全くないと言わざるを得ません(▼)。

Luckybags
赤い方の福袋は許容できますが,黄色い方の福袋は許容できません。黄色の福袋イベント(の回避)がプラセボと比べ有意差がついたからと言って,結局その中身が「微量アルブミン尿」ではお話になりません。
実例:FREED 試験
Freed figure
上図は,無症候性高尿酸血症患者を対象にした FREED試験 の結果の表です。介入群はフェブキソスタット内服,対照群は無治療(または半量 dose のアロプリノールを現場医師の判断で考慮しても良い)という試験です。Primary Endpoint は「心臓・腎臓・脳アウトカム」と銘打たれており,ハザード比は 0.75,p=0.017 と統計的にも有意です。この様な Figure が薬剤のパンフレットに貼ってあったら「結構イベント減らすじゃん!」と思ってしまいかねません。しかしその複合エンドポイントの内実は,先にご紹介した通りごった煮の詰め合わせ ─── 脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+非致死性冠動脈疾患+心不全による入院+治療を要する動脈硬化性疾患+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生 ─── です。そして,この「ごった煮」の中身を個別に解析したデータを見てみると(Supplementary Figure),唯一減らしていたのはアルブミン尿関連のイベントだけで,重要なハードエンドポイントは減らせていませんでした。 Eur Heart J. 2019 Jun 7;40(22):1778-1786(※ IF20-30台の一流誌です)

エンドポイントを見る上で重要なこと

ここまでさまざまな種類のエンドポイントについて見てきましたが,結局私たちがそれらの価値を評価する上で重要な観点は,以下の2つに集約さます。

  1. そのエンドポイントは『本当に意味があるか』?
  2. 結果が出たとして『その結果に普遍性はあるか』?

本当に意味があるか?

「本当に意味があるか」ということは,突き詰めれば

  • そのアウトカム自体に「現場での価値」があるか?
  • 副作用リスクやコストと天秤にかけても「意味がある」と言えるか?

ということです。

結果に普遍性があるのか?

そして「結果に普遍性があるか」ということは,突き詰めれば

  • その研究の質にはどの程度の信頼性があるか。別の研究者が行っても再現性があるのか(=内的妥当性
  • その研究結果は「特定の状況の特定の人物にだけしか当てはまらない」ものではないか。目の前の問題に応用して良いものなのか(=外的妥当性

ということです。

逆に,これらの要素のいずれかを著しく損なう行為がある場合,その臨床試験は「ヤバいかもしれない」という判断になります。

そしてインパクトファクター(IF)の高いいわゆる一流ジャーナルに載っている論文であっても,こうした「試験デザインの根幹部分」からムチャクチャになってしまっている RCT はザラにあります。

こうしたデータの良し悪しを自分で判断できるよう,日頃から意識して論文と向き合っていきたいですね。

まとめ

Reading paper

TAKE HOME MESSAGE
  • 稀なイベントの発生で有意差をつけるのは大変(必要サンプルサイズ大)
  • そのため〈真のエンドポイント〉や〈ハードエンドポイント〉よりも,〈代用エンドポイント〉や〈ソフトエンドポイント〉,それらの〈複合エンドポイント〉を用いた臨床試験が非常に多い
    • それらの試験結果の「本質的意味」は慎重な吟味が必要
  • 二次エンドポイントの結果はオマケに過ぎない
    • 多重検定の問題(αエラー),検出力不足の問題(βエラー)がある

医学系 RCT でありがちな「やばいエンドポイント」を8つまとめてご紹介する記事も用意しておりますので,ぜひ合わせてご確認ください。

合わせて読みたい

この記事は医療関係者の方向けです 製薬会社さんが配る薬剤パンフレットを見ると,立派なジャーナルに載った 立派な RCT の結果が必ず載っています。そしていつも「いい感じにまとまった図表」がバンと貼ってあり,大変目を引きます。 どうやら統[…]

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG