【徹底解説】臨床試験におけるエンドポイントの種類すべて

この記事では,「医学系 RCT を正しく読む」ための必須知識となる,エンドポイントの種類についてまとめます。

そもそもエンドポイントとは?

Endponint エンドポイントとは,治験や臨床試験(RCT)において,

新しい薬(ないし手法)の有効性や安全性をはかるための【指標】

です。

日本語では単に〈エンドポイント〉ないし〈評価項目〉と呼びます。
「アウトカム(結果)」と言ってしまう場合もあります。

ちなみになぜ評価項目のことを「エンドポイント」というかというと,その評価イベントを起こした試験参加者は原則その時点で追跡終了となるからです。イベントを起こして追跡が「終わる」「時点」なのでエンドポイントと呼ぶわけです。

試験前から提示しておく義務がある

エンドポイントは臨床試験の実施前に,項目の解析方法も含めて必ず実施計画書(プロトコル)に記すことが求められます。

これは「後出しジャンケン」を防ぐための倫理的なルールです。

最初に「今から野球の試合をします!」と言って試合を始めたのに,途中で旗色が悪くなってきたら,いきなり「ジャジャン!ここでルール変更です!」と言って

実はこの試合は,得点数ではなくヒット数の多さを競う競技なんです。
というか,今からそうなります。

よろしくです〜✌️✌️

などとすることが許されていいわけがありませんよね。

子供同士の遊びなら構いませんが,学術論文,特に医学論文では大問題です。

そうしたルール変更を許して「本質的には意味がないエンドポイントを達成した新薬」ばかりが世の中に溢れてしまえば,人の大切な健康や生命のみならず,莫大な金額(医療費)を無に帰する可能性があるからです。

その様な悪夢を防ぐためにも,最初に「その試合のルール」を明記しておくことが求められるのです。

エンドポイントは本当にピンキリ

しかし,実際そうして予め提出された〈エンドポイント〉も,よく見てみるとピンからキリまでとんでもなく幅広くなっていることに気づきます。

そもそもこのエンドポイントには現実世界での『意味』があるのか?

という本質的な問いが必要になる様な RCT が,現実にはごまんとあるのです。

その様なエンドポイントは,どの様に見抜いたら良いでしょうか。

今回は,そんな魑魅魍魎が跋扈する医学系 RCT を読むための基本知識,「エンドポイントの分類」についてまとめていきたいと思います。

─ ads ─

真のエンドポイントと代用エンドポイント

Basket goal

エンドポイントは,本質性という観点で以下の2種類に分けられます。

  • 真のエンドポイント
  • 代用エンドポイント(サロゲートエンドポイント)

それぞれの特徴につき,順に見ていきましょう。

真のエンドポイント

真のエンドポイント true endpoint

  • 客観性・普遍性があり「現実世界で確かに意味がある」エンドポイント
  • 医学研究であれば,その最たるものは〈全死亡〉
  • 「重症疾患 A の発症」なども該当する(心筋梗塞など)

ここからわかる様に,真のエンドポイントは一般に,たくさん起きる様なイベントではありません。

そのため,小規模試験や短期間の追跡では,介入群とコントロール群で統計学的有意差がつきにくくなります(そもそも両群ともイベントが観測されず “差” がつかない)。

逆を言えば,このエンドポイントで【統計的に有意な差】を検出しようと思うと,よほど大規模か長期間追跡する研究デザインにしなければ,検出力 power 不足となりやすい点に注意が必要です。

検出力 Power ── ここではβエラーを起こさないための十分な標本サイズがあるか?という意味で用いています。 本当に(母集団でも)差がある時に,標本調査の結果からでもきちんと「差がある」と結論するためには,十分な標本サイズが必要となります。

仮に本当に差があっても,サンプルサイズが小さいと,比較的まれなアウトカムに対しては統計学的な有意差がつきにくいのです。

それにより,本当は(母集団では)差があるのに,研究結果(標本調査)からはその差を見逃してしまうことがあるのです(=βエラー)。

そのため,より発生頻度が高く【統計学的有意差】をつけやすい,という点で下記の「代用エンドポイント」を用いる RCT が極めて多くなっています。

代用エンドポイント

代用エンドポイント;サロゲート〃 surrogate endpoint

  • 真のエンドポイントと関連があると知られているもので,すぐに効果として観測しやすいエンドポイント

例えば,本当は「心血管疾患の発症」という真のエンドポイントで統計学的有意差があるか調べたいとします。

しかし,そうしたイベントは発症そのものが多くないため,統計学的な有意差を出すためには,かなりたくさんの参加者が必要となります(大きなサンプルサイズを要する)。

そこで「血糖値(HbA1c値)」「血圧」「コレステロール値」などを代用エンドポイントに据えた RCT を設計します。

これらは,下げることによって心血管イベントを減らすとされており,なおかつ数字としてすぐ効果が目に見えるからです。

これらのエンドポイントであれば,比較的簡単に差をつけることができます。沢山の参加者を募る必要がないわけです。

代用は代用に過ぎない

ここで重要な点は,

代用エンドポイント(血糖値の低下など)の差が試験期間中の短期に「有意」となったからと言って,真のエンドポイント(心・血管イベントの発症率など)の差に本当に寄与するかは全く不明である

ということです。

むしろ長期使用していると予期せぬ副作用などが体を蝕み,「真のエンドポイントではプラセボより悪い結果をもたらす」という悲劇的逆転が起こる可能性も否定できません。

実例として,「血糖値は下げるが,心血管イベントを増やす」という悲劇的逆転が RCT で示されてしまった糖尿病薬 (wiki)もあり,大きな問題となりました。

倫理の壁

これをみて

じゃあ「真の endpoint」を達成していない薬剤はそもそも薬事承認しなければいいじゃないか!

と思われる方もいらっしゃるかもしれません。

まあ極論を言えばその通りかもしれないのですが,そうするには大きな倫理的障壁があります。それは

「効く」のかイマイチ不明な化学物質を,大勢の人に投与すべきでない

という至極真っ当な問題です。

大規模試験はカネがかかる,という経済的な障壁もあります

特に,第 3 相試験で検証される前の「新薬」は,正直まだ「得体が知れない」ものです。そもそも新薬と言うこともできません。まだ「薬」として承認すらされていないのです。

実際に人の体の中で効果があるのか不明であることはもちろん,安全性もごく限定的な状況でしか示されていない段階です(第1相試験,第2相試験)。

いくら臨床試験への参加を同意されたからと言って,そんなものを生身の人間数万人にいきなり投与するわけにはいきません。

有害事象が多かった時,悲劇になります。

第3相試験で示されること

ですから,第3相試験(薬事承認前のRCT)では,最低限

  1. 「短期的には”効く”」(=代用エンドポイントくらいは満たす)こと
  2. 「その短期ですら有害事象が”効果”を上回ったりはしない」こと

を示すことができれば OK とされています。

そしてこの時,予め ①についての power 分析を行なって,必要十分なサンプルサイズを見積もった上で試験を行うことが求められています。

不必要に「得体の知れない化学物質」の危険性に暴露される人は,極力減らす努力がされなければならないのです。

補足:power 分析とは
  • power(検出力)分析とは,βエラー(本当は差があるのに差があると検出できないエラー)が起きない必要十分なサンプルサイズを予め推算する行為のことです。これまでの先行研究などのデータから推定される効果やばらつきなどをもとに推算します。
  • 先行研究のデータをそのまま今回の研究に当てはめられるという保証は当然ないため,かなり「手さぐり」な行為になります。しかしたとえ「手さぐり」であっても,倫理的・経済的課題に向き合うために,このプロセスは必須とされています。米国ではこれを行っていないと,研究費(グラント)もほとんど降りません。一流紙に載る RCT はほとんど全て power 分析が行われています。

〈真のエンドポイント〉を達成するまでの道のり

具体的に,新しい降圧薬が〈真のエンドポイント〉── ここでは「心血管イベントの抑制」── を達成するまでの流れをまとめてみます。

降圧薬 Aが〈真のエンドポイント〉を検証するに至るまで

  1. 化学物質Aが「血管拡張作用」を示すことが動物実験で示される
  2. A がヒトに対して「1. 降圧作用を示すこと」「2. 直ちにわかる様な明らかな毒性はないこと」が,ごく少数を対象とした臨床試験(第1相〜2相試験)で示される
  3. 第 3 相試験(二重盲検 RCT)で偽薬と比べ有意な血圧低下作用を示し,ひとまず試験中に明らかな有害事象の増加はなし
  4. 降圧作用(と最低限の安全性)を認められ,FDA から薬事承認が降りる
  5. 晴れて「医療費」という”みんなのお金”をつかって処方できる様に
  6. 以上により経済的課題も倫理的課題もひとまず解決
  7. 「心血管イベントを本当に減らすのか?」検証するため,ついに1万人規模の大規模な研究をデザイン!結果は…?
ほとんどは第 3 相試験にすら辿りつきません。

長い道のりですね。

重要なことは,

私たちが「降圧薬の内服」によって真に期待する効果は,” 単に「血圧」というパラメタを下げる” ことではない

ということです。

最終的に「心血管イベント発症を減らしたい」から血圧を下げようとしているのです。

糖尿病で 血糖値・HbA1cを下げようと試みたり,脂質異常症で LDL-コレステロール値を下げようと試みたりするのも同様の理由です。

しかし,いきなりその様な本質的なエンドポイントを設定した試験で有意差を出すにはサンプルサイズが多く必要であり,倫理的・経済的に困難です。

そこで,まずは代用エンドポイント ── 血圧値やコレステロール値や血糖値 ── を満たして薬事承認に取り付けなければ話が前に進まない,という構図になっているわけです。

〈真のエンドポイント〉について検証されるのは,薬事承認を受けた後になってしまうことが多いのです。

補足
なお製薬会社としては,薬事承認まで行けば「ひと段落」なので,その後に「真のエンドポイント」でのガチンコ勝負の 大規模 RCT まで仕掛けるかどうかは,経営戦略次第です。もしやるにしても,そういう大事な RCT で微妙なデータを出すわけにいかないので,後述する手練手管を弄して「一見良さそうなデータ」を一生懸命出すことになります(利害バイアス)。そしてそれでも上手くいかなければ,論文化せずにそっと「なかったこと」にするワザもあります(出版バイアス)。
ちなみに「真のエンドポイントを達成していない薬剤は承認しない」という基準は,製薬会社の開発費回収という観点からも実現困難です。現在の(代用エンドポイントを許容した)基準でも,商品化までたどり着くのは相当至難の技だからです。製薬会社も収益化できないのであれば,新薬開発のモチベーションが萎えてしまいます。


実際,その様な基準を求めるとなると,世に出回っている「糖尿病薬」はほとんど市場から消え去ります。「HbA1cの低下」などの代用エンドポイントで薬事承認を得た薬ばかりで「心血管イベントの発症抑制」や「糖尿病慢性期合併症イベントの抑制」という真のエンドポイントで効果を示せた薬はほとんどありません。

その新薬は本当に「効く」のか?

こうした背景のため,

新薬の多くは〈真のエンドポイント〉に対して未検証の状態で薬事承認されている

という構造になっています。

さらに,新薬はどうしても薬価が高くなってしまいますし,安全性の検証も第3相試験ごときの標本サイズでは不十分です。

では,すでに既存治療が一定程度の効果を約束している領域において,「新薬をすぐ試す」ことのメリットとは何なのでしょうか。

この辺りは臨床家がよく考えていく必要のあるポイントだと思います。

深く考えず「とりあえず新しい薬が出たから試してみよう」とするのは,患者さんにリスクと経済的負担を押し付けるだけの行為になってしまうかも知れません。

既存治療がある程度 確立した分野なのであれば,新薬には手を出さず「数年寝かせる」というのも,十分妥当な practice だと思います。

もちろん,潜在リスクを遥かに上回るメリットがあると考えられる場合は除きます。しかしその臨床判断のためには本来,第3相試験の原著論文を批判的に吟味することがまず必要となるハズです。原著のデータに目を通さず製薬会社のパンフレットだけ読んで新薬を処方する,なんてことだけは避けたいものです。

ハードエンドポイントとソフトエンドポイント

Question tablets

別の観点での分類も見てみましょう。

客観性の確立度によるエンドポイントの分類が,「ソフト」か「ハード」かというものです。

ソフト & ハード

ソフトエンドポイント

  • アウトカム評価者の主観が入り込む余地のある項目
  • 「心不全悪化による”入院”」・「冠動脈再建術の”施行”」・「狭心症”症状”」・「一過性脳虚血発作 TIA の”症状”」など。
なお,狭心症や TIA の「発症」と言われると一見ハードにも思われるが,これらの疾患は “自覚症状に則った病歴診断に過ぎない” ことがポイント。診断基準が画像診断など客観性が高いものではないため,ソフトと考えた方が妥当。
ハードエンドポイント

  • 総死亡,心筋梗塞の発症,脳梗塞の発症など
  • 客観性が高く,アウトカムの発生に解釈の余地が入りにくい
  • しばしば重篤で,患者・医師双方にとって重要性の高い項目
  • 最もハードなエンドポイントは「死亡」
    └─ そこにはどんな言い訳も解釈もない

ソフトとハードの重要な違い

これらの最も重要な違いは,

客観性に問題があり重要度も低い〈ソフトエンドポイント〉の方が,客観性が高く重要度の高い〈ハードエンドポイント〉よりも「よく発生する」

ということです。

ソフトエンドポイントの方が,少ないサンプルサイズでも統計学的有意差を出しやすい,と言えます。

そのため,なんとしてでも有意差を出したい試験(特に製薬会社主導の広告用研究 seeding trial)では非常によく用いられるエンドポイントです。

また,研究者にとっても,イベントが多く発生してくれた方が統計学的有意差がついて論文にしやすいので,セーフティーネットとして好まれてしまう傾向があります。

真のエンドポイントと代用エンドポイントの関係性に類似しています

悪用されるソフトエンドポイント

特に悪用されやすく注意を要するのが,

「盲検化されていない研究」×「ソフトエンドポイント」

という組み合わせです。

盲検化のないオープン試験の場合,現場でソフトエンドポイントを判断する医師も,実際に薬を飲んでいる参加者も,誰が〈治療群〉で誰が〈対照群〉なのか分かっています。

そうすると,〈対照群〉に割り付けられた参加者は〈治療群〉に割り付けられた患者よりも,より不安に駆られたりする可能性があります。つまり,症状を頻繁に訴える可能性があります。

ホーソン効果やプラセボ効果の影響も受けます。

それに加え,医師やアウトカムの評価者が製薬会社と利益相反関係にあったりすると,

この〈対照群〉の人の訴えを,1つのイベントとして報告すれば,また1つ『差』になるな〜

などと新薬治療群に有利な「恣意的かさ増し」も可能になってしまいます。

この様に,「非盲検×ソフトエンドポイント」というのは非常にバイアスリスクが高い構造であるため,結果解釈は相当に割り引いて行う必要があります。

ソフトエンドポイントのメリット??

なお,ソフトエンドポイントのメリットとして

「臨床診断」や「現場の判断」などリアルワールドの情報を汲み取ることができる(=リアルワールドへの外的妥当性がある)

ということを挙げる意見もあります。

しかしその様なポジティブな捉え方ができるものかどうかは,試験デザインを見て判断する必要があるでしょう。そもそも盲検化されていないのであれば,何をどう言ったところで『バイアスの塊』でしかありません。

他の利点としては,容易に有意差がつくためサンプルサイズが小さくて済む(=コストが安く済む)ことが挙げられます。

最近流行りの PROBE 法などとカッコつけた名前のデザインの試験も,本質的にはただのオープン試験(PROBEのOはOpenのO)ですので,ソフトエンドポイントとの組み合わせには注意が必要です

主要エンドポイント と 副次エンドポイント

Calc

続いて,〈主要評価項目 primary endpoint〉と,〈副次評価項目 secondary endpoint〉という分類について考えてみます。

臨床試験の論文を読めば本文中にも必ず出てくる言葉ですね。

主要評価項目と二次評価項目

主要評価項目 primary endpoint

  • 臨床試験は唯一この1つのエンドポイントについて仮説を〈検証〉ないし〈立証〉するためデザインされる
  • この仮説で【統計的有意差】があるかどうかを示すために十分な power を計算された上で,集めるべきサンプルサイズが決定される
副次(二次)評価項目 secondary endpoint

  • 研究で得られたデータをもとに, Primary endpoint 以外の他の仮説を〈提唱〉するため,オマケとして解析するもの

これらは試験開始前から必ず設定して提出しておくことが求められます(原則,試験途中からの変更は認められません)。

あらかじめ「解析しますよ」と宣言していなかったエンドポイントを後から設定して解析する場合,それらはすべて「後付け解析」(post-hoc analysis)の扱いとなり,ほとんど信頼性のないデータです。

その様なエンドポイントは〈探索的評価項目 Explaratory Endpoint〉と呼ばれ,ほとんどバイアスの塊として扱われます。一見それらしい、、、、、、、データが出ていても,相当割り引いて考える必要があります。そのウラで一体どれほどの多重検定が行われたかわからず,ハッキリ言って目を通す必要のないデータです。
補足:Other prespecified endpoints
大規模 RCTでは〈二次エンドポイント〉というほどでもないけれど一応データ解析するよ,とあらかじめ宣言しておくエンドポイントも散見されます。〈Other prespecified endpoints〉などと本文中に記載されています。

二次エンドポイントはオマケに過ぎない

ここで非常に重要なことは,二次エンドポイントはあくまでオマケに過ぎない,ということです。

誤解されていることが多いのですが,

二次エンドポイントは仮説を「提唱」するために行われるオマケの解析

に過ぎません。

仮説を「立証」したものではない

ということです。

1つの試験できちんとした「手順」を踏んで立証できる仮説は,本来1つだけです。それこそが唯一無二の〈主要評価項目 Primary endpoint〉なのです。

しかし,RCTなどの大きなコストをかけて行う研究で,せっかく得られた貴重な臨床データを Primary Endpoint の〈検証〉あるいは〈立証〉のみに用いるのはもったいない。他の仮説が〈提唱〉できそうな「傾向」がないかについても,ついでにちょこっと検討して見ましょう。── それが二次エンドポイントです。

ですから二次エンドポイントでそれらしい、、、、、データが得られた時も,主張できることは以下が限界です。

── 今回の研究ではこの二次エンドポイントについても「効果」がありそうな感触があったが,この試験はこれについて検証するために施行された試験ではない。そのため,妥当性が低くバイアスのリスクもある。この仮説を立証するため,次回はこの点を primary endpoint にして改めて RCT で検証する必要があるだろう ──

臨床試験というのは最初から最後まで primary endpoint について検証するために設計されているのです。

1試験 → 1つのエンドポイントしか検証できない

そしてそれは primary endpoint のことである,というのは非常に重要なポイントです。

好例として,ELITE 試験[pubmed]ELITE II 試験 [pubmed]が挙げられます。これらはいずれも NYHA II〜IV,EF40% 以下の慢性心不全患者を対象とした試験で,ロサルタン 50 mg をカプトプリル最大 150mg と比較した二重盲検 RCT です。前者の ELITE 試験(n=722人)では主要エンドポイント(血清クレアチニン悪化)で有意差が出なかったのですが,二次エンドポイントである死亡率は低い傾向がありました(17例:4.8 % vs 32例:8.7%, p=0.035)。その効果が本物なのか偶然のバラツキなのか立証するため,後者の ELITE II 試験では死亡率を主要エンドポイントに設定し,より大きなサンプルサイズ(n=3152)で検証されました。結局,その試験では有意差は出ませんでした。ELITE 試験 の死亡者は 17 例と 32 例と実数が少なく,偶然のバラツキを検出してしまっただけなのでしょう。ELITE II 試験が白黒ハッキリさせました。

多重検定の問題

そもそも,仮に複数の二次エンドポイントで p<0.05 のデータが得られていたからと言って,それらを全て同じ水準で「有意 sginificant」と主張してはいけないのです。

この点も非常に誤解が多い部分だと感じます。

これには統計的理由があって,〈統計的仮説検定〉は繰り返せば繰り返すほどαエラーの確率が高まってしまうからです(=多重検定の問題)。

ここで何よりも重要となるのが,

「p値が 何%から有意と取るか(=有意水準)」は
「αエラーを何%まで許容するか」と同義

という事実です。

「 p=0.05 を有意と取る」ということは,5%のαエラーを許容するということなのです。

αエラー:本当は(母集団では)差がないのに,標本調査の結果から,「本当に(母集団でも)差がある」だろうと推定してしまう誤りのこと。

当然,複数回の〈検定〉をおこなって,毎回 p=0.05 という同一の有意水準で判定し続けたら,「いずれかの〈検定〉でαエラーを含む確率」はどんどん高まっていきます。

多重検定の例


新薬 vs プラセボ(偽薬)の比較結果(▼)

アウトカムハザード比(95%信頼区間)P値
心血管死 or 心筋梗塞 or 脳卒中0.85(0.72-0.99)0.05
心血管死亡0.65 (0.50-0.85)<0.05
全死亡0.70 (0.56-0.87)<0.05
冠動脈再建術の施行0.81 (0.65-0.99)0.05
心不全による入院0.62 (0.45-0.86)<0.05

上記 5つのアウトカムについて〈仮説検定〉を 全て 5 %の有意水準で行った場合,結果はいずれも〈有意〉に見えます。しかしそれは同時に,「本当は差がないのに有意と判定してしまう可能性(αエラー)」を,全ての〈仮説検定〉でそれぞれ 5% 孕むことになります。


そのため「5つのうち 少なくとも1つは αエラーである確率」は

1 – 0.955 = 0.23,つまり 23%

となります。この時,どのアウトカムも αエラーになり得ますし,どれが真実なのかも当然分かりませんから,全体としての信頼性を貶めてしまいます。

有意水準の補正

こうした問題のため,本来〈有意水準〉というものは,検定の数を増やすごとに厳しくしていかなければなりません。

主要エンドポイントのみに対して1回だけ検定を行うのであれば,p=0.05 を有意水準として検定し終了,でOKです。

しかし複数のエンドポイントについて検定を行って,その全てで「有意性」を主張したいのであれば,有意水準はドンドン厳しくしていかなければなりません。

そうした補正を行わないのであれば,複数回「有意性」を主張してはいけない,ということです。

この様な原則を無視し,Secondary Endpoint や post-hoc endpoint でp<0.05となるものを引っ張り出してきて「有意!」と主張することは許すべきではありません。

特に Primary Endpointで有意差が出なかった時,Secondary Endpoint でp値が低いものを持ってきて有意性を主張する様な「すり替え」をよく見かけます。その様な論理のすり替えは,Spinと呼ばれます(後述)。
有意水準の補正例:ボンフェローニ法
なお,有意水準の補正でよく用いられるのが Bonferroni 法です。これは,仮説検定の回数分だけ有意水準を割って,より厳しくするという手法です。たとえば Primaryと Secondary で1つずつ,合計2回の〈仮説検定〉を行う時,いずれも p < 0.25 なら双方「有意」と主張して構わないと考えるものです。この時,両仮説とも α=0.05 の有意水準で検定することは紛れもない〈多重検定〉であり,αエラーのリスクを高める行為です。しかし Bonferroni 法を用いれば,αエラーのリスクを高めずに済みます。

安全性は示せない問題(βエラーの問題)

また primary endpoint と secondary endpoint をめぐる話題としてもう1つ重要なのが

「有害事象に対するβエラー」の問題です。

経済的・倫理的観点から,RCTは なるべく必要最小限のサンプルサイズでデザインされるべきであることは先述した通りです。

この時,主要評価項目 primary endpoint の差に対する〈検出力 power〉が必要十分となる様,あらかじめ計算しておいて,募る参加者の数もプロトコルに記載し提出することが求められるのでした。

ここで重要な点は,

power 計算は「あくまで primary endpointに対して行ったものである」

ということです。

副次評価項目 secondary endpoints に対する power なんてイチイチ計算していませんし,十分なサンプルサイズも集められていません。

先述した様に,多重検定の問題があるため,あくまで primary endpoint 以外は「オマケ」なのです。そのオマケに対する検出力 power の推算なんて,当然,行なわれていません。

そして多くの新薬の RCT(第 III 相試験)では「まず効果を示すこと」が第一目標であり,primary endpoint はあくまで「効能のアウトカム」です。

必然,懸念される副作用などの「安全性のアウトカム」は secondary endpoint の方に入れられることになります。

しかしその点に対して検出力が十分になる様に試験をデザインしていませんから,そこで「有意差」が出なかったからと言って,安全性を担保してくれるわけでは全くありません。

Primary endpoint でβエラーとなるのは不都合ですから,きっちり 10%〜20% しかその様なエラーを起こさない様にサンプルサイズを計算されています(= Power計算)。しかしそのサンプルサイズは Secondary endpoint に照準を合わせたものにはなっていませんから,何%のβエラーの可能性があるのか全くわからない状況です。

この様に〈二次エンドポイント〉というのは,

αエラーの確率が高くなっている(=多重検定の問題)のみならず,βエラーの確率も高くなっているのです。

製薬会社としては,第III相試験の様な「効能」を示すための RCT で,念のため検証しておくに過ぎない「有害性のエンドポイント」で「有意差」がついてもらっては困るわけです。有意差は出ない方がいい。この部分に限っては,βエラーの方がむしろ都合が良い,という構図になっている点に注意が必要です。

架空の例:こんな糖尿病薬は安全か?

例えば,ある新しい糖尿病薬で RCT が組まれたとします。

Primary endpoint は しっかり有意差が出て,めでたしめでたし,という結果だったとしましょう。

しかしこのとき,secondary endpoints の方で,以下の項目(安全性のアウトカム)についても統計学的検定をしていたとしましょう(架空データです)。

とある糖尿病薬のRCT :安全性のアウトカム

secondary endpoints新薬プラセボハザード比P値
急性膵炎25 (0.4%)12 (0.2%)2.01 (0.96-3.88)p=0.07
重症低血糖80 (1.3%)60 (1%)1.33 (0.89-2.44)p=0.10
(▲)イベントの実数は新薬の方が多いが,p値 > 0.05

さて,この時,これらの結果は(有意水準 0.05 の時)p値としては「有意差がない」ということになるわけですが,果たして「本当に差がない」と言い切ってよいのでしょうか?

答えは NO です。

「本当に差がない」可能性もありますが,「本当は差があるのに,サンプルサイズが不足していたから有意差として検出できなかった(=βエラー)」可能性もあるのです。

上の表を見ると,急性膵炎も,重症低血糖も,いずれも数%程度と,比較的まれな有害事象になっています。

ですから,これらの現象で統計学的有意差を出すには,サンプルサイズが全然足りなかったのです(power 不足)。

しかし,現実問題として,急性膵炎は2倍もの頻度でプラセボよりも多く観測されています。

ではもし,この RCT が 3 倍や 5倍 のサンプルサイズで行なわれていた場合,どうなっていたでしょうか。

もし,そのサンプルサイズでも上記と同程度の頻度で有害事象が起きた場合(プラセボよりも急性膵炎が2倍に増えていた場合)は,どうなっていたでしょうか?

そうなると power が十分となり,これらの有害事象についても,統計学的有意差がついていたのではないでしょうか。

糖尿病は全世界で数億人(!)規模の患者さんがいる病気です。

リアルワールドに比べれば,RCTで対象にするサンプルサイズなど,吹けば飛ぶような人数です。

ではこの新薬が数億人の患者さんに渡ったとき,本当に上記の有害事象が「統計学的有意差はないよ」という状態を維持できるでしょうか?

これは,誰にもわからないのです。

がっつり有意差がついてしまうかもしれませんし,やはり本当に差はないのかもしれません。

結局これは推論に過ぎず,今回のデータではたまたま 2 倍近い頻度で観測されただけで,次回同じ様な研究を行えば,全くそんな傾向はないかもしれません。

しかし「安全性を断言できるものではない」ということは厳然たる事実です。

安全性は示せない

この様に, secondary endpoint の方に「安全性のアウトカム」(起こりうる副作用など)を入れておいて「コントロール群と介入群には有意な差がありませんでした!」と言ったところで,「リアルワールドでも本当に差がないかはわからない」のです。

これは,そもそも試験デザインが「比較的稀だが無視できない重篤な副作用」という「安全性のアウトカム」でも有意差を出すことを目的としていないからです。

あくまで「効能のアウトカム」に照準を合わせて最低限のサンプルサイズを集めただけの RCT では,それらの項目については検出力がないのです。

これが有害事象に対するβエラーの問題です。

新薬は寝かせろ

『新薬は3年寝かせろ』という臨床家によく知られた格言があります。

これは,市販前の RCT ではこうした有害事象を検出できるだけのサンプルが集められておらず,市販後から大きな副作用や有害事象が明らかになることがあるためなのです。

近年でも,とある糖尿病薬における膀胱癌のリスクの問題で莫大な金額の薬害訴訟が起きたり,免疫チェックポイント阻害薬で数々の自己免疫性疾患の有害事象が問題になったりすることがありました。

この様に,市販後(に膨大なサンプルサイズを対象にした)調査で「到底無視できないレベルの重篤な有害事象の報告が目立ち始める」ということはしばしばあり,実際によく問題になります。

「くすり」は「リスク」と言いますが,何の副作用もなく効能ばかりを発揮してくれる魔法のアイテムなんてありません。

必ず副反応や有害事象が一定程度の割合で発生してしまうのは仕方がないことです。

薬を飲むということは,その「稀な有害事象」と「大きな効能」を天秤にかけて,リスクを許容した上で行う行為なのです。

問題はその「リスク」の部分が,承認されたばかりの新薬では十分に検証されていないことが多い,ということです。

これは構造上の問題です。

そもそも

第 III 相試験程度の規模の RCT では,『稀だが重篤な副作用』に関しては有意差を検出できない

そもそもその様な設計になっていない,ということを,臨床家も患者さんもよく知っておくべきであると思います。

もちろん「効能のエンドポイントで差を示そうとデザインしたのに,有害事象のエンドポイントでがっつり統計学的有意差がついてしまった」みたいな悲劇的な RCT 結果は薬事承認の時点できちんと弾かれます。ですから,新薬であっても比較的短期間における最低限の安全性は示されていると言えます(その臨床試験に参加した被験者と背景因子が近い患者さんにおいては)。


問題は「長期投与の安全性」や,「希だが重篤な有害事象」といったリスクが第 III 相試験レベルでは判定できないということです。また,第 I/II 相試験の段階で明らかに有害性が示唆されていた場合,第 III 相時点ではハイリスク患者を対象から外したりすることがありますので,臨床試験の inclusion criteria は非常に重要です(例:催奇形性のある薬剤で若年女性を治験に参加させない様にするなど)。

補足:えっじゃあアビガンは?
ところで,アビガン®︎は抗インフルエンザ薬としてプラセボとの比較(米国第2相試験)でも有意差を示せなかった上に催奇形性の強い懸念(添付文書で男性にまで避妊を徹底させるほど)があったのに,なぜ日本でのみ限定承認・厳重保管──それも「基本的には使わない」という強い条件付きで──されていたのでしょう。そしてそんな怪しい薬がなぜ突然,何の臨床試験も経ずに COVID-19 へ効くと喧伝され始めたのでしょうか。それは うっ・・頭が・・・ 
PMDA(p.168 参照)
薬害オンブズパースン会議

それでもなお新薬を処方するか

こうした現実を理解した上で,

「それでもなお新薬を試す価値があるか?」

については,その薬の効能の大きさや,患者さんの状況を踏まえて,主治医がよく考えなければならない問題です。

言われてみれば当然のことだとは思うのですが,案外,日常診療の中では抜け落ちてしまっている観点ではないでしょうか。

重要なポイント

  • 「有意差がない」≠「本当に(母集団でも)差がない」
  • 「有意差がない」➡︎「サンプル不足(βエラー)」または「本当に差がない」

エンドポイントのすり替え記述(spin)にご用心

Primary endpoint と secondary endpoint の話を閉じる前に,
最後にもう1つ言及しておくべきことがあります。

それが「Endpoint のすり替え記述」の問題です。

これは言葉通りの意味の問題です。

要するに,

spin とは
もともと設計していた Primary endpoint で有意差を出せなかったのに,そのことはそっと棚上げして,「conclusion」や「abstract」ではsecondary endpoint やそのサブ解析で有意差が出た項目だけを取り上げる

という「やり口」です。

こうした行為には先述した「多重検定」や「データドレッシング」などの問題も内包されていることが多いわけですが,現実にはよくある問題行為です。

Conclusionで「主要評価項目では有意差が出なかった」だけだと論文著者としても寂しい気分なので,気を紛らわせるために入れちゃうわけですね。

こうした「すり替え」による粉飾的記述(都合のよい解釈)を 総じて,spin と呼んでいます。

spin についてはしっかり 禁止している journal もありますが,許容している journal も少なくありません。実際にはトップジャーナルでもザラに見かけます。

結局,インパクトファクターが高い雑誌だからといって,abstract だけを鵜呑みにしてしまうのは極めて危険だということですね。

主要エンドポイントに有意差のなかった 72 本の RCT 論文で粉飾的記載(spin)がなかったか調べた JAMA の論文が有名です。この論文では, spin が論文のタイトルに含まれていたものが18.0%,Abstract の「結果」に含まれていたものが 37.5%,「結論」に含まれていたものが 58.3 % もあったという衝撃的な報告がされています
── JAMA. 2010 May 26;303(20):2058-64)[pubmed]

複合エンドポイント

Assort

最後に,〈複合エンドポイント composite endpoint〉の問題を取り上げたいと思います。

先述した様に,RCTの原則として,まず研究デザインの時点,プロトコル提出の段階で〈主要エンドポイント〉primary endpoint として「最も大切な指標」を1つ選定して明記することが求められています。

しかし,昨今では〈主要エンドポイント〉に据えるものを「詰め合わせ」にしてしまおう,という企みがあちこちで見られる様になってきました。

こうした「詰め合わせ」を〈複合エンドポイント〉と呼びます。

これはその名の通り,ひとつの単純なエンドポイントでなく,複数のエンドポイントを組み合わせたものです。

「詰め合わせ」を用いる利点と欠点

複合エンドポイントを使う主な理由は,「エンドポイントにあたるイベントの発生数を『かさ増しする』ことで検出力を高めるため」です。

つまり本質的には,ハードではなくソフトエンドポイントを用いたり,真のエンドポイントではなく代用エンドポイントを用いたりする理由と同じです。

イベント数が増えれば,その差を検出できないという βエラーのリスクが下がるため,小さなサンプルサイズの RCT でも十分な統計学的有意差を出すことができます。

これにより,試験参加者を減らすことができる,という経済的/倫理的メリットがあることは事実です。

一方,デメリットは当然ながら

「詰め合わせ」られるものが増えれば増えるほど,結局何に対する効果を見ているのか意味不明になる

ということです。

複合エンドポイントの実例

複合エンドポイントを用いた臨床試験の例として,以下の様なものが挙げられます。
いずれも実在する trial の実在する複合エンドポイントです(Link は Pubmed)。

複合エンドポイントの実例

  1. 非致死的心筋梗塞+非致死的脳卒中+心血管死+原因不明死
    [REWIND] [EMPA-REG OUTCOME]
  2. 致死性ないし非致死性心筋梗塞を含む冠動脈心臓疾患+狭心症の最初の発症+心臓疾患による死亡+突然死+冠動脈血行再建術
    [MEGA]
  3. 全死亡+非致死性心筋梗塞(無症候性を含む)+脳卒中+急性冠症候群(ACS)+冠または下肢動脈における血管内または外科的インターベンション+足首より上の下肢切断
    [PROactive]
  4. 脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+非致死性冠動脈疾患+心不全による入院+治療を要する動脈硬化性疾患+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生
    [FREED]

これらの複合エンドポイントの中身を見ると,死亡という最重要なものからあまり重要でないものまで幅広く軽重が混在していることにお気づきになると思います。

4つ目に至っては,中身の重症度のふれ幅が大きすぎて,この〈複合エンドポイント〉で統計的有意差が出たから「じゃあなんなの??」という話になってしまいます。

複合エンドポイントの本質は「イベントのかさ増し」である,ということがよくお分かりいただけることでしょう。

複合エンドポイントの悪質な利用方法

さらに言えば,複合エンドポイントには

重大なイベントと正直どうでもいいイベントとの「詰め合わせ」にすることで「あたかも重要なイベントも減らしたかの様な錯覚を与える」

という効果もあります。

特に abstract や 図表のみしか見ない読者には「被験物質の効果を過大評価させる」,あるいは「誤った印象付けをする」ことになり得ます。

当然,こうした複合アウトカムを用いるのであれば,その構成要素1つ1つを見て「実際どこで差がついていたのか」を公開する義務があると思いますよね。

しかし,そうした個別のアウトカムは secondary endpoint に追いやられてしまっているため,解析データは本文中に掲載されないことも少なくありません。

大抵,「詰め合わせエンドポイント」が「そのパッケージ全体として」いかに増えたか減ったかばかりがカプランマイヤー曲線などの図表にまとめられます。

個別の重大なイベント(ハードエンドポイントや真のエンドポイント)の解析はそっと置いておかれるばかりです。もし解析されても,appendix やsupplementary figure だとか言って,別の PDFに分けられてしまうのです。

あくまで複合したパッケージこそが Primary であり,個別解析は Secondary なんだから,そりゃあ個別解析の扱いは下になるでしょう,という論理です。しかしそれはつまり臨床的重要性の高い項目がサブ扱いされ,どうでもいいイベントとの複合という「パッケージ」の方がメインになってしまっているという,奇妙な逆転現象が起きてしまっていることを意味します。

複合アウトカムの中身をバラして個別に見ていけば,患者さんにとって重要度が低いエンドポイントの発生ばかりが主体となっていることは自明ですから,あまり「見せたくないデータ」なのかもしれません。

紙幅の都合もあるでしょうから,邪推しすぎかもしれません。
実例:FREED 試験
Freed figure

(▲)無症候性の高尿酸血症患者を対象にした FREED試験 の結果の表です。介入群はフェブキソスタット内服,対照群は無治療(または半量 dose のアロプリノールを現場医師の判断で考慮しても良い)で PROBE 法,という試験デザインです。Primary Endpoint は「心臓・腎臓・脳アウトカム」と銘打たれており,ハザード比は 0.75,p=0.017 と統計的にも有意です。この様な Figure が薬剤のパンフレットに貼ってあったら「結構イベント減らすじゃん!」と思ってしまいますよね。


しかしその複合エンドポイントの内実は,先にご紹介した通りごった煮の詰め合わせ ─── 脳心腎血管疾患による死亡+それ以外の原因による死亡+脳卒中+非致死性冠動脈疾患+心不全による入院+治療を要する動脈硬化性疾患+腎機能障害の出現(微量アルブミン尿の連続+顕性蛋白尿への移行+顕性蛋白尿の増加+血清クレアチニンの倍化+透析への移行)+心房細動の新規発生 ─── です。そして,この「ごった煮」の中身を個別に解析したデータを見てみると(Supplementary Figure),唯一減らしていたのはアルブミン尿関連のイベントだけで,他の重要なハードエンドポイントは何1つ減らしていなかった,というのが実情です。


Eur Heart J. 2019 Jun 7;40(22):1778-1786(一流ジャーナルです)

そのパッケージを許容できるか

もちろん,全ての複合エンドポイントが悪なわけではなく「ある程度,臨床現場でのテンションが近い」イベントの詰め合わせになっていれば,許容しても良いとは思います。

問題は,死亡の様な重大なエンドポイントも,蛋白尿の様な正直どうでもいい
エンドポイントも,「ソフト」も,「ハード」も,全て詰め合わせて「欲張りセット」の様になっている様なケースです。

そのパッケージが増えただの減っただのと言われても,結局何が増えたんだか減ったんだかわからない。

そんなエンドポイントの臨床試験では,残念ながら臨床的価値が全くないと言わざるを得ません(▼)。

Luckybags

赤い方の福袋は許容できますが,黄色い方の福袋は許容できません。黄色の福袋イベント(の回避)がプラセボと比べ有意差がついたからと言って,結局その中身が「微量アルブミン尿」ではお話になりません。

まとめ

Reading paper

【TAKE HOME MESSAGE】

  • 稀なイベントの発症率で有意差をつけるのは大変(必要サンプルサイズ大)
  • そのため〈真のエンドポイント〉や〈ハードエンドポイント〉よりも,〈代用エンドポイント〉や〈ソフトエンドポイント〉,それらの〈複合エンドポイント〉を用いた臨床試験が非常に多い
    ┗ それらの試験結果に「本質的意味」があるかはよく吟味する必要がある
  • 二次エンドポイントの結果はオマケに過ぎない
    ┗ 多重検定の問題,安全性を示せない問題,spin の問題を抱えている

エンドポイントを見る上で重要なこと

ここまで多くのエンドポイントについて,それらの抱える問題点と合わせて解説して参りました。

インパクトファクターの高いジャーナルに載っている論文であっても,このデザインの部分からムチャクチャになってしまっている RCT なんてザラにある,というのが恐ろしいところですね。

医学系 RCT でありがちな「やばいエンドポイント」を8つまとめてご紹介する記事も用意しておりますので,ぜひ合わせてご確認ください。

合わせて読みたい

この記事は医療者・研究者の方向けです臨床試験の論文を読む時,皆様は【エンドポイント】についてどの程度気にしておられるでしょうか?御手元に,製薬会社の薬剤パンフレットがある状況を想像してみてください。そこに記載してあるのは,立[…]

[おすすめ本紹介]

ファクトフルネス FACTFULNESS


ビル・ゲイツが希望者全員に配布したことで有名な世界的超ベストセラー。スウェーデン医師・国際保健学教授である筆者が,誰もが勘違いしている「世界の事実」を1つ1つ挙げながら,本質を歪めて見てしまう人間の本能・バイアスを列挙していきます。脳髄に金槌で釘を打ち込まれるくらいの衝撃を何度も与えてくれる名著です。やや分厚い本ですが,Audible なら通勤時間で聞けてしまうので,大変オススメです。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG