モルヌピラビルの実例で考える「中間解析で過大評価」の問題【COVID-19】

モルヌピラビル(molnpiravir; MOV)は,COVID-19 に対する世界初の経口内服治療薬として期待される新薬です。

しかし第 III 相試験(MOVe-OUT試験)の中間解析結果で「50%の重症化リスク減少!」と公表されたのも束の間,フル解析結果で「30%の重症化リスク減少」へと下方修正され,市場で悲観的な見方をされるようになりました。

この記事では

「中間解析で過大評価」という現象がなぜ起きてしまうのか

そして

「中間解析結果」に対して私たちはどう向き合うべきなのか

 考えてみたいと思います。

この記事のまとめ
  • モルヌピラビルでも「中間解析で過大評価」が起きた
  • 実薬群ではなくプラセボ群の成績変動が原因
  • 中間解析の「効果量」は数字を真に受けるべきでない
  • 真の効果をより正確に推定するため,より多くのサンプルが必要

治験で示された「効果」の変遷

今一度,軽症外来治療というセッティングにおけるモルヌピラビルの第 III 相試験,MOVe-OUT試験(NCT04575597)の概要を確認します。

試験の概要(PICO)

MOVe-OUT 試験(軽症外来治療の治験)の概要は以下の通りです。

対象者(P)

  • COVID-19 発症 5 日以内の軽症者(外来治療)
  • 18 歳以上,ワクチン未接種者,重症化リスク因子*があること
  • 男女とも避妊に同意すること
*)60歳以上,現在活動性のある悪性腫瘍,慢性腎不全,COPD,肥満(BMI30以上),重症心疾患(CAD,心不全,心筋症),糖尿病,のいずれかを保因
※診断要件は,割付 5 日以内の検体で SARS-CoV-2 が検出されていること。
─ ads ─

介入(I)

モルヌピラビル 800 mg 12 時間毎 5 日間投与

比較対照(C)

プラセボ 12 時間毎 5 日間投与

アウトカム(O)

【主要】入院 or 死亡者の割合(-29日),有害事象(-7ヶ月),有害事象による脱落(-6日)

【二次】症状持続期間(-29日),事前規定タイミングでの重症度(WHO 11点 scale)etc..

中間解析結果 interim analysis

まず最初に公表されたのが,製薬会社が公表した中間解析結果のプレスリリース(2021年10月1日)でした。

中間解析で,モルヌピラビルは入院または死亡のリスクを約 50 %低減した。無作為割り付けから29日目までに入院または死亡した患者はモルヌピラビル群では 7.3%(385例中28例)プラセボ群では14.1%(377例中53例)であった(p=0.0012)。29日目までにモルヌピラビル群では死亡例なし,プラセボ群では8名の患者が死亡した。(訳・注は筆者)


(原文)At the interim analysis, molnupiravir reduced the risk of hospitalization or death by approximately 50%; 7.3% of patients who received molnupiravir were either hospitalized or died through Day 29 following randomization (28/385), compared with 14.1% of placebo-treated patients (53/377); p=0.0012. Through Day 29, no deaths were reported in patients who received molnupiravir, as compared to 8 deaths in patients who received placebo.

Merck and Ridgeback’s Investigational Oral Antiviral Molnupiravir Reduced the Risk of Hospitalization or Death by Approximately 50 Percent Compared to Placebo for Patients with Mild or Moderate COVID-19 in Positive Interim Analysis of Phase 3 Study |MERCK October 1, 2021 6:00 am

上記を表にまとめるとこうなります(▼)。

中間解析 モルヌピラビル (n=385) プラセボ (n=377) 差 [95%CI] NNT
入院または死亡 28 (7.3%) 53 (14.1%) 6.8% [2.4, 11.3] 14.7
死亡 0 (0%) 8 (2.12%)
*NNT:1件の入院または死亡を防ぐために必要な治療人数

「50 %のリスク減」というのは,7.3 % vs 14.1 % の相対リスクを示した数字です。上記の結果を受け,製薬会社は治験データが完全に出揃う前に FDA へ緊急使用許可(EUA)を要請しています。

なおこの時点(10月1日時点)では,上記の文言が公表されたのみであり,関係者以外,誰もその中身を吟味することはできませんでした。

フル解析結果 full analysis

フル解析結果が正式公表されたのは,その後1ヶ月ほどした頃(11月26日)でした。

そして,そこで相対リスクの数字が「30%のリスク減」に変更されていたことが物議をかもしました。この時は落胆的な報道が相次ぐなどして,某社の株価も大きく下落したようです。

Merck and Ridgeback Biotherapeutics Provide Update on Results from MOVe-OUT Study of Molnupiravir, an Investigational Oral Antiviral Medicine, in At Risk Adults With Mild-to-Moderate COVID-19|MERCK November 26, 2021 6:45

実際の解析結果は以下の通りです。

フル解析 モルヌピラビル (n=709) プラセボ (n=699) 差 [95%CI] NNT
入院または死亡 48 (6.8%) 68 (9.7%) 3.0% [0.1, 5.9] 33.3
死亡 1 (0.14%) 9 (1.29%)

中間解析の時点では「50 %のリスク減(7.3 % vs 14.1 %)」とされていましたが,フル解析結果では「30%のリスク減(6.8 % vs 9.7 %)」になってしまったわけです。

まさに

「中間解析」で「過大評価」が起きる

ということを示す典型例のような出来事でした。

|NNTも同様
中間解析では NNT 14.7(今回の治験集団のようなハイリスク層患者 15 人に投与すれば1件の入院を阻止できる)でしたが,フル解析時点では NNT 33.3(34人に投与すれば1件の入院を阻止できる)となっています。

この修正は「落胆すべきこと」か?

ここで考えたいのが,私たち「情報を受け取る側」の姿勢です。

こうした数字の変動、、は,それほど悲観的にとらえるべきものだったのでしょうか?

着目すべきはプラセボ群

数字を比較すれば明白ですが,中間解析とフル解析で,実薬群の成績はさほど変わっていません(入院または死亡の割合 7.3% → 6.8%)。

「50%リスク減」が「30%リスク減」になってしまった理由は,主にプラセボ群の成績の変化によります(入院または死亡の割合 14.1% → 9.7%)。

そもそも 中間解析ではプラセボ群の成績が悪すぎた のです。

悪すぎたプラセボ群

いくらワクチン未接種かつリスク因子保因者とはいえ,この試験に参加しているのは軽症例で,比較的若い人々です(7割が49歳以下)。さらに,治験に参加できるくらいですから,医療へのアクセスもよく,一定程度のモチベーションがある人たちでもあります。

そこから 14 % 入院し,約 2 %も死亡してしまうというのは,他の治験(*)と比べても悪い成績でした。

「比較対照の成績が悪い」ため,当然モルヌピラビルの成績は結果が極端に良く見えてしまいます。結果として,中間解析で「50 %重症化リスク減!」という言葉が一人歩きしてしまいました。

(*) パクスロビド治験ではプラセボ群 6.7% 入院
比較として類似患者層を対象に行われた他の治験を挙げると,ファイザー社の経口内服薬「パクスロビドTM」の第 III 相試験があります。この試験の中間解析では,プラセボ群の入院 or 死亡は 6.7 %(41/612)でした。つまり似たような患者層を対象にしているにもかかわらず,パクスロビドの試験の偽薬群とモルヌピラビルの試験の偽薬群(14%入院)では重症化割合が2倍以上違ったということになります(中間解析時点)。この時点で,良識ある人は「患者層だいぶ偏ってないか?」と訝しむことになります。この差が参加国の違いなどから生じた「ズレ」なのか,ランダムに起きた「ブレ」なのか,その両方なのかは何とも言えません。しかしとにかく MOVe-OUT 試験の中間解析時の “14 % 入院” という数字がさすがに悪すぎた,ということは分かります。実際フル解析では 9.7 % と「より現実的な数字」に落ち着いた形になりました。

中間解析結果との向き合い方

このように,中間解析で数値上、、、の過大評価が起きることはよくあります。

中間解析結果はサンプルサイズが小さくなるため,random high で結果が極端化したところを切り取ってしまいやすいからです。

今回はモルヌピラビル群の成績が random high になったというより,プラセボ群の成績が random low すぎて,相対的にモルヌピラビルの成績がよく見えすぎたわけですが,本質的には同じことです。

解析症例がしっかり増えれば極端なケースが「均されていく」ため,データは「平均に回帰」します。

データが増えれば増えるほど極端なブレが小さくなり,数字は現実的な範疇に落ち着いていく,ということです。

合わせて読みたい

この記事では,ランダム化比較試験 RCT における サンプルサイズ(n)の重要性 についてまとめます。 例によって,最初にこの記事のまとめを示します! この記事のまとめ サンプルサイズは小さ過ぎても大き過ぎても問題 […]

|点推定・区間推定
統計用語を使うと,サンプルサイズが小さいうちは〈点推定値〉が極端化しやすく〈区間推定〉の幅がガバガバになりやすい,ということです。そしてサンプルサイズが大きくなればなるほど〈区間推定〉の幅は狭くなり,〈点推定値〉も妥当な範囲に落ち着いてくることになります。これは医療統計云々以前に,基本的な統計学の内容です。

見切り発車にご用心

効く可能性が高いクスリなら早く現場に出すべき,という論理(+コストの問題)もあり,「中間解析で見切り発車」というのはしばしば起きる現象です。

しかしその際「効果量」に関しては,"数字" を鵜呑みにしないことが大切です。

真の効果の正確な推定には,多くのサンプルが必要

だということです。

中間解析結果で一喜一憂するのではなく,「フル解析まで静かに待つ」という姿勢が,正しい向き合い方だと言えます。

リアルワールドはもっと「シブい」

さらに言えば,リアルワールドで膨大な人数に投与された場合,平均的な「効果」はより一層「ならされる、、、、、」ことになります。

つまりリアルワールドにおける「効果の期待値」は,第 III 相試験の時よりもさらに振るわなくなることが知られています。

第 III 相試験自体,リアルワールドからしたらごく小規模のデータでしかありません。

第 III 相試験のそのまた更に一部に過ぎない中間解析の結果をもとに,リアルワールドでの「効果量」を推定すること自体,無理があるということです。

注目度の高い COVID-19 を対象とした薬剤で「中間解析」の限界が改めて確認され,今回のできごとは教訓的な事例となったように思います。

|ワクチン未接種者に限定する理由
尚,今回の試験対象者が「ワクチン未接種」かつ「リスク因子保因者」に限定されたこと自体,プラセボ群の成績を悪くすることで「成績の差」を検出しやすくするための工夫の1つです。ワクチン接種済みの人や低リスク群を対象者にしてしまうと,入院も死亡も滅多に起きなくなってしまうため,プラセボとの差がつきにくくなってしまうからです。こうした人たちを治験から排除することで,薬剤はプラセボと比べた「差」を示すことが容易になりますが,リアルワールドへの一般化可能性を狭めてしまうという問題を背負うことになります。

まとめ

この記事のまとめ
  • モルヌピラビルでも「中間解析で過大評価」が起きた
  • 実薬群ではなくプラセボ群の成績変動が原因
  • 中間解析の「効果量」は数字を真に受けるべきでない
  • 真の効果をより正確に推定するため,より多くのサンプルが必要

この記事では「中間解析」に関する話題のみ取り上げましたが,モルヌピラビルに関しては別途詳しく解説した記事もあります。

合わせてお読みいただければ幸いです。

合わせて読みたい

以下の内容は 2021.11.30 時点の公開データ(FDA審議資料)を元に作成しています モルヌピラビル(molnpiravir; MOV)は,COVID-19 に対する世界初の経口内服治療薬として期待されている新薬です。 1[…]

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG