前回に引き続き, EPIC-trial の批判的吟味を行っていきます。
今回,発表直後から大変な物議をかもし,陰謀論と宗教論争まで勃発させたあの、、『いわくつき論文』 を吟味しました。 Effect of Ivermectin on Time to Resolution of Symptoms Among […]
注目度の高い RCT ですし,特に検出力 power ということに関してはそれなりに考えるべき問題点があるので,批判的吟味のハウツーを学ぶ教材としても適していると思います。
今回は〈爆速チェックリスト〉 を実際に使って,どのように論文を吟味していくかを示したいと思います。
職場の論文抄読会で,臨床試験論文の〈批判的吟味 critical apprausal〉をしたい! でもどういう部分に気をつけて読めばいいか分からない! そんな時,臨床試験の質を『爆速で』チェックできる手頃なリストがあったら,便利[…]
PICO-T と結果
まず最初に,本試験の PICO-T と「結果」をサラリとおさらいしておきます。
PICO-T
PICO-T | 内容 |
---|---|
[P]参加者 |
|
[I]介入 | 空腹時 イベルメクチン水溶液 300 μg/kg 体重 × 5日間(n=200) |
[C]比較 | 空腹時 プラセボ 水溶液 × 5日間内服(n=200) |
[O]評価項目 |
|
[T]時間 | 21日間追跡し,症状消失までの時間を解析 |
備考 |
|
結果(Result)
試験の概要は,JAMA公式のこの表がわかりやすいですね(▼)。
Conclusion(結論)
- 軽症かつ低リスク群(若年+大きな併存症なし)では,イベルメクチンを内服しても,プラセボと比べて統計学的に有意な benefit はない
- その他の患者層での有効性やリスクは今回の試験では不明
- 「もっと小さいが臨床上有意な benefit」に関しては,サンプルサイズ不足で検出できなかった可能性がある
系統的な批判的吟味
では実際に,この論文を系統的に〈批判的吟味〉していきます。 RCT の批判的吟味で「見るべきポイント」はある程度決まっているので,型通りにチェックしていきたいと思います。
なお,本来〈批判的吟味〉というのは,結果を誇張しがちなスポンサーや論文著者に騙されないよう,どちらかと言うと「誇大広告をあぶり出す作業」となることが多いです。
しかし,この試験は全てのアウトカムで有意差が示せていないゴリゴリの negative study なので,普段の読み方とは少し違う観点から見る部分が多くあります。
では早速いきましょう!
Sponsor チェック
財源
- 政府系グラントで,製薬会社資本ではない
Sponsor の試験への関わり
- 試験デザインには一切関わっていない
The funder had no role in the design and conduct of the study; collection, management, analysis, and interpretation of the data; preparation, review, or approval of the manuscript; and decision to submit the manuscript for publication.
対象者(P)のチェック事項
① サンプルサイズ (n) は十分か
1つ目ですが,実はこの試験の解釈に関しては,この項目が最も重要だと感じます。
- power 計算:有意水準 5% の両側検定で 80%の検出力で 試験デザイン
- 結果として n=200 vs 198 のサンプルサイズを集め,解析
- その上でほぼ全ての評価項目で〈有意差なし〉という結果
- しかし全体の傾向としてはわずかにイベルメクチン群の結果が良好
- つまり検出力不足で βエラーとなった可能性を考える必要がある
やや話が複雑なので,解説を加えさせてください。
当初この試験の〈主要評価項目 primary endpoint〉は「8順序スケールでの2以上の悪化(=重症化)」でした。
この重症化が,無治療であれば 18 %くらいは起こるだろうという見込みで power 分析を行い,400人程度というサンプルサイズを募ることに決定された経緯があります。
しかしこの試験はprimary endpoint を起こす患者が非常に少なく,実際には わずか 3% 程度でした。
大きく見込みからずれた理由の 1つは,治験に参加した人のうち若年で元気な人が占める割合が高過ぎたためと思われます。 要するに計算が甘過ぎたということです。
そのため中間解析の時点で「このままじゃ絶対有意差つかない!だから評価項目を変えよう!」という話になり,2020年9月2日以降,主要評価項目 primary endpoint の変更というちゃぶ台返しが行われています。
となると当然,当初の power 分析結果から算出された 400人という数字が,新しい primary outcome では合っていない可能性が考えられます。
もちろん,もう一度 power 計算が行われ直しています。
その結果, 奇跡的に「このままのサンプルサイズでいいや!」という計算結果になったわけです。 が,当然奇跡ではなく恣意的に計算したものだと邪推してしまう余地はあります。
そもそも power分析は「暗闇の中で黒猫を探すくらいの手探り」 とされていますので,どう計算しようが自由というところはありますが,ちょっと都合のいい計算がされているのでは?とは思ってしまいます(追加で参加者募り直すの,大変でしょうからね・・)。
もっと厳しめの power 計算をしてたくさんの サンプルサイズを集めていれば,この試験でも有意差が検出できた可能性はあります。
たとえば今回の power 計算では 80% の検出力(=5回に1回は “本当は差があるのに差がないと言ってしまう”βエラーを犯す確率が 20%)となるように計算されていますが,これを 90 % の検出力にしていれば,もっとたくさんの被験者を集められ,結果は「有意差あり」となっていた可能性があります。
あるいは,もっと細かい差まで検出するために膨大な数の被験者を募っていれば,やはり有意となった可能性はあります。
しかしこの場合,たとえば「症状消失が 0.5 日短くなりました!この差は統計的に有意です!」というような小さな benefit まで検出することになるかもしれません。しかしそのような benefit ではコスパが悪すぎるので,そこまで検出する意味はあるのか?という議論にはなってしまいます。
- |実際の power 計算
- 2 回目の power 計算は,過去のヒドロキシクロロキンの有効性をみたスペインのopen label RCT データを参考に算出したようです。基本的に「21日間で75%くらいは症状がなくなるだろう」という前提で,仮にイベルメクチンに3日程度それを早める効果がありハザード比 1.4 くらいつけられるとすると,サンプルサイズが 400人のままでも 80% の検出力;5%αエラーの両側検定で有意差を検出できるだろう,と計算されたようです。繰り返しになりますが,これはつまり 20 % のβエラーを許容する設計であると言えます。要するに,試験設計の時点で「5回に1回くらいは有意差を検出できない」つもりで組んでいるわけですから,今回の「有意差なし」という結果は別にそう騒ぎ立てるほど不思議なことでもないことがお分かりいただけると思います。
② 組入れ基準 inclusion criteriaは妥当か
- 18歳以上
- RT-PCR または 迅速抗原検査によるSARS CoV2 /COVID19 確定例
- onseから7日以内
- 軽症者(無症状者は入っていない)
- Informed consent へのサイン
私見
- 十分妥当な組み入れ基準かなと思います。「症状」がアウトカムになっているので,無症状者を組み入れないのは当然ですね。
- なお,発症から「7日以内」といえども,「発症直後」なのか「発症7日目」なのかでだいぶ変わってしまうので,ここが揃っていないとするとlimitationになりえます。が,この部分はTable1を見る限り大きなズレはないようですので問題ないと思います。
- ただ,結局この組み入れ時点で 400人中の396人が自宅待機者になっています。
③ 除外基準 exclusion criteria は妥当か
- 肝疾患の治療歴
- 無症候性キャリア
- 妊婦
- ランダム化時点で重症肺炎
- 他の臨床試験に参加中
- ランダム化以前の5日以内にイベルメクチンの投与を受けている
- 肝機能異常(正常上限値の1.5倍以上)
- イベルメクチンのアレルギー歴
- ワルファリンなど,併用リスクの高い薬を内服中
私見
- 組み入れ基準,除外基準ともに妥当な範囲だと思いました。
- ただ,結果として集まった被験者は,年齢中央値 37 歳,しかも若干女性が多め,かつこれという併存疾患なし,というメチャクチャ低リスク群になってしまっています。
- この層はそもそもほとんど重症化しないので,仮に「本当に効く」薬だとしても相当「差」を示しにくかったものと思われます。
- なお「この試験デザインじゃ市中で勝手にイベルメクチンを買って飲んでないかどうか確かめようがないじゃないか!」という批判もあるようですが,そこまで簡単に手に入れられるものなのでしょうか。コロンビアの状況を知らないためなんとも言えませんが……。
- 合意の上で治験に参加しておいて,自分で勝手に飲んじゃうなんてモラルハザードを起こす人が,試験結果を大きく歪めるほどの割合の数いるのかどうかは疑問です。
④ 外的妥当性に関する問題
- コロンビアの1地域のみの RCT
- 軽症者,かつほとんど若年者〜中年者しか入っていない(年齢中央値 37)。
- 65歳以上は,解析された 398人中 の わずか 24人(6%)
- イベルメクチンを5日連続内服するという dose は,少なくとも一般的な用法・用量ではない。
- 現在日本で進行中の第 II 相試験は,イベルメクチン単回内服
私見
- トータルで考えれば,欧米・日本に対してはかなり外的妥当性が低い試験だと感じます。
- なにより高齢者が少なすぎるのが考えどころです。
- 実際問題,重症化するのはほとんど高齢者なので,自宅待機している元気な若年者ではなく,高齢者が内服する benefit があるかどうかを検証を急ぐべきだと思います。
⑤ 重要な因子での群間不均衡はないか
Table1 より以下抜粋。
- 65歳以上:8人(4%) vs 16人(8.1%)
- 男性割合:78人(39%) vs 89人(45%)
- 喫煙者割合:3人(1.5%) vs 8人(4%)
- ランダム化時点の順序スケール(重症度):「自宅待機&生活に支障なし」の割合が 61.5% vs 55%,「自宅待機&生活に支障あり」の割合が 37.5% vs 44% 。
- ステロイド使用:6人(3%)vs 12人(6.1%)
- 肥満率は不均衡なし;BMIはいずれも中央値 26 程度
- 発症後経過日数も不均衡なし;5日(IQR 4-6)vs 5日(IQR4-6)
- ランダム化時点で入院している人は 2人(酸素投与あり1なし1) vs 2人(酸素投与あり1なし1)で不均衡なし。
私見
⑥ 最終的に ITT解析か(ランダム化の維持)
- 当初 イベルメクチン群 238:プラセボ群 238に割り振られていますが,ラベルミスのせいで実際には 276: 200 になってしまっていたという重大な問題あり
- 結局そのラベルミスのエラー+α分を除き 200人 vs 198 人で比較している
補足/私見
- これは ITT(intention-to-treat)ではなく,いわゆる FAS(full-analysis-set)法ですね。
- ラベルミスによる群間移動がのべ 75 人分もあるため,厳格な ITT で当初の 238:238 で結果を解析すると,何がなんだかという形になってしまいますから,やむを得ない対処だとは思います。
- 感度分析として,実際に内服した 275 人 vs 198 人での解析も行われています(as-treated population)。
⑦ 追跡率は何%か(ランダム化の維持)
- 200人 vs 198人に関しては,途中脱落なし
私見
⑧ 打ち切り理由は両群で差がないか(ランダムな打ち切りのみか)
- 転帰不明の打ち切り例はなし
- 指定 dose を完遂しなかった人数は,イベルメクチン 27 人 vs プラセボ 22人
- 有害事象が原因で内服中止した人数はイベルメクチン 15人 vs プラセボ 5人
- プラセボ群には死亡による打ち切りが1件あり
私見
介入群(I)のチェック事項
① 割付け手法は隠蔽化concealされているか
- 研究者と患者には conceal されている
- 電話を用いた割付システムの個別スタッフが,各研究参加者に先着順で治療を割り当てる「中央割付方式」
- エクセルを用いた置換ブロック法で薬剤師が割付を担当
── OKと思います。
② 何重に盲検化 masking されているか
- 4重盲検 Quadruple
- Participant, Care Provider, Investigator, Outcomes Assessor
補足
対照群(C)のチェック事項
① 対照群はプラセボか既存治療か
- プラセボ比較試験
- ただし途中まで「味がイベルメクチンと違う」という問題点あり。盲検化が外れてしまいかねない問題があるが,同一世帯内では一人しか治験参加できなかった為,盲検化が外れるリスクは高くなかったはず(との主張)。
私見
- もしこの期間にプラセボに割り付けられた人が,一度でも本物のイベルメクチンを飲んだことがある人であれば,盲検化が外れてしまった可能性はあると思います。
- ただし,これはイベルメクチン群が有利な方向に働くバイアスです。この試験は電話での症状自己申告を評価する試験なので,「自分は偽薬を割り当てられた!」と気づいてしまった人は,どちらかと言えば経過が悪い方向性に症状を報告する可能性が高いと考えられるからです(プラセボ効果の逆)。
② 介入以外の治療は全て公平か
- ステロイド使用はわずかにプラセボ群が多い(3% vs 6.1%)
- 抗凝固薬の使用はプラセボ群で多い(0.5 % vs 3.5%)
補足/私見
- そもそも入院症例がほとんどおらず自宅待機のみなので,ケアレベルの差はありえません。
- 併用薬は,わずかにプラセボ群でステロイド使用・抗凝固薬使用が多いようですが,年齢などの重要項目がかなりイベルメクチン群有利に偏っているため,トータルではあまり問題にならないように感じます。
アウトカム(O)のチェック事項
①主要エンドポイントは,代用エンドポイントか,真のエンドポイントか
私見/補足
- 「自覚症状の消失」は代用的なものというよりは真のエンドポイントに近いと思います。
- たとえば仮に「PCR陰性化」を主要評価項目に据えていた場合,それは代用エンドポイントです(ある一定の日時までにPCR陰性化するかどうかと,疾患自体の重症度は相関関係にはあるが直接的な1:1対応ではない)。
- しかし酸素投与回避や挿管回避,死亡回避というのが,本来の医療現場にとっての「真のエンドポイント」ではあります。それがもともとの primary endpoint には含まれていたわけですが,全く差がつく気配がなかったので,secondary に降格されてしまった,という経緯でした。
② 主要エンドポイントは,ソフトか?ハードか?
- ソフトエンドポイント。
- 自覚症状や現在の状態を電話で聴取しているだけ。
私見
- ソフトエンドポイントなので,電話聴取の仕方によってはバイアスされうると思います。
- ただ,聴取する側の盲検が外れていなかったのであれば,恣意的な誘導尋問はできなかったはずです。
- なお「プラセボの味がイベルメクチンと違った」ことで自分が偽薬群だと気付いてしまった参加者がいて,自覚症状を悪めに申告した可能性がありますが,これはイベルメクチンにとっては有利なバイアスと考えられます(先述)。
③ 主要エンドポイントは単体か?複合か?
④ 複合エンドポイントの場合,そのパッケージは許容できるか?
⑤ 試験途中でエンドポイントが変更されていないか?
私見/補足
- 普通はここで「有意差」がついて,製薬会社や論文著者が効果を主張し始める,というのが鉄板の「手口」なのですが,今回はむしろ逆で,本研究はここまでやっても有意差がついていません。
- 本来これは「薬剤効果の恣意的な過大評価」を防ぐためにチェックするポイントなのですが,結局有意差がついていないので,特に過大評価を恐れる必要がない状態です。
⑥ 二次評価項目で P < 0.05 を全て「有意」と主張していないか(多重検定)
- 本文中に “Because of the potential for type I error due to multiple comparisons, findings for analyses of secondary end points should be interpreted as exploratory.” とあり,著者らは多重検定の問題をきちんと認識している
- ただ結局どの評価項目も有意水準 5 %で有意とならなかったため,この問題は起きず
私見/補足
- 著者らは多重検定の問題を認識しているため,Table 2 でも,p 値は primary outcome にしか付していません。
- JAMA や NEJM はこの辺りについてはいつも厳しいので,ちゃんとしていますね。
⑦ 粉飾的記載 spin をしていないか?
The findings do not support the use of ivermectin for treatment of mild COVID-19, although larger trials may be needed to understand the effects of ivermectin on other clinically relevant outcomes.
私見/補足
- そもそも全項目で有意差が出ていない生粋の negative study なので,特に粉飾することもないと言えます。
- 論文著者らは,この試験の最大のポイントもきちんと conclusion の中にもシンプルに表記しています。
- もっと膨大なサンプルサイズでやれば有意差がつくかもしれない(けど,そのくらいのサンプルサイズじゃないと効果を示せない程度だってことだから,少なくとも若年軽症者に対して医者が適当に処方すべき薬じゃないよね?)というニュアンスを感じます。
⑧ Effect size (NNT/NNH)は十分か?
私見/補足
- ですが,先述したように,もしこの試験がサンプルサイズ 10 倍で行われていたら,統計学的有意差がついた可能性はあります。
- 一応,その場合にどの程度の NNT/NNH になるか試算してみます(あまり本質的意味はありませんが…)。
- 二次評価項目である 8点順序スケールの2点以上悪化は,4人 (2%) vs 7人 (3.5%) でした。
- たとえばこの試験が 4000人(2000vs2000)で組まれていたなら,そしてさらに「8点順序スケールで2点以上の悪化」というイベントが全く同じ割合で起きていたならば,40人(2%)vs 70人(3.5%) というアウトカムの差になります。
- このとき,結局サンプルサイズが増えたところで,利益を享受できるのは 2% と 3.5 % の差である 1.5 %の人のみです。つまり,2000人に投与して 30 人程度が助かるだけです。これは NNT 67 程度です。
- いっぽう,内服中止につながった有害事象は 15人(7.5%) vs 5人 (2.5%) でイベルメクチンの方が多数でした。
- これももちろん有意差ではなかったわけですが,フェアな設定でサンプルサイズ10倍にしたとき同じ割合で起きていたとしたら, 150人 vs 50 人ということになり,2000人中の 100 人が「内服によって追加の害を被る」ことになります。これは NNH 20 ということです。
⑨ 安全性の懸念は?
私見
- イベルメクチンは世界的にも広く使われる薬剤なので,大きな懸念はないものと思われます。
- ただし5日連続投与は少なくとも日本では一般的な dose ではありません。そのため,このdoseでの使用経験がどの程度あって,どの程度安全性が確認されていると言ってよいかは分かりません。
- 一応,単回内服よりも肺への移行率が高いとかいう過去の研究に則ってこの用法・用量に設定したようです
論文著者らの挙げる Limitation
なお,筆者らが本文中で挙げている Limitation は 7つあります(▼)。
- 当初の試験デザインから変更している
- power 不足で検出できていない効果があるかもしれない
- ウイルス学的評価を行なっていない
- 最初の65人のプラセボは味が違った
- 患者申告という主観に基づくアウトカム評価になっている
- 血中イベルメクチン濃度は測定されていない
- 高齢者がほぼ参加していない
一部を除き,多くは今回のチェックリストで取り上げることができた内容かなと感じます。
③ と ⑥ について少し補足します。
ウイルス学的評価を行なっていない
- 試験中,RT-PCR でウイルスが減ったのかどうか,といった確認はされていない
- ただし臨床情報はフォローしているので,ウイルスの活動性は間接的には評価できたはず(と主張)
補足/私見
- JAMAのコメント欄や twitter の反応を見ていると,この点を非常に問題視する人もいるようです。
- しかしたとえば「RT-PCR を頻回にフォローする必要性があったか」と言えば,私はそうでもないと思います。
- RT-PCRを繰り返していけば,そこで多少の「日数の差」が出たかもしれませんが,その差は臨床現場にとってはほとんど無価値です。いずれは両群とも陰性化するでしょうし, その時間に多少の差があっても,重症度や自覚症状と直結するわけではありません。ウイルスの死骸がいつ消えるかを追いかけたところで代用エンドポイントに過ぎず,本質的意義は乏しいと思います。臨床現場でも,退院時に PCR 陰性化確認は不要というのがコンセンサスです。
- 臨床現場にとって重要なアウトカムは「死亡を回避すること」「挿管を回避すること」「酸素投与を回避すること」で,この順で重要です。
- 臨床医はこれらの「臨床的に意味のあるアウトカム」に興味があり,ウイルス学的評価にはさほど興味がありません。そして,酸素化回避も挿管回避も死亡回避も有意差がつかないのであれば,1日やそこらPCR陰性化が早くなったところで「まあ別にこの臨床背景(=若年低リスク群)の人たちは内服する benefit がほとんどないということですね」,という解釈になります。
血中イベルメクチン濃度は測定されていない
- 試験中,被験者の血中イベルメクチン濃度は一度も計測されていない
補足/私見
- このlimitationに対してよく行われている批判は2種類ありそうです。
- 実はイベルメクチン群の薬はきちんと血中に移行していなかったのではないか(bioavailabilityの問題),あるいはきちんと飲んでいなかったのではないか(ノンアドヒアランスの問題)
- 勝手にイベルメクチンを個人で買って内服しているヤツがプラセボ群側にいたのではないか
- 前者について ── この試験では,内服方法があまり一般的ではない手法なので(日本で飲む錠剤ではなく,水溶液に懸濁している)「bioavailability に問題があって実はほとんどまともに吸収されていないんじゃないか」という論者がいるようです。
- この辺りのPK/PDの違いなどは専門外でよくわかりませんが,さすがに誰だって無益性の RCT なんて組みたくはないでしょうから,そこに大きな差が出るのであればこのような内服形態にはしないのでは?とも思います。
- ノンアドヒアランスに関しては,空きボトルで確認されていますが,飲まずに下水に流していても実際はわかりません。しかし「なんらか理由があって内服中止してしまっていた」のであれば,それはそれだけの行動を起こさせるほどのデメリットが何かあるからだと考えられますので,それを含めてのイベルメクチンの実力と言えます。
- 後者について ── さすがに疑心暗鬼すぎでは?と思いますが,実際にそのような状況を懸念しなければならないほど市中で簡単にイベルメクチンを手に入れられるような地域なのであれば,考えるべき可能性ではあります。 ただ,コロンビアの Cali市の実情を知らないため,それ以上のことは言えません。さすがに RCT に参加しようという人がそこまでモラルハザードを起こすとも思えませんが・・
まとめ
以上です!
総じて,powerの部分に関して考えることが多い試験だなあという印象でした。
参加者の背景因子は全体的にイベルメクチン有利寄りですが,それだけの下駄を履いても有意差を示せなかったということは,「若年低リスク層を対象にする試験設計の難しさ」を示していると思います。
実際臨床現場でも,若年の重症化は滅多にないイベントなので,その滅多にないイベントを減らそうとしても,この程度のサンプルサイズで有意差を示すのは相当至難の業でしょう。
重症化しやすい中高年〜高齢者を多くリクルートすることが重要だと感じます。
そのことを明確にしただけでも,この試験の価値は十分あったと言えるでしょう。
現在進行中の日本の第 II 相試験の参加者がどの程度の年齢で,どのような結果になるか…気になるところですね。
- |若年者を軽視してよいわけではない
- 若年者でも罹患後に嗅覚障害などの後遺症が残るケースはありますから,社会的ダメージを考えれば,軽視してよいわけではありません。もし何らかの薬の内服で,後遺症を残すリスクを下げられるのであれば,内服する benefit はあると言えるでしょう。しかし,このあたりはそもそもデータが不足しており未知数です。後遺症発生は非常に客観評価が難しい endpointなので,残念ながら RCT での効能証明は難しいでしょう。まずは死亡や挿管リスクの高い高齢者にフォーカスすべきだと感じますし,有意差を出すのもその方が容易だと思います。