イベルメクチン vs コロナ:本当にヤバい「メタ解析」の話

注:誤解のない様,最初に明記しておきます。
筆者はイベルメクチンの COVID-19 への有効性については中立〜むしろ期待している立場です。
死亡や挿管などハードエンドポイントを検証する大規模二重盲検 RCTを期待しています。

恐怖のメタ解析

コロナに関してはこれまで何度も infodemic の恐怖を感じていますが,さいきん最も切実に「恐怖」を感じたのが〈イベルメクチン〉関連のニュースです。

──抗寄生虫薬イベルメクチン、対コロナ効果は未証明 研究者ら警告
2021年1月16日 13:48 パリ/フランス|afpbb.com/articles/-/3326634

このニュースを見て「イベルメクチンはコロナに効く説」はどこまで検証された仮説なのだろう?と気になりまして,ランダム化比較試験 RCT をいくつか探ってみました。

結果,ある程度期待できる部分がありつつも「本当の意味で効果があるのか」という点についてはまだまだ全然これからという印象でした。

「効くかも」という仮説の〈提唱〉はできるところまで来ていますが,「本当に効くか」という〈検証〉はまだ全くされていない段階です。大規模な二重盲検 RCT が期待されます。

しかし,そうこう調べているうちに,とんでもないウェブサイトに行きついてしまい,この記事の作成を決意したのでした・・。

イベルメクチンの有効性を異様に誇張するウェブサイト

105 ivermectin COVID-19 controlled studies. 85% improvement …

これがそのサイトです。

一見,世界で報告されている イベルメクチン vs COVID-19 の文献 をまとめて検証してくれているサイトのようです。

以下のように,一見もっともらしいメタ解析のフォレストプロットがババンと貼ってあり,目を引きます(▼)。


何やらそれっぽい、、、、、見栄えをしていますが……

しかしその中身をよく見てみると,言葉を失うほどに「やばい」統計をやっています。

お気づきの読者の方は,すでにこの図を見ただけで戦慄しはじめていらっしゃるかもしれません。意図的なのか,あるいは無知のためなのかわかりませんが,とにかくあまりにも「やばい」解析をしています。

冒頭から爆走

このフォレストプロットの何がどうヤバいかは後述しますが,そもそもまずこのウェブサイト,冒頭部からいきなりトばしてます。

The probability that an ineffective treatment generated results as positive as the 35 studies to date is estimated to be 1 in 34 billion (p= 0.000000000029).

──効果のない治療によって,これまで報告されている肯定的な 35 件の研究結果を生み出す確率は340億分の1と推定される (p = 0.000000000029).

などと煽り立てるような記載をしているのです(▼)。

p = 0.000000000029 などと書いて喜んでいる時点で,このウェブサイトの作者が「統計の “と” の字」も「バイアスの “バ” の字」も理解していないことは明白です。

しかし,実際に SNS で拡散されてしまっている様子・・・

|補足
このサイト内には “Internet survey bias could have a greater effect on results. “ という記載もあるため,バイアスの存在を認識していないわけではなさそうです。そう考えると,やはりセンセーショナルな煽りをしたいだけの確信犯なのかもしれません。
─ ads ─

SNS で蔓延するこのウェブサイト

ほとんどは英語圏のようですが,日本でもこのウェブサイトを引用(している人のツイートをさらに引用)して「イベルメクチンは効果的!」と煽る SNS の投稿を散見しました。

あげく,

# 厚労省はイベルメクチンを承認してください

# イベルメクチン承認を要求します

などというハッシュタグまで一部で流行しているようです。怖いです。

いやもちろん,そんなことはこれまでもよくあったことですし,それだけであれば何とも思いません。実際,まだ先行データがある分アビガン事件よりは幾分マシなくらいです。

しかし,研究機関や大学,インターネット上で医師や学者を自称する人たちも,少なからずこのウェブサイトを引用しているところを目撃してしまい,膝から崩れ落ちました。とても悲しい気持ちになりました。

色々,大人の事情もあるものとは思います。

メタ解析の読み方を学ぶ「良い教材」

そんなこんなで最初は途方に暮れていたわけですが,後ろ向きなことばかり言っていても仕方がありません。

生産的な方向性で,私にできることを考えてみました。

結果,この〈ヤバいメタ解析〉を1つの問題集と見立てて,実際に〈メタ解析〉の重要なポイントを学ぶ例題として扱ってしまえばいいのでは?という考えに至りました。

というわけで,今回はこのウェブサイトを教材として

ヤバい〈メタ解析〉の見抜きかた

についてまとめてみたいと思います(導入が長い)。

最初に結論

例によって最初に結論を述べます。

このウェブサイトで行われているメタ解析の 重大な問題点 は大きく分けて5つあります。

こんなにもヤバいメタ解析: ivmmeta.com
  1. システマティックレビューを伴っていない
  2. 出版バイアスを考慮していない
  3. 解析に含まれた研究の質が低すぎる
  4. 評価項目や比較対照が全く異なる RCT 同士が統合されている(!)
  5. その上で RCT と後方視研究の結果も統合してしまった(!!)

順に見ていきましょう!

メタ解析にも「質」がある

まず最初に確認しておきたいのは,

メタ解析は既存の研究をまとめ直した〈二次研究〉に過ぎない

ということです。

つまり,メタ解析の質にもかなりの “ピンキリ” があるわけです。メタ解析だからすごい!だとか,メタ解析だから意味がある!だとかいうのは完全なる誤りです。

メタ解析で統合するデータ自体がバイアスされていたら,結論もバイアスされたものになりますし,元の研究がまともじゃないなら,メタ解析もまともじゃないモノになるのです。

メタ解析の質を高めるためには,その前の〈システマティックレビュー〉の部分が重要になります。そしてこの ivmmeta.com では,システマティックレビューを行っていないのが最初の問題点です。

やばいポイント① システマティックレビューを伴っていない

システマティックレビューとメタ解析は別モノ

混同されがちな部分ではありますが,

システマティックレビューとメタ解析は完全に別モノ

です。

組み合わせは3パターン

理論上,以下の 3 通りがあり得ます。

  1. メタ解析のみ
    • 複数の試験の結果を統合するのみ。
    • どのような基準で解析に組み入れる研究を選んできたのか不明。
    • 解析・統合する研究を恣意的な基準で選べば,結果はどうにでもなるため,バイアスリスクが極めて高い。

  2. システマティックレビューのみ
    • いわゆる〈文献的考察〉のみを行うパターン。
    • これまでの報告を,読者が再検証可能なルールに則って〈系統的システマティック〉に集めてきて,それらの結果を踏まえ〈吟味〉レビューし,筆者の考えを述べる。

  3. システマティックレビュー & メタ解析
    • 〈システマティックレビュー〉で系統的に文献を吟味した後,良質かつ同質な複数研究の結果を統合する(メタ解析)。
    • 適切な手順で行われ,元となった試験の質も高いのであれば,非常に信頼性の高いエビデンスとなる。

「メタ解析のみ」は最も危険

ここからわかるように〈メタ解析のみ〉というのは非常に危険な研究パターンです(▼)。

筆者らがどのような意図を持って,どのような研究を集めてきたのか全く不明だからです。 入り口からして情報選択のバイアスがかかっている可能性が高いのです。

〈システマティックレビュー〉はそのようなことが起きないように,ほとんど必須のプロセスであると言えます。

どのような正当性があってそのようなチョイスをしてきたのか?

という部分を,再検証可能にする過程こそが〈システマティックレビュー〉であり,そこを省いてしまっては,結局バイアスの塊にしかなりません。

偏った〈選択〉の上で,偏った〈統合〉をしている可能性があるからです。

成績のいい研究ばかりを集めてきてそれを統合すれば,その結果「こんなにも有効!」という結論が得られるのはごく当然のことです。

こういう検索式で MEDLINE と pubmed で検索して,ヒットした研究論文を全部 Abstract チェックして,マトモそうなやつだけ全文読んで,質が高くて他の試験と統合解析できそうな ランダム化比較試験(RCT)だけを解析したよ

といった「選択と吟味の過程」が公開されることで,読者は初めてその過程の正当性を再検証することが可能になるのです。

その目で見ると?

その目で見ると,この ivmmeta.com なるウェブサイトでは,システマティックレビューが行われた痕跡がありません。

つまり,個々の研究の質やバイアスのリスクを全く評価していないように見受けられます。

一応,解析にふくめた「研究」をどのように探し当てたかについては記載があります。


We performed ongoing searches of PubMed, medRxiv, ClinicalTrials.gov, The Cochrane Library, Google Scholar, Collabovid, Research Square, ScienceDirect, Oxford University Press, the reference lists of other studies and meta-analyses, and submissions to the site c19ivermectin.com, which regularly receives submissions of studies upon publication.
Search terms were ivermectin and COVID-19 or SARS-CoV-2, or simply ivermectin.

メジャーどころの既存データベースに「イベルメクチン COVID-19」と検索ワードを入れて hit した研究を全て統合しているようです。


All studies regarding the use of ivermectin for COVID-19 that report an effect compared to a control group are included in the main analysis.

ともあるので,とにかくヒットする研究を端から端まで全て統合しているようです。

本当に「全て」なのかは確認していませんが,このメタ解析に含まれているほとんどの研究は統計的に有意な差を出していない(negative study)上にサンプルサイズが非常に小さい研究ばかりですから,確かに選りすぐることなく「全て」ふくめているのかもしれません。

それはそれで問題なのですが,その点は後述します。

ともあれ,本当に全ての研究を統合しているのであれば,ある意味恣意的な〈情報選択のバイアス〉は犯していないのかもしれません。

しかしそれ以前にそもそも「芳しくない結果の試験は闇に葬り去られている」という〈出版バイアス〉を忘れてはいけません。

やばいポイント② 出版バイアスを考慮していない

先述したように〈システマティックレビューを伴わないメタ解析〉は,〈出版バイアス〉や〈情報選択バイアス〉の影響を強く受けるため,非常に危険です。

出版バイアスの影響

〈出版バイアス〉とは,結果の良かった研究ばかりが報告され論文として出版されてしまうバイアスのことです(▼)。

出版バイアスの図

結果が良くなかった,あるいは有意差がつかなかった研究(いわゆる negative study)は,報告されずそっと無かったことにされてしまうわけです。

インパクトファクターの高いビッグジャーナルは,Negative study をほとんどアクセプトしてくれません。マイナー雑誌に投稿されたとしても,誰の注目も浴びず,社会的に黙殺される可能性もあります。

このように「本当は行われたのに,結果が芳しくなかったせいで,きちんと報告されなかった RCT」が複数あると,メタ解析の際に「結果が良かった研究ばかりが統合されてしまう」という大きなバイアスの原因となります。

無視される出版バイアス

さて,この ivmmeta.com というウェブサイトの Table 1 を見てみましょう(▼)。

Ivvmetaの本当にヤバいTable

この表を見ると,このサイトの作成者は〈出版バイアス〉という概念を完全に無視していることが分かります。

Percentage of studies reporting positive results = 100%
── ポジティブな結果を報告している研究の割合は100%

などと書いている時点でお察しです。

ちなみにこの表の5列目にある

Probability of an equal or greater percentage of positive results from an ineffective treatment

とは要するに p値のことです。

先述した様に,これが 0.000000000029 などと書いて煽っていることからも,バイアスの存在を無視していることが分かります。

p値とは,

本当は(母集団では)差がないにもかかわらず,選んできた標本自体のランダム性のみによって、、、、、、,得られたデータ以上の極端な値が得られる確率

です。

「標本自体のランダム性のみによって、、、、、、、、、、、」という部分が重要です。

標本がランダムに選ばれていない ── 出版バイアスのためにそもそも「効果的な」研究結果しか抽出されていない ── 時点で,確率的な推論に持ち込むこと自体に意味がありません。

前提の時点で「ランダムに選ばれたもの」ではないからです。

標本抽出がバイアスされている状況では,p 値を算出すること自体に意味がないのです。

さらに言えば,そもそも,この ivmmeta.com で統合されているほとんどの試験は,単体では〈有意差〉を示せていません(後述)。そのため「Positive results を示した研究が 100 %」という「Positive」の定義もナゾです。ほとんどの試験は実際「Negative」 study なので・・

データベースはあるが・・

こうした〈出版バイアス〉の問題に対応するため,近年では一定規模以上の RCT を行う場合,あらかじめデータベースに登録することが義務に近くなりつつあります(clinicaltrials.gov など)。

これにより,仮にその〈ランダム化比較試験 RCT〉が negative study (有意差が出ない研究)になってしまったとしても,その結果はデータベースに残されることになります。 その研究結果が立派なジャーナルに載ることがなくとも,データは人類の叡智の1つとして生き続けるわけです。

こうした negative study もデータが蓄積されていけば,将来メタ解析が行われた時〈出版バイアス〉による過大評価が起きにくくなることが期待されています。

ただし,データベースに登録されたはいいものの,いつまで経っても更新されず結果が不明のまま放置される,という問題も時々ある様です。

この ivmmeta.com なるウェブサイトは clinicaltrials.gov などのデータベースからも未発表研究データを抽出しているようですから,その意味で出版バイアスはある程度、、、、回避しているのかもしれません。

しかし,極めて小規模の RCT や 後方視研究をメタ解析に入れているのが致命的な問題です。

これらの多くはデータベースに登録されないからです。

小規模 RCT・後方視研究の危険性

大規模なランダム化比較試験 RCT はデータベースへの事前登録がほぼ必須要件となりつつありますが,極めて小規模な RCT や後方視的研究は,あらかじめデータベースに登録されているわけではありません。

芳しくない結果が得られたものは,データベースに登録されることすらなく,本当に「跡形もなく歴史から消し去られている」可能性が高いと考えられます。

いわゆるお蔵入りデータとなり,二度と世間に公表されないデータになります。

逆を言えば,小規模 RCT や後方視研究として報告されているものは,そのほとんど全てが「芳しい結果が出ているからこそ報告されている」と言えます。

つまりどういうことかというと,

小規模な RCT や後方視研究をまとめて〈メタ解析〉したところで,良い結果を報告したものだけをまとめることになる

ということです。

「効果がある」あるいは「効果がありそうな傾向」と主張しているものばかりを一緒くたにまとめてメタ解析をしているのですから,結果は知れています。

そんなものは絶対「効果がある」という結論にしかなりようがないですよね。

小規模 RCT や後方視的研究のメタ解析は,極めてバイアスリスクが高い

と言えます。

その目で見ると?

このメタ解析はサンプルサイズが 36 や 24 などというパイロット試験レベルの RCT も解析に含めていることが分かります(▼)。


この図表での N というのはトータルサンプルサイズなので,1:1でランダム割付している試験であれば,実際にイベルメクチンを投与されたのはさらに半分です。

このような小規模の研究で「微妙な結果」になった研究は報告すらされていないだろうことを考えると,このメタ解析の信憑性が極めて低くなってくることがお分かりいただけると思います。

なお,全ての〈出版バイアス〉を見抜くことは困難ですが,システマティックレビューを行う場合には〈Funnel plot〉という手法を使ってバイアスのリスクがどの程度か検討されます。

Funnel Plot に関する解説は,今回は割愛します。
興味のある方は: 英語版 wiki

やばいポイント③ 解析に含まれた研究の質が低すぎる

メタ解析は,〈元の研究〉の質をそのまま継承することを忘れてはいけません。

メタ解析の信頼性=元の試験の信頼性

メタ解析の信頼性を高めるのは,元の試験の信頼性です。

そのため,

そもそもこの研究は〈メタ解析〉に含めるべきものなのか?

という評価と吟味を行うのが〈システマティックレビュー〉の大きな役割なわけです。

しかし先述したように,このウェブサイトでは〈システマティックレビューを伴わないメタ解析〉を行っています。つまり,この重要な吟味のプロセスを完全にスッ飛ばしてしまっているのです。

結果として,解析に含まれた研究の質が総じて低く,もはや「闇鍋 ♨️」状態になってしまっています。

元研究がバイアスだらけで正しく真実を推定している信頼性に乏しいのであれば,そんなものを寄せ集めたところで意味がありません。

バイアスの塊のような研究を寄せ集めたところで,バイアスの城が築かれるだけです。

結果が「統計的に有意!」などと喜んだところで,元々の研究がほとんど無価値ならば,その寄せ集めもまた無価値。Garbage in,Garbage out なのです。

メタ解析の質の吟味 = 元の研究の吟味

そもそもメタ解析は,すでに公表されている先行研究データを統合しただけに過ぎません。

要するに「机上研究」「数字遊び」に過ぎないのであって,重要なのは実際に行われた〈ランダム化比較試験 RCT〉そのものの質の方です。

あくまでも本質は〈元の試験〉の方であり,

良質なメタ解析 = 良質な RCT を適切に統合したもの

です。

つまり,読者がメタ解析をきちんと吟味するためには,そもそも RCT を吟味する能力が必要になります。 元文献の研究の質を批判的に吟味できる人でなければ,メタ解析の質を簡単に評価することはできません。

ランダム化比較試験 の質もピンキリ

問題は,ひとえに〈ランダム化比較試験 RCT〉と言ってもピンキリだということです。

RCT と銘打っていても,以下のような問題点があるのであれば「その結果の推定値は妥当なのか?」ということについては大きな疑念が残ります。

(※内容に興味があれば,クリックで展開ください)

|盲検化されていない
  • バイアスの入る余地しかない
  • プラセボ効果,ホーソン効果の影響も強く受ける
  • 良い結果が得られた試験でも,相当割り引いて読む必要がある
|サンプルサイズ(n)が小さい
  • 結果が非常にバラツキやすいため,まぐれ当たり(偶然誤差)の可能性が高い
  • 小さいサイズの研究は,うまくいかなかった場合ほとんど報告されない
  • つまり報告されている時点で〈出版バイアス〉がかかっている
|試験参加基準が実臨床と乖離
  • その試験の結果を目の前の患者さんに適応できない(外的妥当性が低い)
  • たとえば「重症化しやすく介入が必要なはずの高齢者が試験に全く参加していない」など。実臨床への応用が効かないのであればデータとしての意義が乏しい
|重要な因子での群間不均衡がある
  • 両群で極端に年齢が異なっていたり,重篤な既往症の有無が偏っていたりなど
  • 介入群とコントロール群で重大な予後因子と考えられるものが揃っていないと,「アウトカムの差」が「介入」のおかげなのか,そうした「背景因子」によるものなのか分からない
|追跡率が低い
  • 欠測データをどう補完したかによって,結果の推定値がかなり変わる
  • たとえばプラセボ群で追跡できなかった患者は「全員発症した」,実薬群で追跡できなかった患者を「全員発症なし」とする〈ベストシナリオ解析〉を行うと,とんでもなく「良い」結果にバイアスされてしまう
  • そうでなくとも,追跡できなかった患者を両群で全て「発症なし」とする解析も問題。特に介入群の方がプラセボ群よりも脱落者の割合が高かった場合や,全体的に追跡率が低い場合(80% 未満など),結論は大きくバイアスされうる。

そもそも意味のない評価項目のことも・・

さらに,そもそも臨床的に意味のない〈評価項目アウトカムを検証しているような RCT は,結果が統計的に有意だったからと言って,「だから何なのか」という話になってしまいます。

「ウイルス価」や「7日目のPCR陰性化率」などはこの代表です。それらが多少減ったところで,実際に患者さんがどの程度の利益を受けるというのでしょうか。

実臨床で意味のあるアウトカムとは,「総死亡」「挿管・人工呼吸」など患者さんの予後に直結するアウトカムのことです。

そうしたハードなエンドポイントで差がつかないのであれば,わざわざ副作用のリスクを冒して薬を使うほどのメリットがあるのかわかりません。

ランダム化比較試験 RCT の批判的吟味は別の記事に詳しくまとめていますので,興味のある方は読んでいただけますと幸いです。

合わせて読みたい

職場の論文抄読会で,臨床試験論文の〈批判的吟味 critical apprausal〉をしたい! でもどういう部分に気をつけて読めばいいか分からない! そんな時,臨床試験の質を『爆速で』チェックできる手頃なリストがあったら,便利[…]

合わせて読みたい

この記事は医療関係者の方向けです 製薬会社さんが配る薬剤パンフレットを見ると,立派なジャーナルに載った 立派な RCT の結果が必ず載っています。そしていつも「いい感じにまとまった図表」がバンと貼ってあり,大変目を引きます。 どうやら統[…]

このメタ解析の元の試験は?

では,このメタ解析に含まれている RCT の質はどの程度のものなのでしょうか?

まずは〈Early treatment〉(発症早期の軽症者や無症候性の患者を対象としたもの)に含まれている研究を見てみましょう(▼)。



Ahmedら,Chaccourら,Babalola らの研究と続いていますが,まずそのリスク比(RR)のエラーバー(信頼区間 CI)を見てみると,ガッバガバに横に広がっていることが直ちにお分かりいただけると思います。

この図表には明記されていませんが,この図表における信頼区間(CI)は 95% 信頼区間のようです。

エラーバーが ガバガバ ということは,サンプルサイズが少なすぎて,〈誤差〉によるブレ幅が大きいということを意味します。

つまり,これらの研究1つ1つの結果の信頼性が低い,ということに他なりません。

実際〈Early Treatment〉に含まれる 6 つの RCT のうち,単体で〈統計的に有意〉な結果になっている(=エラーバーが RR:1 を跨いでいない)のは, Asghar らの RCT 1つのみです。

しかもその評価項目はウイルス PCR 陰性化という臨床的意義の乏しいアウトカムです。
|補足:95% 信頼区間とは
95% 信頼区間とは,要するに「全く同じセッティングで研究を 100 回 行った場合,結果はランダムにバラつくが,100 回中 95 回はこのエラーバーの中に収まるだろう」という区間です。 このようなランダムなバラツキを〈偶然誤差ランダムエラー〉と呼びます。偶然誤差によって,結果がエラーバーの左端の結果になることもあれば,エラーバーの一番右端の結果になることもあるかもしれません。しかしとにかく,100 回やれば 95 回はこの範囲に収まるだろう,ということです。 ですから,その中に「真実の値」もきっと含まれるだろう,と言えます。このエラーバーが リスク比(RR) 1 を跨いでしまうと,p>0.05 と同義になり,統計学的に有意とは言えません。以上を踏まえてこのメタ解析の図表をみると,1を跨ぐどころか,ガバガバ&ガッバーナになっていますので,これら1つ1つの研究結果から「何も言えない」ということは明白です。

それぞれの RCT の批判的吟味

もう少し個々の RCT の中身についても突っ込んで読んでみましょう。



上から順に,まずは Ahmed らの RCT からいきます。

Ahmed らの RCT(@バングラデシュ)

── International Journal of Infectious Diseases 103 (2021) 214–216

バングラデシュの二重盲検 RCT です。
72人集めてますが,3アーム に分けてますので, 22:22:23 人ずつという極小サイズの RCT になっています。

デザインの概要は以下です。

試験の概要
[P]対象者 COVID-19 発症早期の入院症例(n=72)
[I]治療介入
  1. 経口イベルメクチン12mg/day ×5日間 (n=22)
  2. 経口イベルメクチン12mg1日のみ
    +ドキシサイクリン200mg1日のみ
    +ドキシサイクリン100mg 4日(n=22)
[C]比較対照 プラセボ(n=23)
[O]主要評価項目
  • 鼻咽頭スワブでの RT-PCR陰性化までに要した日数
  • 7日以内の解熱・咳消失
試験結果
  • RT-PCR 陰性化までの日数は,イベルメクチン群 9.7 日(95% CI 7.8–11.8)vs イベルメクチン+ドキシサイクリン群 11.5 日(95% CI 9.8–13.2)vs プラセボ群 12.7 日(95% CI 11.3–14.2).
  • 「7日目時点で発熱・咳症状が残っている人の割合」はイベルメクチン単剤群で 0/17 人(0.0%),プラセボ群では 3/19人(15.8%) ※分母が変わっていることに注(後述)
備考 参加者は誰も酸素を吸入していない軽症で,最終的に両群とも酸素を吸った人はいない

このウェブサイト(ivmmeta.com)のメタ解析では,この RCT をどう扱っているでしょうか。



改めてこの表を見ると,奇妙なことに気づきます。

n=36 になっているのです。

この試験は n=72 を 22:22:23 に分けた研究であるのに,です。

これはつまり,途中脱落者を除いた「36 人(イベルメクチン群 17人+プラセボ群 19 人)」だけのデータを抽出した,ということの様です。その上で 85% のリスク減少(RR 0.15;p=0.09)と主張しています。

もちろん,このデータは〈有意差がない〉=〈偶然誤差の可能性がある〉ため,当然真に受ける価値はありません。

そもそも「17人中 0人」と「19人中 3人」なんて感覚的にも「誤差では?」と言う感じがするサンプルサイズですよね。

更に言えば,本当はその前に 5人と 4人が脱落しています。

つまり本来は,7日目時点で「イベルメクチン群の 22 人中,5 人脱落(転帰不明),0 人が症状残存」「プラセボ群の 23 人中,4 人脱落(転帰不明),3 人症状残存」というデータに過ぎません。

にもかかわらず,その問題を棚に上げて,残った 17人 + 19 人だけを抽出して結果の計算をしているのです。この時点で統計的にはムチャクチャなことをやっています。

他にも色々とツッコミどころはあるのですが,詳細は別の記事に記載しましたので,興味のある方はそちらをご覧いただければ幸いです。

端的に言ってしまえば本試験は

「臨床的意味が乏しいアウトカムで,ほとんど誤差で説明できる程度の差がついた」

だけである,ということです。

補足|臨床的意味のあるアウトカム
くどいようですが,臨床的意味があるアウトカムとは「挿管率」の差や「死亡率」の差などです。〈PCR陰性化〉はあくまで代用エンドポイントに過ぎず,これが多少早く達成されるからと言って患者さんの転帰を改善させたことにはなりません。PCR はいずれ自然に陰性化しますし,陽性期間が続いても感染性があるかは別です。たとえば軽症例であれば,発症 10 日時点で感染性はほぼ無くなっていますが,PCR 陽性はしばらく続くこともあります。ですから退院時も PCR の陰性確認は不要とされています。(COVID-19 診療の手引き 4.1)。この辺りの知識整理は忽那先生の記事が分かりやすくオススメです。

Chaccourらの RCT

── C. Chaccour et al. / EClinicalMedicine 00 (2021) 100720

2つ目の RCT を読んでみましょう。

この試験は,COVID-19 発症早期の患者 24 名を対象にした非常に小さな規模のパイロットRCTです。スペインの極小規模パイロット試験(二重盲検 RCT)で,12人 vs 12人でイベルメクチンとプラセボ群に割り振っています。

試験の概要
[P]対象者 PCR陽性で症候性の外来 COVID-19 患者(発症72時間以内)(n=24)
[I]介入 イベルメクチン400μg/kg 単回投与(n=12)
[C]比較対照 プラセボ(n=12)
[O]主要アウトカム 投薬 7日経過時点で鼻腔スワブ PCRが陰性化した人の割合
結果 主要アウトカムは両群とも 12/12 陽性,差なし。

さて,ivmmeta.com ではこの論文データをどう扱ってメタ解析に組み入れているでしょうか。

記載を見ると,この論文の別添資料(supplementary figure)のデータをウェブサイト作成者らが自ら解析し直したようです。要するに後付け解析(post-hoc analysis)です。

その上で,〈28 日経過時点での症状残存割合〉がイベルメクチン群 26 %,プラセボ群で 55 % なのでリスク比は 0.47だと主張をしているようです。

この 26 % と 55 % の計算方法は記載されていないため分かりませんが,そもそも元々 12 人と 12 人ですから,3/12人,6/12人ということでしょうか。分母が小さすぎて,どう考えても誤差としか思えません。

〈相対表記のマジック〉ですね。

このような RCT を統合したところで …… ?

上から順にこのまま全て批判的吟味を行っても良いのですが,本旨から外れますので,別の記事に移しました(▼)。

個別の吟味は別記

この記事は,前回記事の補足(-part 1)です。 [sitecard subtitle=前回記事 url=/med/ivmmeta/] COVID-19 への効果が期待されているイベルメクチンですが,まだ結論が明確でないうちか[…]

要するに

常識的な範囲でバイアスリスクを見積もれば〈メタ解析〉に入れるべきでないことが明白な試験が複数含まれている

ということが伝われば十分です。

これは先述したように「バイアスリスクを評価する」という〈システマティックレビュー〉の重要なプロセスをすっぽかしたからこそ起きてしまった現象と言えます。

それらの研究は本当に統合して良いのか?

複数 RCT の「合わせ技」でサンプルサイズを大きくして「有意差」を作り出す,というのがメタ解析の目的の1つとも言えますが,

問題は,それらの研究が「合わせてしまっても問題ないくらいのものなのか?」という部分です。

全く異なる臨床試験を1つにドッキングするのですから,

  1. 1つ1つの研究の質が担保されていること
  2. 統合しても問題ないくらい同質な研究であること

が必要であるはずです。

質の高い〈システマティックレビュー&メタ解析〉では,このプロセスが非常によく吟味されています。 逆に〈システマティックレビューを欠いたメタ解析〉は,この極めて重要なポイントが吟味されないため,バイアスの塊となるのです。

この ivmmeta.com でも,「① 1つ1つの研究の質」については全く担保されていないことがおわかりいただけたものと思います。

では,これらの研究はせめて「② 統合しても問題ないくらい同質な研究」にはなっているのでしょうか?

結論から言いますと,やはり「全く」なっていません。そして実は ここから先の方が,遥かに深刻な問題です。

やばいポイント④ 評価項目が全く異なる RCT 同士が統合されている

ここからが, 最大のヤバヤバポイントになります。

最初にこの表(▼)をお示しした時点で,お気づきの方もいらっしゃったと思います。


異なるアウトカムが縦に並べられている


この表では,

全く質の違うアウトカムを縦に並べて,謎の統合を行っている

のが最大の問題点です。

ぶっちゃけこれが一番やばい

もしかしたらこのサイトの作者は,メタ解析とはなんなのか,というところからあまり分かっていないのかもしれません。少し心配になってくるレベルです。

こんなムチャクチャなメタ解析は初めて見ました。

それぞれの研究が全く異なるアウトカムを据えているにもかかわらず,リスク比をまとめて謎の統合をしているのです。

この点をもう少し詳しく見ていきましょう。

〈Early Treatment〉だけに限っても・・

このウェブサイトでは,発症早期で比較的軽症の患者を対象とした trial を,「early treatment」の試験としてまとめています(▼)。



1 行目の Ahmed らの RCT で見ているアウトカムは,先述したように〈7日目時点の症状残存割合〉です。RR 0.15 ということは,そのリスクが 0.15 倍(95%信頼区間:0.01-2.70)になった,という結果です(統計的に有意ではありません)。

一方,2 行目の Chaccour らの RCT のエンドポイントは「28日経過時点での症状残存」です。そのリスクが 0.44 倍( 95%CI 0.16-1.17) になった!と言ってこの表の2行目に入れられています。これも統計的に有意ではありません。

この試験の primary outcome も,もともとは〈治療後7日時点での鼻腔咽頭スワブ PCR でのウイルス検出の消失〉です。それで有意差どころか全く差がつかなった negative study ですが,後付け解析で用いられた〈28日経過時点の症状が残っている人の割合〉の部分のデータだけを引っ張ってきています。これがどれほどバイアスリスクの高い行為であるかは言うに及びません(詳細は別記事)。

さて,Ahmed と Chaccour らの RCT は一見同じ「症状残存」というアウトカムですが,前者は〈7日目時点での症状残存〉で,後者は〈28日時点での症状残存〉ですから,全くドッキングできない別物のアウトカムであることがお分かりいただけると思います。

つまりこの時点で,全く統合できるはずのない組み合わせになっている ということです。

この先も全く統合できない試験が続く

ここまでで十分かもしれませんが,もう少し検討してみます。



3 行目の Babalola らの ランダム化比較試験 RCT(@ナイジェリア・ラゴス)はどうでしょうか。

この試験はまだ論文に accept されてません(preprint)が,データにはアクセス可能でしたので,確認してみました。

この試験では,62人を 21人 vs 20人 vs 20人の 3 アームにランダム割り付けしています。3 群はそれぞれ,イベルメクチン 6mg,イベルメクチン 12mg,コントロール群(プラセボではなくリトナビル+ロピナビル)です。主要アウトカム〈PCR陰性化までの日数〉を比較しています。

リトナビル・ロピナビル = 抗 HIV 薬 です

このヤバさ,お分かり頂けたでしょうか。

もはやコントロール群がプラセボですらない試験です。

なぜこれを Ahmed らや Chaccour らの RCT 結果(コントロール群がプラセボ)と統合できると思ったのでしょうか?

このフォレストプロットの作成者を小一時間問い詰めたい気分になりました。

さらに,この試験で評価しているアウトカムは〈PCR 陰性化までの日数〉です。

これは Ahmed らや Chaccour らの RCT で見ているもの(=症状残存)とは大違いですよね。

ここまでをまとめると

  1. Ahmed らの RCT :プラセボと〈7日目時点の症状残存〉を比較
  2. Chaccour らの RCT:プラセボと〈28日時点の症状残存〉を比較
  3. Babalola らの RCT:抗 HIV 薬と〈5日時点でのウイルス PCR 陽性遷延〉

となっています。

それって何の比?

この調子で〈Early Treatment〉に含まれている 6 個の RCT を上から順にみてみますと,以下の様なデザインになっていました。

Early Treatment の試験まとめ

  1. Ahmed らの RCT :プラセボと〈7日目時点の症状残存〉を比較
  2. Chaccour らの RCT :プラセボと〈28日時点の症状残存〉を比較
  3. Babalola らの RCT :抗 HIV 薬と〈5日時点での PCR 陽性〉を比較
  4. Kirti らの RCT:プラセボと〈総死亡〉を比較
  5. Asghar らの RCT:クロロキンと〈7日目時点での PCR 陽性〉を比較
  6. Raad らの RCT:プラセボと〈入院(※詳細不明)〉を比較
注 1) 全て、、 Primary Outcome ではない後付け、、、解析項目のピックアップ
注 2)全て介入群はイベルメクチン(用法用量はバラバラ)

要するに,この ivmmeta.com というウェブサイトでは

  • 「コントロール群も違う」上に
  • 「評価しているアウトカムも違う」上に
  • 「イベルメクチンの用法・用量も違う」

研究を 6 つ統合し, 合計 432 名で リスク比 0.29 [0.16-0.53] などと主張しているわけです(▼最下段)。

・・

「何の」「何に対する」「どんな」リスク

0.29 倍(71%のリスク減少)になったというのでしょうか?

All studies??

さらに,問題はこれだけではありません。

〈Early Treatment〉の試験だけでもこれだけ研究の質が違いすぎて「統合困難」であったのに,なんと〈Late Treatment〉や,〈Prophylaxis:予防〉の結果も統合してしまいました(▼)。



この一番下の行,

All studies  2,528 patients   RR 0.29 [0.17-0.51]

という部分をご覧ください。

All studies でドッキングして,謎のリスク比を算出しています。

〈Early Treatment〉のみならず〈Prophylaxis〉の試験結果まで全てを統合していますが,〈Prophylaxis〉とはつまり発症予防の試験です。対象者がもはや COVID-19 感染者ですらない(!)試験だということです。

くどい様ですが,この「統合されたリスク比」は,

「何の」「何に対する」「どんなリスク」の比なのでしょうか?

全くわかりません。謎の数字です。

頑張ってこの数字の意味を解釈しようとすると,

「用法用量はともかくイベルメクチンを入れた群」と「そうでない群(プラセボだったりクロロキンだったり抗 HIV 薬だったりいろいろ)」を比べたとき,何日目かの時点で何らかのアウトカム(PCRがまだ陽性だったり,症状がまだ残っていたり,感染予防できたり,何だったりかんだったり)を起こすリスクの比」

でしょうか。

な… 何を言ってるのか わからねーと思いますが
 
私もちょっとよくわかりません。

こういうワケのわからない統計を行って世間を混乱させる行為,本当になんとかしたいものです。結局はモグラ叩きになってしまうのでしょうけれど…

現実的な解決策としては,多くの読者がリテラシーを身につける他にないのでしょう。

異質性検定の意味

ちなみに一応,異質性検定でI2 統計量は計算されているようですが・・

そもそも異なるアウトカムを縦に並べて統合する意義が全く不明であるため,異質性を検定する以前の問題です。

長くなるため,異質性検定の話は今回は割愛します。

やばいポイント⑤ RCTと後方視研究の結果も統合してしまった・・

さらに もっとひどいのはここから先です。

むしろこれまでみてきたメタ解析は,まだ全て RCT を統合していただけマシな方です。

更にやばいのは・・

このウェブサイトの本領はこんなものではありません。

一番ヤバイのはこの図表です(▼)。

画像クリックで拡大

(RCT)や(DB RCT)と書いてあるもの以外,全て観察研究で,後ろ向きの観察研究も含まれています。

ついに,やってしまいました。

評価項目アウトカムがバラバラなだけでは飽き足らず,RCT と 後方視研究(retrospective study)の結果すら統合
してしまいました。

後方視研究の結果を統合することの弊害

後方視研究は極めて交絡因子やバイアスの影響を受けやすい研究であり,エビデンスレベルとしては非常に低いものとなります。しかもサンプルサイズが数十人規模だなんて,お話になりません。ゴリゴリの出版バイアスの塊です。

「効いた」から報告されたのであって「効かなかったため闇に葬り去られた症例」がどれだけあるのか不明です。

そんな試験結果と,RCT の結果を並べ,それぞれ全然違うアウトカムを評価しているにもかかわらずドッキングしてしまって,リスク比 0.26[0.19-0.36],74 % の改善,などと主張しています(▼)。

くどいようですが,これは

「何の」「何に対する」「どんな」リスクの比 なのでしょうか?

|余談|後方視研究なのにリスク比?
細かいこと言うと,後方視研究もリスク比を算出できている点も謎です。理論上算出できないはずであり,本来はオッズ比で代用する必要があるはずです。

以上です。

まとめ

本項では,ivmmeta.com というサイトを題材に〈メタ解析〉でチェックすべき非常に基本的な問題点をまとめました。

“ヤバいメタ解析” の例題: ivmmeta.com
  1. システマティックレビューを伴っていない
  2. 出版バイアスを考慮していない
  3. 解析に含まれた研究の質が低すぎる
  4. 評価項目や比較対照が全く異なる RCT 同士が統合されている(!)
  5. その上で RCT と後方視研究の結果も統合してしまった(!!)

②③ の問題は,医学論文でもしばしば問題になるポイントですが,④⑤ に関してはそうそう見ることのない大問題です。正直初めてこのサイトを見たときはかなりびっくりしました。

このようなムチャクチャな統計解析を行っているウェブサイトを無責任に拡散するのは,直ちにおやめ頂きたい……

Twitterを見ていると,医者を名乗るアカウントでイベルメクチンの個人輸入を煽るような人もいて,悲しい気持ちになります(ヤブ医者さんかもしれませんが)。

今回検証した ivmmeta.com もそうですが,メタ解析は 2 次情報だということを忘れてはなりません。さらにそれをメディアや SNS で取り上げたものは 3 次情報であり,さらに尾びれ背びれで拡散されたものは 4 次情報以下です。

「自ら 1 次情報にアクセスして内容を吟味する」

この習慣が一人でも多くの方に広まることを願って止みません。

ivmmeta.com は,やってる統計はムチャクチャですが,コンスタントに RCT 結果をどんどんまとめてくれているのは素直に有難いです(個人でこういう取り組みを継続するのは結構大変です)。時々チェックして,興味深い結果が出ていたら元データを読んでみる,という付き合い方であれば有用なウェブサイトだと思います。

次回予告

次回は引き続きこのネタをもとに,

# 厚労省はイベルメクチンを承認してください

へのアンチテーゼとして,

市民が厚労省に要請すべきなのは
〈緊急承認〉ではなく〈迅速な第 III 相試験〉

という趣旨の記事をまとめたいと思います。

参考文献

システマティックレビュー&メタ解析の批判的吟味については,以下の書籍が大変詳しくオススメです。このブログのあらゆる記事で一生お勧めし続けている名著です。

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG