【解説】仮説探索と仮説検証|検証的試験とは?

この記事では,医薬品に関するリテラシーとして必須知識である

「仮説検証」と「仮説探索/提唱」の違い

について解説します。

「統計的に有意」は等価ではない

医学研究には多くの種類がありますが,ほとんどの研究で最終的に〈統計的に有意〉かどうか? という仮説検定が行われます。

つまりほとんどの医学研究において,最終的な結論は

その差は統計的に有意であった(significant;p<00.5)

その差は統計的に有意ではなかった(not significant;p≧0.05)

のどちらかで終わるわけです

しかし,あらゆる研究で幾度となく主張される「有意」 significant という言葉は,そのすべてが等価というわけではありません。

本当に厳密なプロセスでおこなわれた〈統計学的仮説検定〉の結果であれば,真実の正しい推定である可能性は高い(とはいえ通例 5 % のαエラーや 20 %のβエラーは包含する)と言えますが,そうでない場合には「エラー」や「バイアス」がさらに多く包含されることになります。

「仮説検証」や「仮説探索/提唱」という言葉は,端的に言えばそうした科学的信頼性の違いを意味しており,以下の様にまとめることができます(▼)。

仮説検証と仮説探索の違い
  • 仮説検証:バイアスやエラーを厳に抑えた上で慎重に行う統計学的仮説検定
  • 仮説探索(生成):バイアスやエラーの可能性はさておき,片っ端から統計学的検定を行って「一見有意」なものを見つけ「検証すべき仮説」として〈提唱〉すること

今回の記事ではこの仮説検証という概念について掘り下げてみたいと思います。

*)こうした二値的判断に終始することの是非には議論もありますが,ここでは割愛します。
検定についてはコチラ

〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]

仮説検証と仮説探索の違い

科学的な「仮説検証」の手順

仮説の〈検証〉とは,バイアスやエラーを避けるための厳密なプロセス、、、、、、、を踏んだうえで行われる〈統計的仮説検定〉で「有意」かどうかを判定することです。

そのため原則的には,

ランダム化比較試験 RCT でしか厳密な仮説〈検証〉は難しい

とされています。しかもただデザインが RCT であればよいというだけではありません。RCT の中でも以下のような厳密なプロセスで扱われた唯一無二の〈主要アウトカム primary outcome〉だけが,〈検証〉を受けた仮説であるとして扱われます(▼)。

RCTによる仮説 の〈検証〉
  1. あらかじめ検証する「1つの仮説」を開示
  2. 採用する統計手法も含め,研究プロトコルを開示
  3. 必要十分な参加者数を計算(検出力分析 power analysis
  4. 公的データベースにそれらを事前公開(clinicaltrials.gov など)
  5. 参加者をリクルート開始
  6. データを集め「本当に"差"があるのか?」と検証する
事前にプロトコルを開示しない研究(ほとんどの観察研究など)では後付けで自由な解析ができてしまうため,「見かけ上の有意差」のウラに多重検定や cherry picking があった可能性を否定できません。そのため仮説の〈検証〉として扱うことが困難なのです。
─ ads ─

後付け解析は「探索」扱い

重要な点は,同じ RCT の結果であっても,プロトコルに事前公開した手法以外での解析は〈後付け解析 post-hoc analysis〉とみなされる,ということです。

そのような後出しジャンケンはバイアスのリスクが高いと考えられ「検証された仮説」とみなされません。

二次アウトカムも〈提唱〉扱い

同様に〈二次アウトカム secondary outcome〉も基本的には仮説「探索」や仮説〈提唱〉の扱いとなります。結果が〈統計的に有意〉であったとしても,〈検証〉された事実としては扱われません。

その理由としては以下が挙げられます。

二次アウトカムの検定結果の信頼性が低い理由
  1. 事前の〈検出力分析〉をしていない(βエラーの可能性)
  2. 仮説検定を繰り返せば,偶然「有意」となる項目がいつか必ず現れる(αエラーの可能性|多重検定の問題)
  3. 主要アウトカムが発生した時点で追跡終了となるデザインではイベントの集計自体が偏ることがある(=バイアスのリスク)

検出力分析(サンプルサイズ計算)がされていない問題

検出力分析 power analysis とは,端的に言えば「必要十分なサンプルサイズをきちんと計算すること」です。

このプロセスは〈主要アウトカム〉に対してしか行われません。そこが第一の問題点です。

合わせて読みたい

この記事では,RCT を読む時の必須知識の1つ, 〈検出力分析〉パワー分析;power analysis について解説します。 最初に本項のまとめを示します(▼) パワー分析に関するポイントまとめ パワー分析 ──〈統計学的[…]

サンプルサイズが不適切な時の問題

サンプルサイズが小さいと,「小さいけれど確かにある差」を〈統計的有意差〉として検出することができません(=βエラー)。数理学的に「偶然の誤差」と判定されることになってしまいます。また逆に,極端なチャンピオンケースがあったとき,平均を上に引き上げてしまうこともあります。

サンプルサイズが大きすぎるのも問題で,リソースの無駄遣いですし,臨床的に意味のない差まで〈統計的有意〉として検出してしまうことがあります(▼)。

そのため「1つの仮説を検証するために必要十分、、、、なサンプルサイズを計算した上で集める」というプロセスが重要になります。

このプロセスを踏んでいない仮説は「検証的」なものとみなすことができません。

合わせて読みたい

この記事では,ランダム化比較試験 RCT における サンプルサイズ(n)の重要性 についてまとめます。 例によって,最初にこの記事のまとめを示します! この記事のまとめ サンプルサイズは小さ過ぎても大き過ぎても問題 […]

多重検定の問題

他にも,〈二次アウトカム〉は多重検定(多重比較)のによってαエラーのリスクが高くなっていることが多い,という問題もあります。

「5%の有意水準」を採択したまま,無数に仮説検定を続ければ,いつかは必ず p<0.05 となる検定結果が得られます。

二次評価項目を 10 個設定して,10 回 検定を行えば,その全てが「本当は差がない」ものだったとしても,標本のランダム性のみによって「たまたままぐれ当たり」を起こすものが出てきてしまいます。

その確率は,

$$ 1-0.95^{10}=0.40\left( =40\% \right) $$

もあります。

このような場合に〈統計的有意差〉がある項目を見つけても,それが「多重検定によって『掘り出された偶然』」なのか「本当に意味のある差」なのか区別できません

ボンフェローニ法や FDR 法などによる補正をきちんと行なっていれば,この限りではありません。

とにかく〈二次アウトカム〉の解析結果は,バイアスやエラーを包含している可能性が高いということです。

主要アウトカムだけが特別

上述したような〈統計的問題〉があるため,とにかく厳密なプロセスを踏んで検定された只一つの〈主要アウトカム〉primary outcome だけが〈検証〉を受けた仮説とみなされることになります。

そうでないものは,すべて「探索」ないし〈提唱〉された仮説に過ぎないと考えるのが基本的な姿勢です(▼)。

小難しいことはさておき「厳密なプロセス」を踏まないものは全て「仮説探索」である,という解釈で OK です。「仮説探索」は「とにかく統計ソフトで有意かどうか判定しまくる」ようなイメージです。その中で何か面白い仮説を見出すことができれば,じゃあ実際に RCT で〈検証〉してみましょう,となるわけです。

厳密にはこうした考え方には一部 controversial な部分もあるのですが,ひとまず現時点では上記のような理解でよいと思います。

検証的臨床試験と探索的臨床試験

臨床試験 clinical trials も,その性質が「検証的」であるか「探索的」であるかによって大きく区別されます。

つまり「検証的臨床試験」と「探索的臨床試験」というものがあります。

検証的臨床試験

先述した様に

  1. あらかじめ検証する「1つの仮説」を開示
  2. 採用する統計手法も含め,研究プロトコルを開示
  3. 必要十分な参加者数を計算(power analysis
  4. 公的データベースにそれらを事前公開(clinicaltrials.gov など)
  5. 参加者をリクルート開始
  6. データを集め「本当に"差"があるのか?」と検証する

という厳密なプロセスを踏んで行われる新薬の RCT だけが〈検証的臨床試験 confirmatory trial〉とされます。

これは新薬の開発プロセスにおいて俗に〈第 III 相試験〉と呼ばれるもので,信頼性の高い RCT として他の試験とは区別されます(▼)。

探索的臨床試験

逆に,上記のような厳密なプロセスを踏まない臨床試験は,同じ RCT と言えども信頼性のランクが一段落ちてしまいます。

「ごく少人数で効能の感触をたしかめる」ようなパイロット試験や,「適切な用法用量を見極めるため少人数ずつに薬剤を投与する」ような RCT が,それにあたります。

そのような試験は〈探索的臨床試験 exploratory trial〉と呼ばれ,新薬の開発過程においては俗に〈第 II 相試験〉と呼ばれます。

新薬開発では検証的臨床試験が必須

なお,〈第 III 相試験〉できちんと有効性を〈検証〉することは,薬剤承認申請のために「原則必須」のプロセスとされています。

なんらか重大な事情があり特例的に〈第 III 相試験〉をスキップして承認申請に至る手法もありますが,「実は効かない」「実は害が大きい」といったことが後から顕在化する可能性もあり,リスクの高い行為です(▼)。

特例承認の問題はコチラ

この記事ではCOVID-19 関連で注目度が高くなっており,また混乱のタネになっている様にも思われる医薬品の〈迅速承認〉制度についてまとめます。 以下〈承認〉と記載する場合は,いわゆる〈薬事承認〉を指すものとします。 〈承認〉を受ける=[…]

観察研究の立ち位置

ここまで,〈ランダム化比較試験 RCT〉の中でも厳密なプロセスを踏んだものだけが「検証的」であるとして区別される,ということを述べてきました。

しかし医学研究には〈ランダム化比較試験〉以外の研究もあります。たとえばコホート研究や横断研究,症例対照研究といった〈観察研究〉たちです。

こうした〈観察研究〉たちの結果については,どう解釈すべきでしょうか。

観察研究は無法地帯

「検証的」かどうか?という話をするのであれば, 観察研究は無法地帯です。

第 III 相試験などと異なり,研究者はあらかじめ「統計解析手法」やプロトコルを開示しているわけではありません。

「統計解析に用いるデータとして何を抽出して何を除外するか」という選択も自由です。統計モデルに何を使い,どう補正するかも自由です。つまり主張したい結論に合わせた恣意的調整が可能です。

言うなれば全てのプロセスで後出しジャンケンが可能だということです。

無数に仮説を設定して統計ソフトに入れまくり,多重検定を行い,たまたま p値が低くなるような補正モデルだけを採択し,あたかも「もともとそういう仮説を考えていましたよ」と後付けで仮説設定を行うことも容易です(=p値ハッキング,HARKing)。

このような p値と,RCT で事前開示されたプロトコルに沿って検定された p値を同じものと見做せるわけがありません。

HARKing:Hypothesizing After the Results are Known

観察研究で〈検証〉はできない

こうした「結果の信頼性に関わる問題」を構造的に解決できない以上,

〈観察研究〉で仮説の真偽を〈検証〉することは難しい

と考えられます。

ですから,観察研究で何か〈有意〉なものがあったからと言って,それがあたかも真実であるかのような強い主張をすべきでありません。

それは〈たまたま有意〉になっただけのデータを見つけてしまっただけ(=αエラー)かもしれませんし,研究者の目的に引きづられて〈生み出された有意〉(=バイアス)かもしれないからです。

しかし,〈提唱〉された仮説が興味深いのであれば,あるいは現場の感覚をよく反映しているのであれば,その結果を踏まえた上でどうするか?というアクションプランにつなげることはできます。

「薬効」に関しては,次なるステップとして「厳密にデザインした RCT」などでの検証を検討するのもよいかもしれません。

この様に仮説を「探索」し〈提唱〉することこそが,〈観察研究〉の目的であると言えます(▼)。

|メタ解析に関して「よくある誤解」
なお「観察研究のメタ解析」はあくまで〈観察研究の集合体〉であり,仮説「検証的」なものとしては使えない,という点に注意が必要です。ときどき「観察研究のメタ解析」の方が RCT よりも「エビデンスレベルが高い」と解釈しているかの様な報道・記事を見かけますが,かなり危険な誤解です。厳密な因果関係の推定には,現状 RCT 以上のものは存在しません。「良質な RCT のメタ解析」であれば,仮説〈検証〉的なものとして解釈できますが,RCT であっても低質であったり後付け解析結果をメタ解析したものであれば,やはりこれはバイアスのリスクが高く仮説〈提唱〉的なものと考えられます(上図)。メタ解析の質は「何を統合するか」という元の研究の信頼性に依存しています。

観察研究は「検証的」でない場面でこそ光る

なお仮説検証という観点だけで見ているとなにやら〈観察研究〉が「ランダム化比較試験に劣るもの」のように思えてしまうかもしれませんが,それは誤りです。

たしかに観察研究は「薬剤の有効性を検証する」ことには向きません。しかし,他に光る場面があります。

たとえば 「害の研究」に関しては,観察研究の独壇場 です。

ランダム化比較試験は「害」に無力

倫理的な問題があるため,「害」は RCT で検証することができません。タバコの発癌性を調べるために参加者を強制的に「喫煙させる群」と「させない群」に割り付けて検証できない,というのは説明するまでもないでしょう。

その様な場面でこそ,後方視的に「要因に暴露した人」と「そうでない人」を比較し,明らかに発癌性が多いかどうか,といったアプローチで行う観察研究が真価を発揮します。

こうした仮説は RCT による「厳密な検証手段」で立証することこそできませんが,仮説提唱であっても信頼性が高いデザインで慎重に述べられたものであれば,その後のプラン(=害を避けるためのアクション)に繋ぐことはできます。

あえて厳密に〈検証〉しなくても,害をきたす可能性が高そうなのであれば,シンプルに避ければよいのですから,それで OK です。

タバコの害については,実際こうしたプロセスで発癌性を指摘され,現在の法的規制に至っています。

同様に「薬の稀で重篤な副反応」や「薬剤相互作用」などは,必ず記述研究(症例報告など)や観察研究における害の報告から順に明らかになっていくものです。

「まれで重篤な副反応」は滅多に起きないため,〈第 III 相試験〉程度の RCT のサンプルサイズでは検出できません。しかし数少ない誰かには「確かに起きる」ものであり,重篤な影響を与えます。こうした〈害〉を「偶然だよね」で片付けないために,適切な「症例報告」とその集積,その上で行われる「観察研究」が重要なのです。

研究デザインの向き・不向き

このように,あらゆる臨床的疑問には必ず「適した研究デザイン」が存在します。

しかし最も重要なことは,

その薬剤(介入)は本当に有効、、なのか?

という「効能」に関する仮説をキチンと検証、、したいとき,最も適した研究のデザインは「厳密なプロセスを経て行われる RCT」であるということです。

というより,信頼性の高い〈検証〉の手法は,現在ほとんど「それしかない、、、、、、」というのが現状です。

その他の研究デザインで主張された「統計的な有意性」は,真実の推定として信頼性の高い〈検証〉結果ではありません。あくまで「探索」され〈提唱〉されたに過ぎないと考えるべきです。

この点は非常に混同されることが多く,注意が必要です。

医薬品のリテラシーとして

上記の内容を理解していないと,ごく小規模な RCT の〈二次アウトカム〉でたまたま良かった結果を「過度に一般化」してしまったり,〈観察研究〉で〈提唱〉されたに過ぎない仮説を「検証された真実」であるかのように誤解してしまうことになります。

実際その様なメディア報道は多く見かけ,問題に感じています。

その研究は仮説「探索」〈提唱〉 的なものなのか?
仮説〈検証〉的なものなのか?

という区別は,医薬品リテラシーの基本として多くの人に知っておいていただきたいポイントです。

過度な一般化の問題については,Youtube で動画にもまとめていますので,合わせてチェックいただけたら嬉しいです|動画

まとめ

仮説検証と仮説探索の違い
  • 仮説検証:バイアスやエラーを厳に抑えた上で慎重に行う統計学的仮説検定
  • 仮説探索(生成):バイアスやエラーの可能性はさておき,片っ端から統計学的検定を行って「一見有意」なものを見つけ「検証すべき仮説」として〈提唱〉すること
|専門用語を使うと:
  • 仮説検証:試験デザイン自体のバイアスリスクを抑えた上で,事前にプロトコルを開示してαエラー・βエラーも厳密に抑えながら施行した〈統計学的仮説検定〉
  • 仮説提唱:試験デザイン自体のバイアスのリスクや,多重検定によるαエラー,検出力分析を行わないことによるβエラー,といったリスクは全て傍に置いておいて,とにかくおこなった〈統計学的仮説検定〉

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG