医学論文の批判的吟味をするため身につけるべき基本知識 45

どんなクスリ、、、にも,必ず表裏一体のリスク、、、があります。重要なのは適応症例をきちんと見極め,既存のデータから「Risk/Benefit の見積もりを立てる」ことです。

そのためには,おクスリなどの治療介入が薬事収載されるに至った〈第III相試験〉や,市販後 RCT の結果を批判的に吟味できるようになる必要があります。

批判的吟味の手法を学べば,さして benefit のない無駄な介入をし続けずに済むかもしれません。

批判的吟味のための基礎知識 45

しかしRCT に限ってみても,その中身をきちんと清濁あわせ吞んで解釈するには相応の基礎知識が必要となります。

この記事では,そうした基礎知識として重要と思われる項目について列記してみます。

以下の全てを自分の言葉で噛み砕き,他の人に説明できる状態になれば,医学文献に関する〈批判的吟味〉のスキルは最低限身につけられたことの証となるハズです。

キーワード付きでかなり端的に列記していきますので,「自分の言葉で人に説明できるか」イメージして頂き,アウトプットに活用していただければ幸いです。

なお,当サイトでは以下の全てに対して解説記事を用意していきたいと思っています。つまり以下は私自身のロードマップでもあります。コツコツ解説記事をあげていきたいと思いますので,気長にお付き合い頂ければ幸いです!

データ要約に関する 7 ポイント

  1. 平均値と中央値の違いを説明できる
  2. 標準偏差 SD とは何か説明できる
  3. 四分位範囲 IQR とは何か説明できる
  4. 割合 proportion と 率 rate の違いを説明できる
  5. 有病率 prevalence と 罹患率 morbidity の違いを説明できる
  6. オッズ比 OR,リスク比 RR の違いを説明できる
  7. ハザード比 HR とは何か,リスク比 RR との違いを説明できる

1. 平均値 mean と中央値 median の違いを説明できる

いずれも〈代表値〉の一種.中央値はデータの分布によらず妥当な要約になりやすい.いっぽう平均値は正規分布や標準偏差との相性がよく,推測統計やアウトカム評価で主役となる.
詳細はコチラ

本項で解説する内容 平均値も中央値も,いずれもデータ全体の〈代表値〉 データの分布が歪んでいるとき:中央値 median データが正規分布に近いとき:平均値 mean 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる […]

平均値と中央値
─ ads ─

2. 標準偏差 SD とは何か説明できる

標準偏差 SD は,平均からの偏差の二乗平均(=分散)の平方根.散布度(データのバラツキの指標)の一種である.定義から明確なように平均値との親和性が高い.そのため論文等のデータ要約で代表値として平均値を記すとき,横に併記する散布度は標準偏差とすることが多い.正規分布との関係,1.96 SD の 95%ルール,チェビシェフの不等式などが重要.
詳細はコチラ

本項の解説内容 標準偏差 SD はデータのバラツキ具合を表す指標(=散布度)の 1つ 計算方法:〈平均からの偏差〉の〈二乗平均〉の平方根 標準偏差が大きい = 平均から離れたデータが多い = 散らばり大 データが正規分布に沿うとき,95 […]

3. 四分位範囲 IQR とは何か説明できる

四分位範囲 IQR は,データの真ん中 50%.つまり 25パーセンタイル値〜75パーセンタイル値.散布度(データのバラツキの指標)の一種である.データ全体を中央値の上下で2つに分け,その分割データのさらに中央値を取ると4分割できる(第一四分位数・第二四分位数・第三四分位数・第四四分位数).そのうち第二四分位数〜第三四分位数の範囲.定義から明確なように中央値との親和性が高い.そのため論文等のデータ要約で代表値として中央値を記すとき,横に併記する散布度は四分位範囲とすることが多い.

┗━▶︎ 解説動画はコチラ

4. 割合 proportion と 率 rate の違いを説明できる

割合 proportionは「ある時点で全体のうち特定集団が占める部分(%)」で,単位に時間的概念を含まない.いっぽう比 rate は「単位人年あたりの発症者数」(人年法)で,単位に時間的概念を含む.
詳細はコチラ

今回の記事では,特に誤用や誤解の多い〈割合〉と〈比〉と〈率〉の違いについて簡潔にまとめます。 本頁で扱う内容のまとめ 〈割合 proportion〉 ── 時間的概念を含まない|単位 % 〈率 rate〉 ── 時間的概念を[…]

5. 有病率 prevalence と 罹患率 morbidity の違いを説明できる

有病率 prevalence は,ある一時点において,実際に疾病を有している人の割合.時間的概念を含まない横断的な指標.いっぽう 罹患率 morbidity は,一定期間にどれだけの疾病(健康障害)が発生したか(/10万人年)を表し,時間的概念を含む.

解説記事は同上。

6. オッズ比 OR,リスク比 RR の違いを説明できる

オッズは確率の〈比〉であり,あらゆる研究で定義される.リスクは確率そのもの(あるいは観測集団内での発症割合)であり,「前向きに観測・追跡される集団」がなければ定義できない.リスク比は「X倍」と言ってもそのまま意味が通るが,オッズ比は〈比の比〉であり,「X倍」と言っても直感的には解釈できない点に注意が必要.
詳細はコチラ

この記事では「オッズとは何か?」「オッズ比とリスク比の違いは何か?」についてまとめます。 いきなりまとめ:本項のポイント オッズは〈比〉;あらゆる研究で定義される リスクは〈割合〉;前向きに「追跡される集団」がなければ定義できない […]

7. ハザード比 HR とは何か,リスク比 RR との違いを説明できる

ハザード比 HR は「生存時間解析」で用いる評価指標.あるイベントが起きる「起きやすさ」について扱う指標である点はリスク比 RR と同様.両者の最大の違いは「対象者が追跡期間中のいつイベントを起こしたか」という時間的要素を考慮するかどうか.リスク比 RR の算出においては時間的要素は一切考慮されず,治験開始直後におきた1イベントも長期間経過後におきた1イベントも同じ1イベントとして扱われる.いっぽうハザード比では初回イベント発症までの「時間」を扱うため,どのくらいすぐにイベントを起こすかということを加味した指標になる.ただし「その時々の瞬間加速度の比」をモデル化して算出するものであるため,ハザード比の直感的な解釈は困難である.

※解説記事は準備中。

推測統計に関する 8 ポイント

  1. 記述統計と推測統計の違いを説明できる
  2. 標準偏差 SD と標準誤差 SE の違いを説明できる
  3. 95% 信頼区間 CI の意味を説明できる
  4. p-value(p値)とは何か説明できる
  5. αエラー と βエラー の違いを説明できる
  6. 片側検定と両側検定の違いについて説明できる
  7. 「統計的に有意」とならなかったときの結論を説明できる
  8. 多重検定・多重比較の問題について説明できる

1. 記述統計と推測統計の違いを説明できる

手元の標本データを単に要約する(=平均や標準偏差を単に求める)のが記述統計.標本データを「母集団からランダム抽出されたもの」としてモデル化し,母集団のパラメタを推測しようとする手法が推測統計.記述疫学や症例報告を除いた医学論文の大半は,推測統計の世界観を前提にしている.

┗━▶︎ 解説動画はコチラ

2. 標準偏差 SD と標準誤差 SE の違いを説明できる

標準誤差 SE は「ランダム抽出された標本データが,母集団のパラメタ(=母数)から確率的にブレる幅の指標」のこと.推測統計の世界観でしか登場しない概念.たとえば平均値であれば,母平均μを直接求めることは困難であるため,かわりに標本調査をして標本平均を求め,そこから母平均のありうる区間を絞り込もうと考える.しかしその標本平均はあくまで母集団からランダム抽出してたまたま得られたものに過ぎない.つまり理論上「無数にあり得たはずの標本平均」の中のただ1つの実現値でしかない.この「無数にあり得たはずの標本平均」は確率変数 \( \bar{X} \) として扱うことができる.そしてその \(\bar{X}\) の確率分布は母平均μを中心とした正規分布に収束することが知られている(=中心極限定理).そのようなバーチャルな確率分布(=標本平均の確率分布)として形成された正規分布の裾野の幅(=標準偏差 SD にあたるもの)のことを,特別に標準誤差(SE)と呼ぶ.つまり標準誤差は〈推測統計〉の世界観でしか登場しない「特殊な標準偏差」のことである.
文章のみでの説明はどうしても混み入ってしまいますが,下記の動画ではアニメーション付きで上記内容を平易にまとめています。オススメです。

┗━▶︎ 解説動画はコチラ

3. 95% 信頼区間 CI の意味を説明できる

信頼区間は「真の値を含みうると推定される区間」を指す.たとえば 母平均μの推定であれば,95%信頼区間は「標本平均 ± 1.96 SE」に当たる.このとき 95%(=信頼係数)は,「手元の標本平均を有意水準 5%で棄却されない範囲で実現しうるためには,母平均μがありうる上限と下限はここまで」という範囲を示したもの.つまりあくまで「確率的なモデリングの中で手元のこの標本データを得るためには,これよりも外側の範囲に母平均があってしまうと矛盾が大きい(5%以下でしか実現しない稀なデータがたまたま手元に得られたことになるのでおかしい)」という範囲制限に過ぎない.ゆえに(ある1回の抽出標本データとして手元に得られただけの)「この 95%信頼区間が真の値を含む確率は95%ある」と主張するのは誤りである.偶然得られた(もしかしたらバイアスもあるかもしれない)1回の信頼区間の数値に過度な信頼を寄せてしまうことには問題がある.
文章のみでの説明はどうしても混み入ってしまいますが,下記の動画ではアニメーション付きで上記内容を平易にまとめています。オススメです。

┗━▶︎ 解説動画はコチラ

4. P-value(P 値)とは何か説明できる

P値とは(多くの場合)帰無仮説 H0 が正しい(=母集団では差がない)ことを前提にした特定の統計モデルにおいて,ランダム性のみによって「手元に得られたデータ以上に極端なデータ」が得られる確率の総和を指す(*). この null P 値が十分に小さい(=有意水準よりも小さい)時,やはり「 “差がない” という仮説自体が間違っていた」としてこの帰無仮説 H0 を棄却する.注意すべきなのは,P 値は基本的に「観察データと特定の統計モデルの『矛盾なさ compatibility』を示す指標」でしかないということである.統計学的仮説検定を行うとき,その統計モデルにおいては「効果が0である(=帰無仮説が正しい)」という前提で確率計算を行うが,その他にも複数の前提条件を置いている.たとえば RCT であれば「標本の途中脱落に恣意的な偏りがある」「介入以外の治療がアンフェア」といった様々なバイアスは,当然計算外である.確率的に起きる(=ランダムに起きる)標本データのバラツキ以外の要素は,基本的に加味していない.故に null P値が低いということは必ずしも「効果が0でない(=帰無仮説の棄却)」ということを意味しない.統計モデル自体に問題があったり,大きなバイアスを反映していたりすることがある.
(*)帰無仮説「効果θ=0である」を前提とせず「効果θ=xである」といった仮説を前提としたP値も実際には計算可能であるため,帰無仮説を前提とした P値は特に null P値と呼んで区別する.
詳細はコチラ

〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]

5. αエラー と βエラー の違いを説明できる

統計学的仮説検定において,本当は(母集団では)差なんてない(=帰無仮説が正しい)のに,手元の標本から得られたデータを基に帰無仮説を棄却してしまう誤りのことを第一種の過誤(=αエラー)と呼ぶ.逆に,本当は(母集団では)差があるのに,手元の標本から得られたデータから帰無仮説を棄却し損ねてしまう誤りのことを第二種の過誤(=βエラー)と呼ぶ.母集団を直接調査しない〈推測統計〉の世界観においては,標本自体のバラツキや偏りによって,いずれの確率も 0 にすることはできない.医学研究においては通常αエラーの方が厳格に制御されるべきとされている.慣例的には,αの許容範囲は 5%,βの許容範囲は 10〜20% 程度とされることが多い.
詳細はコチラ

この記事では 〈αエラー〉と〈βエラー〉とは何なのか? ということについて,基本的内容に絞ってまとめます。 さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解[…]

6. 片側検定と両側検定の違いについて説明できる

「AとBでは差がない」という帰無仮説を棄却するとき,その方向性(A>BなのかA<Bなのか)を気にするのが片側検定.いずれの方向性であれ構わない(A≠Bを示すだけでよい)と考えるのが両側検定.片側検定は確率分布の一方の裾野にだけ着目するため,両側検定と同じ有意水準を採用してしまうと実質的には 2 倍ユルい判定となる点に注意.医学分野では慣例的に「両側検定で有意水準 5%」が採用されてきた経緯があり,同じ厳しさで有意性の判定をする場合「片側検定では有意水準 2.5 %」としなければならない.
詳細はコチラ

本章では,統計の世界で非常に重視される p=0.05 という〈線引き〉がいかに微妙な、、、ものであるかについて述べます。 本章で扱う内容 有意水準 5 % の「理由」:特にない。感覚的,慣例的に決められた。 有意水準 5 % の「感覚[…]

7. 「統計的に有意」とならなかったときの結論を説明できる

統計学的に有意でないということは「帰無仮説を棄却できない(= “差がない” という仮説を否定できない)」だけであり「帰無仮説が正しい(= “差がない” )ことを証明する」わけではない.つまり帰無仮説に関する判定が保留になるだけである.また,ある研究で有意にならなくても,サンプルサイズを大きくするだけで P 値は小さくなるため,有意差として検出される可能性はある点に注意.しかしサンプルサイズはいたずらに大きくすればいわけでもない.臨床的意義の小さい些細な差まで検出しすぎる可能性があるためである.
詳細はコチラ

〈統計学的に有意な差〉とは? 今やどんな研究論文でも,あるいはビジネスシーンでも,〈統計学的に有意〉 significant という言葉をよく目にします。しかし 「統計学的に有意な差」ってどういう意味ですか? と聞かれた時,その[…]

8. 多重検定・多重比較の問題とは何か説明できる

検定する「仮説」を何度も何度も入れ替えて統計学的仮説検定を行いつづければ,いつか必ず P 値が低くなる「仮説」を見つけ出すことができる.しかしそれは「手元のデータセットに対して過度に適合した偏り」を一生懸命見つけ出すだけの行為に過ぎない.そのような偏りを見つけたところで,母集団に一般化しにくくなることは自明である.そのため同じ有意水準で検定し続けて P値が低い仮説を見つけたからといって「有意性」を主張することはできない.仮説探索としては許されるが,少なくとも仮説検証として扱われることはない(ボンフェローニ法など多重性の補正を行う場合は別).

┗━▶︎ 解説動画はコチラ

臨床研究に関する4ポイント

  1. 前向き試験と後ろ向き試験の違いを説明できる
  2. 観察研究と介入研究の違いを説明できる
  3. 仮説検証と仮説探索の違いを説明できる
  4. 臨床試験の phase I ~ IV の違い について説明できる

1. 前向き試験と後ろ向き試験の違いを説明できる

Exposure の測定が Outcomeの測定に先行していれば前向き試験,逆であれば後ろ向き試験.同時であれば横断試験.

2. 観察研究と介入研究の違いを説明できる

交絡因子

3. 〈検証的〉と〈探索的〉の違いを説明できる

primary,secondary,多重検定
詳細はコチラ

この記事では,医薬品に関するリテラシーとして必須知識である 「仮説検証」と「仮説探索/提唱」の違い について解説します。 「統計的に有意」は等価ではない 医学研究には多くの種類がありますが,ほとんどの研究で最終的に〈統計的に有意[…]

4. 臨床試験の phase I ~ IV の違い について説明できる

毒性,用法用量,検証,安全性

RCT に関する 20 ポイント

ランダム化比較試験 RCT は新薬や新しい介入の効果を「推定」する際,最も厳格で信頼性の高い手法です。しかし試験対象者の選択,割り付け,途中脱落,アウトカム評価,データ解析,全ての段階でそれぞれ固有のバイアスリスクがあり,読者が注意すべき点は多くあります(▼)。

ランダム化比較試験 RCT で確認すべきポイント
  1. 対象者(Patient/Participant)の選択
    • その標本データはどこまで一般化できるか
  2. 治療群/対照群への割り付け
    • 本当にフェアな割り付けになっていたか
  3. 追跡過程(途中脱落)
    • 偏った途中脱落がなく,ランダム化は維持されているか
  4. アウトカムの評価
    • 本質的かつ普遍性のある評価項目で,効果量は十分か
  5. データ解析
    • 効果の頑健性を確かめるため複数の統計手法結果を提示しているか
    • 都合のよい cherry picking はしていないか

以下の 20 の質問に答えることができれば,上記の判断もある程度スムーズに可能になるでしょう。

RCT 〜Patient 編〜 5 ポイント

1. Eligible criteriaを読むときのポイントを説明できる

選択バイアス,準母集団

2. Table 1(背景因子)を見るときのポイントを説明できる

群間不均衡

3. power analysis とは何か説明できる

βエラー,サンプルサイズ

4. ITT解析と Per-protocol 解析の違いを説明できる

ランダム化の維持

5. 欠測データがあることによるバイアスリスクについて説明できる

ランダム化の維持

RCT 〜 I/C 編〜 3 ポイント

I/C: intervention/control

1. 割付けの隠蔽化 conceal の手法を説明できる

中央割付け

2. 割り付けの盲検化 masking の段階を説明できる

open~4重盲検

3. PROBE法とは何か,問題点について説明できる

実質 open 試験,プラセボ効果,ホーソン効果

RCT 〜Outcome編〜 7 ポイント

1. 主要エンドポイント primary endpoint とは何か説明できる

帰無仮説,power,多重検定
詳細はコチラ

この記事では,「医学系 RCT を正しく読む」ための必須知識となる,エンドポイントの種類についてまとめます。 エンドポイントの種類まとめ 真のエンドポイントと代用エンドポイント ハードエンドポイントとソフトエンドポイント 主要エンドポイ[…]

2. 代用エンドポイント surrogate endpoint とは何か説明できる

真のエンドポイント

┗━▶︎ 解説記事は同上。

3. ソフトエンドポイントとハードエンドポイントの違いを説明できる

主観

┗━▶︎ 解説記事は同上。

4. 複合エンドポイント composite endpointとは何か説明できる

福袋

┗━▶︎ 解説記事は同上。

5. 試験途中でエンドポイントが変更された履歴の見方を説明できる

clinicaltrials.gov,プロトコル論文
詳細はコチラ

この記事は医療関係者の方向けです 製薬会社さんが配る薬剤パンフレットを見ると,立派なジャーナルに載った 立派な RCT の結果が必ず載っています。そしていつも「いい感じにまとまった図表」がバンと貼ってあり,大変目を引きます。 どうやら統[…]

6. spin とは何か説明できる

主要エンドポイント,二次エンドポイント

┗━▶︎ 解説記事は同上。

7. NNT/NNHとは何か説明できる

絶対リスク差ARR,effect size

RCT 〜解析編〜 5 ポイント

1. 中間解析で途中終了することの問題点について説明できる

power,先行試験以上,バイアス

2. 検出力分析 power analysis とは何か説明できる

βエラー,サンプルサイズ
詳細はコチラ

この記事では,RCT を読む時の必須知識の1つ, 〈検出力分析〉パワー分析;power analysis について解説します。 最初に本項のまとめを示します(▼) パワー分析に関するポイントまとめ パワー分析 ──〈統計学的[…]

3. 感度分析 sensitivity analysis とは何か説明できる

頑健性

4. 多重検定の補正法の代表例について説明できる

ボンフェローニ法

5. 欠測データの補完方法について説明できる

full complete,ベストシナリオ,ワーストシナリオ,MOR

SR & MA に関する 3 ポイント

1. システマティックレビューとメタ解析の違いを説明できる

系統的な抽出,吟味,統合

2. フォレストプロットの見方を説明できる

重み付け,菱形

3. 出版バイアスとは何か,SR/MAに対する影響を説明できる

funnel プロット

代表的な統計解析に関する 3 ポイント

1. 回帰分析とは何か説明できる

説明変数,結果変数,単回帰,重回帰

2. ロジスティック回帰 logistic regression とは何か説明できる

アウトカムが 0-1

3. Cox比例ハザードモデルの概観と弱点について説明できる

生存関数,ハザード関数,比例ハザード性の前提

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG