【解説】感度・特異度・的中率とは?|事前確率の重要性

|この記事はどちらかと言うと医療職の方向けです

COVID-19 のパンデミックで,世間でも検査の〈感度〉や〈特異度〉という言葉自体の知名度は上がったように感じます。

しかしこれらをしっかり理解して使うことは,実は言うほど簡単ではありません。また,そもそも単一研究で算出された〈感度〉や〈特異度〉から言えることには限界もあります。

この記事では,医療職の中でも誤解の多い「感度・特異度」について,まず基本的な以下の事項をまとめます。

感度・特異度の基本事項

  • 感度 ── 陽性となるべきものを陽性と判定できる確率
  • 特異度 ── 陰性となるべきものを陰性と判定できる確率
  • 感度・特異度は現場の思考プロセスと順序が逆
  • 病気の人が検査陽性になる確率が〈感度〉で,検査陽性の人が本当に病気である確率は〈陽性的中率〉。現場で求められるのは後者。
  • 的中率に大きな影響を与えるものは感度・特異度より〈事前確率〉
次回以降,感度・特異度のピットフォールについてより深く考えていきたいと思います。

まず触りとして,以下の問題について考えてみてください(▼)。

問題

  • 背中の痛みを訴えて外来を受診した人がいた。
  • その病歴と身体診察から,医師は「診断が尿路結石である確率」を 50 % 程度と見積もった。
  • その後,尿検査をおこなったところ,尿中赤血球を認めた。
  • この所見は「尿路結石症の診断」に対し 感度 80 %,特異度 96 % である。
  • これにより「診断が尿路結石症である確率」はいくつになったか?
|略解(クリック展開)
95%(解説は記事後半にて)

この問題にスムーズに解答できる方は,おそらく基本的な内容はしっかりマスターされていると思いますので,この記事はざっと飛ばしていただき,ぜひ直接次の記事をご覧ください。

もしこの問題の解法がすぐに思い浮かばなかった方は,是非この記事で基本をマスターしていただければと思います!

感度・特異度

まずは教科書的な内容をおさらいしていきましょう。

感度とは

感度とは

検査で「陽性」と判定されるべきものを,正しく「陽性」と判定する確率

です。

すなわち「疾患あり」の人が,ただしく「検査陽性」となる割合(確率)です(▼)。

陽性的中率と感度

2×2 表における感度

疾患あり疾患なし
検査陽性ab
検査陰性cd
a+cb+d

この表において,感度 Se は

$$ Se=\frac{a}{a+c} $$

と示すことができます。

─ ads ─

感度が高い・低い

「感度が高い」ということは「陽性と判定されるべきものを間違って陰性と判定する可能性が低い」という意味になります。つまり偽陰性が少なく,見逃しが少ない,ということです。

先程の表で言えば,c(疾患ありなのに検査陰性) が a(疾患ありで検査陽性)に対して十分小さい,ということです(▼)。

$$ Se=\frac{a}{a+c} $$

逆に「感度が低い」ということは,偽陰性率が高い,つまり見逃しが多いということです。

感度が高い検査の用途

感度が高い検査は除外目的、、、、,あるいはスクリーニング目的に用います。

コストが安く,簡潔な手段で「重篤な疾患の可能性を下げられる」検査が,スクリーニングとしては有用な検査です。

例)大腸がん検診での便潜血検査や,乳癌に対するマンモグラフィー

特異度とは

いっぽう特異度とは,

検査で「陰性」と判定されるべきものを,正しく「陰性」と判定する確率

です。

すなわち「疾患なし」の人が,ただしく「陰性」となる割合(確率)です(▼)。

陰性的中率と特異度

2×2 表における特異度

疾患あり疾患なし
検査陽性ab
検査陰性cd
a+cb+d

この表において,特異度 Sp は

$$ Sp=\frac{d}{b+d} $$

と示すことができます。

特異度が高い・低い

「特異度が高い」とは,「陰性と判定されるべきものを誤って陽性と判定する可能性が低い」という意味になります。つまり偽陽性が少なく,過剰診断が少ない,ということです。

先程の数式で言えばこの b(疾患なしなのに検査陽性) が d(疾患なしで検査陰性)に対して十分小さい,ということです(▼)。

$$ Sp=\frac{d}{b+d} $$

「ある疾患に特異的な検査」ということは,その疾患以外ではほとんど陽性になりえない,ということであり,「特異的」という言葉通りの意味になります。

逆に「特異度が低い」ということは,偽陽性率が高い,つまり過剰診断が多いということです。

特異度の高い検査の用途

特異度の高い検査は「診断の確定目的、、、、」に用います。

つまり日常臨床では「その検査をやると決めた時点で,医者の頭のなかでほとんど結論はついている(検査前確率が十分高く見積もられている)」ということです。

その上で確認のために用いるのが,特異度の高い検査です。

多くは高価であったり侵襲的であったりして,検査を行う閾値自体が高いものです。

例)生検検査など

一見とても重要そうな指標だが…?

感度・特異度は「診断学」においてしばしば引き合いに出される指標ですが,実は臨床現場では直感的に解釈することが困難です。

むしろ本質的な理解がなされないままに誤用されていることが多く,注意を要します。

実は解釈が厄介な感度・特異度

そもそも,

感度や特異度は「検査ツールの正確性」をはかる指標

でしかありません。

主語が患者ではない

計算方法からわかるように,感度や特異度というものは,「すでに結論(診断)がついている」ものを,どれだけ正確に拾い上げられるか,という指標です。

つまり

感度や特異度の主語は「検査」であり「患者」ではない

ということです。

すこし抽象的でわかりにくいと思うので,一例として,マンモグラフィのことを考えてみましょう。

マンモグラフィが陽性なら乳がんか?

ある研究において,乳癌に対するマンモグラフィ検査は,感度が 84 %,特異度が 92% であるというデータがあります。

では,私たちがもし検診のマンモグラフィで「検査陽性」になってしまったら,84% の確率で実際に乳癌なのでしょうか?

もちろんそうではありません。

乳癌診断に対する感度が 84 %ということは,その研究において,「すでに(あるいは後ほど)乳癌であると確定、、、、、、された人」の中で,マンモグラフィーで正しく「陽性」と判定できた人の割合が,84 %であった,ということです。

また,特異度が 92 %ということは,その研究において,「すでに(あるいは後ほど)乳癌でないと確定、、、、、、された人」の中で,マンモグラフィーで正しく「陰性」と判定できた人の割合が,92 %であった,ということです。

いずれにせよ診断は別の手段で「確定」されています。そして感度も特異度も,その「確定された結果」とどの程度合致していたか,というのを事後的に確認したものに過ぎません。

ここに本末転倒の構造が存在します。

当然ながら,臨床現場で「はじめから乳癌と確定している人」にスクリーニング目的でマンモグラフィーを行うことはないからです。

乳がんの人をすくい上げるためにおこなうのが検診であって,そのためのマンモグラフィーです。

本来知りたいのは「的中率」

つまり〈感度〉や〈特異度〉という概念は

現実世界の思考プロセスと順序が逆転している

ということが問題です。

医師も患者も,知りたいのは「本当に病気なのか?」ということであり,このとき,主語は「検査」ではなく「患者」です。

知りたいのは「その検査が、、、、、病気を適切に判定できるか(=感度・特異度)」ではありません。

患者さんが、、、、、検査陽性となったとき,本当に病気である確率(=陽性的中率)
患者さんが、、、、、検査陰性となったとき,本当に病気でない確率(=陰性的中率)

こそが,臨床現場で求められるものです。

陽性的中率 PPV と感度 SE の関係性を示した図

感度は「本当に病気」であることが確定している人の中で,検査が何 % 陽性であったか,というもの。通常の診療の順序とは逆になっている。

陰性的中率 NPV と特異度 SP の関係性を示した図

特異度は「本当に病気でない」ことが確定している人の中で,検査が何 % 陰性であったか,というもの。通常の診療の順序とは逆になっている。

事前リスクの重要性

重要なことは,〈的中率〉に対して最大の影響を与える因子は,感度でも特異度でもなく,事前リスクの見積もりである,ということです。

引き続きマンモグラフィーの例で考えてみましょう。

マンモグラフィーを 10 万人に行うと?

今,ここに

A 国では 40 代女性の 1000 人に 1 人が乳癌を罹患する

というデータがあるとします。

この A 国の女性 10 万人の対象者に,乳がんのスクリーニングのため,マンモグラフィー検査を行うと,結果はどうなるでしょうか。

引き続き乳癌に対する感度は 84 %,特異度は 92 % だとします。

事前リスクはどの程度か

この年代の女性を無作為に 10 万人集めれば,やはり 1000 人に1人が罹患していると考えられます。

つまり,この 10 万人の集団の中には,概ね 100 人程度の乳癌患者さんがいる,という見込みになります。

これが「事前の見積もり」──つまり〈事前リスク〉です。

ここで事前リスクはそのまま有病率と合致します。

検査陽性者と検査陰性者

いま,マンモグラフィーの感度は 84 %なので,10 万人の中にいる 100 人の本物の乳がんの人のうち,84 人は正しく陽性となります。しかし,残りの 16 人は陰性になります(=偽陰性)。

また,特異度が 92 %なので,本当は乳癌ではない人(=99900人)のうち,92 %の 91908 人はきちんと陰性になります。しかし,残りの 7992 人は陽性となってしまいます(偽陽性)。

まとめると,以下の表のようになります(▼)。

10万人を対象に検査(感度 0.84/特異度 0.92)

乳がんである乳がんでない
検査陽性8479928076
検査陰性169190891924
10099900100000

結局,検査陽性者は 8076 人も出ることになりますが,そのうち本当に乳癌である真陽性はわずか 84 人で,残りは全て「偽陽性」です。

陽性者 8076 人中,84 人だけが本物だということです。

いま私たちが本当に知りたいのは「検査が陽性のとき,本当に乳癌である確率」──すなわち〈陽性的中率〉です。

これは 84/8076 ですから,約 0.01(=1%)と求められます。

わずか 1 %です。

今回の例では,感度 84 %,特異度 92 % と決して特別低いわけではありません。

しかし検査前確率が低い集団を対象としたため,検査後の見込みはさほど高いものとはなりませんでした。

|補足
陽性的中率 = 検査陽性集団におけるリスク(有病割合)= 検査後確率です。そしてこれは,次の検査にとっての検査前確率でもあります。

事前リスクの影響が大きい

この例を通じて

〈陽性的中率〉に最も大きな影響を与えるのは〈事前リスク〉

である,ということがお伝えできたものと思います。

感度・特異度が与える影響はさほど大きなものではないということです。

重要なのはどのようなリスク集団に、、、、、、、、、、、」「どのような目的で、、、、、、、、行う検査なのか,という部分です。

検査が確率を変動させる

今回の例でいうと,「40代女性」というだけでは,「乳がんである」というリスクはさほど高くありません。この集団において,乳癌であるリスク(確率)は 0.1 % 程度でした。

しかし,マンモグラフィー検査をしたことで,この 10 万人の集団は2つのグループに分かれました。即ち

  • 40代女性かつ検査陽性(+)という集団:8076 人
  • 40代女性かつ検査陰性(-)という集団:91924 人

です。

「40代女性かつ検査陽性(+)」という集団に属する人において乳癌の割合は 84/8076 ですから,この集団の人たちは,だいたい 1% の罹患リスクになっています。

検査前に見積もられていたリスク(=検査前確率 0.1%)に比べると,検査後に見積もられるリスク(=検査後確率 1 %)は 実に10倍 です。

検査をおこなった意味はここにこそあります。

10 万人の(リスク 0.1 % の)集団をふるい、、、にかけて,よりハイリスクな 8076 人の(リスク 1% の)集団に絞ることができた,ということです(▼)。

低リスク集団におけるスクリーニング検査の模式図
いっぽう「40代女性かつ検査陰性」という集団に属する人は,乳癌リスクは 16/91924 で,だいたい 0.017 % です。事前リスクの 0.1 % に比べ,乳癌であるリスクはさらに低くなっています。

検査前確率を十分に高めてから確定検査へ

乳癌の「確定診断」は,針生検──つまり乳房に太い針をブッ刺して細胞や組織を取ってきて顕微鏡で見る──という検査がゴールドスタンダードです。

つまり極論を言えば,全ての女性の全ての乳房にこの「針生検」を行えば,誰が乳癌で誰が乳癌でないのかは,ハッキリするかもしれません。

── 現実には刺す部位次第なのでそう単純な話ではありませんが,たとえ話です。

しかし「10 万人のうち 99900 人は乳癌でない集団」に,そのような侵襲的検査をやることはあまりにもコストの無駄遣いです。

そこで,低侵襲かつ安価な検査によってリスク集団をどんどんふるいにかけていくわけです。

こうして徐々に「確率」を高めていき,選び抜かれたハイリスク集団に絞って ──つまり検査前確率を高めた上で── 診断確定のための〈特異的検査〉(ここでは生検)を行う,という手続きになります。

意識的にしろ無意識的にしろ,医師は常にこうした計算を頭の中でおこなっています。

実際,この記事の冒頭で出したクイズは,まさにそういう問題です。

|尤度比
なお,本来そうした事前確率・事後確率の計算の際に用いるのは〈感度〉や〈特異度〉そのものというよりむしろ〈尤度比ゆうどひ〉という概念です。が,本質的には同じものを見ているため,ここでは詳細は割愛し,別記事で改めて解説したいと思います。

検査の前にやるべきこと

偽陽性と偽陰性に振り回されないために

結局,いかに正確な検査であっても,極めて低リスクの集団を対象に乱発すれば,無数の偽陽性を生み出すばかりです。

また逆に,極めて高リスクな集団を対象に検査をした場合,たとえ検査が陰性だとしても,本当に陰性と言ってよいのかはわかりません。偽陰性の可能性があるからです。

適切なリスク集団に適切な検査を行わなければ,その検査を活かすことが難しくなってしまいます。

検査はツールに過ぎない

「そもそも低リスク群なのか高リスク群なのか」という事前の見積もりは,その人の年代や地域の有病率や,病歴,背景情報,身体所見などから,総合的になされる必要があります。

検査は本来,診療の方針を決める補助的なものに過ぎません。

診療の方針は事前の見積もりによって大きく左右されるのであって,その「事前リスクの計算」こそが臨床医の極意であると言えます。

この事前リスクの計算を見誤ることがないように,医師は根掘り葉掘り患者さんの話を聴取するわけです。

こうした基本的な部分をおろそかにしていたずらな検査をおこなっても,多量の偽陽性・偽陰性を生み出すばかりで,現場にとって何のメリットもありません。

その検査は,その後の方針を変えるか

また,そもそも「その検査が陽性だったらどうするべきかのか」「その検査が陰性だったらどうするべきなのか」といったその後のプランに影響しないのであれば,検査をおこなう意義自体もありません。

たとえば医師が「事前確率は 1% もないな」と思っているような場合に,〈感度〉が高い検査をしたとします。

その場合,検査が陰性だったとしても,事前の見積もりの 1 % が,検査後に 0.5 % にまで下がる,というくらいでしかありません。

また逆に,その状況で〈特異度〉の高い検査をして陽性になってしまったからといって,事後確率が急に 80 % や 90 % になるわけでもありません。事前確率 1 % だったなら,せいぜい 5 % 程度になる,というくらいのものです。

むしろ事前リスクが極めて低いのであれば,検査が陽性だとしても,偽陽性を疑うべきです。 そもそも特異的検査を行うべき状況ではありません。

この程度のわずかな確率変動によって,その後の診療方針は変化するでしょうか。

おそらく変わらないでしょう。

つまり,事前確率が 1 %程度の状況であれば,検査をなにか加えたところで,「結果が陰性でも陽性でもその後の方針は変わらない」わけです。

その後の方針が変わらないのであれば,もはやその検査をやる意味がありません。コストの無駄遣いです。

最初の時点で〈事前確率〉がすでに「追加検査を検討すべき閾値」を下回っていたということです(▼)。

事前確率と検査閾値・治療閾値の模式図。

事前確率が非常に低いのであれば,すでに可能性は十分除外されているため,追加検査は不要。次の検査結果がどうであれ診療方針が変わりらないため。逆にすでに可能性が十分高いのであれば「まだ100%ではないから・・」などと言って更なる検査を重ねるのではなく,早く治療を検討すべき段階になる。これらの閾値は疾患の重篤性や検査のアクセス・コストなどによって変わる。除外も確定もできておらず「判断に迷う」段階においてのみ,検査を追加する意味、、がある。

検査よりも安価で低侵襲なもの

結局「話をよく聞く」──という,古くから受け継がれてきた基本的な診察手技こそが,最も安価・低侵襲な診断ツールと言えます。

この段階で適切に〈事前確率〉を見積もることができれば,無駄な検査をせずに済みます。

ここを疎かにしてしまうと,まったく想定していなかった偽陽性や偽陰性に振り回されてしまうことになります。

100 % など存在しない

極論,どこまで無限に検査を重ねようが,理論上 100 % 除外や 100 % 確定などというものはできません。

また,感度が 100 % で特異度も 100 % という検査も,実在し得ません。感度を高くしようとすれば,陽性となる閾値を下げることになり,結果,偽陽性が増えます。つまり特異度は下がってしまいます。

逆もまた然りで,この二つの指標はトレードオフの関係になっています。

そもそも,医療はどこまでも不確実です。

検査や所見の〈感度〉や〈特異度〉ばかりに目をやるのではなく,事前確率の見積もりの重要性が広く周知されて欲しいと思います。

COVID-19 の PCR 検査についても,適応を考えない乱発は好ましいものではありません。

がん検診は例外

なお余談ですが「がん検診」あるいは「健康診断」などは,事前のリスクを見積もることなく無症状の人を対象に検査を行うことが許容される,数少ない例外です。

何も症状がなくても「がんの初期状態」や「生活習慣病」という人が一定数いるため,そうした人を早期に発見して早期に治療ができれば,少ないコストで寿命を伸ばせるかもしれない,ということを期待しているからです。

しかし症状がない人を対象とするため,どうしても初回は大量の偽陽性を産みます。むしろ偽陽性となることは織り込まれています。

ですからちょうどマンモグラフィーの例でお示ししたように,最初に行う検査は安価・低リスク・低侵襲な検査です。

そこで行うのは「がんであることを証明するための検査」ではありません。あくまで,リスク集団のふるいわけを行うのみです。

そうしてふるいにかけられた高リスク集団に対して,より侵襲的でコストが高い検査を追加していく,というわけです(二次検診,三次検診)。

むだな検診にご用心

なお,この「がん検診で最初に行われるべきスクリーニング検査」というのは,世界レベルで非常によく研究されています。

問題なのは「その検診を行うことによって集団の寿命延長効果がある」と示されているものと,そうでないもの(=検診会社の商売でしかないもの)が混在していることです。

エビデンスの確立していない検査は,おこなっても無駄な偽陽性・偽陰性を産むばかりで,その後のリスクの見積もりに全く繋がりません。

はっきり言ってコストの無駄ですし,偽陽性となった時,無駄な心理的負担を負うことになり,何も良いことがありません。

検診で行う「腫瘍マーカー」などはその際たる例ですが,この話はまたの機会にまとめたいと思います。

冒頭の問題の答え

今回の解説は以上です。

最後に,改めて冒頭の問題を解いてみましょう。

問題

  • 背中の痛みを訴えて外来を受診した人がいた。
  • その病歴と身体診察から,医師は「診断が尿路結石である確率」を 50 % 程度と見積もった。
  • その後,尿検査をおこなったところ,尿中赤血球を認めた。
  • この所見は「尿路結石症の診断」に対し 感度 80 %,特異度 96 % である。
  • これにより「診断が尿路結石症である確率」はいくつになったか?

クロス集計表を作って計算してみる

医師が見積もった〈事前確率〉が 50 % ということは,仮に全く同じ状態の患者さんが 100 人いる集団があった場合,そのうち 50 人は尿路結石で,50 人は尿路結石でない,ということになります。

確率とは本質的には〈割合〉であり,それをリスクとも呼びます。呼び方が異なるだけで,見ているものは同じです。

この 100 人の仮想集団に,実際に尿検査をおこなった場合の結果を考えてみましょう。

感度 80 %なので,尿路結石 50 人のうち,きちんと陽性になるのが 40 人で,偽陰性が 10 人になると見込まれます。

また,特異度 96 % なので,尿路結石でない 50 人のうち,きちんと陰性になるのが 48 人で,偽陽性が 2 人になると見込まれます。

これを表にまとめると,以下のようになります(▼)。

尿路結石である尿路結石でない合計
検査陽性40242
検査陰性104858
5050100

検査後確率はどうなったか

今回,事前リスク(=検査前確率)は 50 %(50/100)だったわけですが,検査をしたことで,この仮想集団は2つのグループに分かれました。

すなわち

  • 検査陽性者 42 人(うち,真の有病者 40 人)
  • 検査陰性者 58 人(うち,真の有病者 10 人)

の 2グループです。

今回,検査結果は陽性だったので,目の前の患者さんは,この「検査陽性者」のグループに属しています。

この集団においては,40/42 の割合(確率)で尿路結石症であるわけですから,これが事後リスク(事後確率)です。 40/42 = 0.952.. ,ということで,約 95 % と算出できます。

|陰性だった場合は?
ちなみに検査が陰性だった場合,本当に尿路結石ではない、、、、確率は,48/58 で,83 %となります。逆に言えば,検査が陰性だったとしても,本当は尿路結石である確率が 10/58 程度,つまり 17 % 程度残っています。「17 % 程度見落としても問題ない」と考えるか,「もっと検査や問診を重ねて確率を下げないといけない」と考えるかは,疾患や重篤度によって異なります。
なお別の解法として〈尤度比〉という概念を使った計算方法もあります。それに関しては尤度比の解説記事の方で取り上げたいと思います。

まとめ

まとめです!

この記事では,感度・特異度の基本的なポイントについてまとめました(▼)。

感度・特異度の基本事項

  • 感度 ── 陽性となるべきものを陽性と判定できる確率
  • 特異度 ── 陰性となるべきものを陰性と判定できる確率
  • 感度・特異度は現場の思考プロセスと順序が逆
  • 病気の人が検査陽性になる確率が〈感度〉で,検査陽性の人が本当に病気である確率は〈陽性的中率〉。現場で求められるのは後者。
  • 的中率に大きな影響を与えるものは感度・特異度より〈事前確率〉

感度・特異度の限界

ただし,上記の内容はごく基本的な内容に過ぎません。

感度・特異度が抱える問題は,実はもっと根本的に重大なものがあります。

それはたとえば,感度・特異度が

何に対する、、、、、ものなのかで,解釈が大きく変わる
誰を対象にしたか、、、、、、、、によって,全く異なる値になりうる

といった問題です。

要するに「基準とした検査」や「対象とした集団」によって,算出される感度・特異度の数値自体が大きく変わってしまうのです。

専門的な用語で言うと〈リファレンススタンダード〉reference standard の問題や,〈スペクトラムバイアス〉 spectrum bias の問題です。

そのため目の前のケースに適応する際,既報と同等の感度・特異度を期待してよいとも限りません。

これは非常に重大な問題なのですが,現場で抜け落ちてしまいがちなピットフォールです。

次回の記事では引き続き,これらの問題について詳しく取り上げたいと思います。

[おすすめ本紹介]

ファクトフルネス FACTFULNESS


ビル・ゲイツが希望者全員に配布したことで有名な世界的超ベストセラー。スウェーデン医師・国際保健学教授である筆者が,誰もが勘違いしている「世界の事実」を1つ1つ挙げながら,本質を歪めて見てしまう人間の本能・バイアスを列挙していきます。脳髄に金槌で釘を打ち込まれるくらいの衝撃を何度も与えてくれる名著です。やや分厚い本ですが,Audible なら通勤時間で聞けてしまうので,大変オススメです。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG