COVID-19 のパンデミックで,世間でも検査の〈感度〉や〈特異度〉という言葉自体の知名度は上がったように感じます。
しかしこれらをしっかり理解して使うことは,実は言うほど簡単ではありません。また,そもそも単一研究で算出された〈感度〉や〈特異度〉から言えることには限界もあります。
この記事では,誤解の多い「感度・特異度」について,基本事項をまとめます。
- 感度 ── 陽性となるべきものを陽性と判定できる確率(検査が主語)
- 特異度 ── 陰性となるべきものを陰性と判定できる確率(検査が主語)
よくある誤解
特に非医療職の方でよくある誤解は,
新型コロナの PCR 検査を行って,陰性だった。この検査は特異度 97 %なので,私は97 %の確率でコロナではない
──という類のものです。これは〈陰性的中率〉と〈特異度〉という全く異なる(ある意味真逆の)概念を混同してしまっており,かなり大きな間違いですが,十分な理解が得られていないように思います。
この記事ではこれらの概念についてなるべく簡潔に,わかりやすく整理していきたいと思います。
感度・特異度
まずは教科書的な内容をおさらいしていきましょう。
感度とは
感度(Se;sensitivity)とは
です。
すなわち「疾患あり」の人が,ただしく「検査陽性」となる割合(確率)です(▼)。
感度の定義
疾患あり | 疾患なし | |
---|---|---|
検査陽性 | a | b |
検査陰性 | c | d |
計 | a+c | b+d |
感度 Se は,上表を用いて以下のように表現することができます(▼)。
「感度が高い」ということは「陽性と判定されるべきものを間違って陰性と判定する可能性が低い」という意味になります。つまり偽陰性が少なく,見逃しが少ない,ということを意味します。
逆に「感度が低い」ということは,偽陰性率が高い,つまり見逃しが多いということです。
感度が高い検査の用途
感度が高い検査は除外目的,あるいはスクリーニング目的に用います。
コストが安く,簡潔な手段で「重篤な疾患の可能性を下げられる」検査が,スクリーニングとしては有用な検査です。
特異度とは
いっぽう特異度(Sp;Specificity)とは,
です。
すなわち「疾患なし」の人が,ただしく「陰性」となる割合(確率)です(▼)。
特異度の定義
疾患あり | 疾患なし | |
---|---|---|
検査陽性 | a | b |
検査陰性 | c | d |
計 | a+c | b+d |
特異度 Sp は,上表を用いて以下のように表現することができます(▼)。
「特異度が高い」とは,「陰性と判定されるべきものを誤って陽性と判定する可能性が低い」という意味になります。つまり特定の疾患以外では陽性になりにくい(偽陽性が少なく,過剰診断が少ない)ということです。
逆に「特異度が低い検査」は,偽陽性つまり過剰診断が多いことになります。
特異度の高い検査の用途
特異度の高い検査は「診断の確定目的」に用います。
つまり日常臨床では「その検査をやると決めた時点で,医者の頭のなかでほとんど結論はついている(検査前確率が十分高く見積もられている)」ということです。 その上で確認のために用いるのが,特異度の高い検査です。
多くは高価であったり侵襲的であったりして,検査を行う閾値自体が高いものです。
一見とても重要そうな指標だが…?
感度・特異度は「診断学」においてしばしば引き合いに出される指標です。
しかし,
という問題はあまり知られていません。
とくに医療者以外が記載したネットニュースなどでは,本質的な理解がなされないままに誤用されていることが多く,注意を要します。
実は解釈が厄介な感度・特異度
そもそも,
でしかありません。
この検査は感度・特異度が ●● %!
というときの主語はあくまでも「検査」です。その検査の感度がいくつ,その検査の特異度がいくつ,ということを言っているのであって,目の前の患者さんとは無関係の指標です。
感度・特異度は,「すでに結論(診断)がついている」ものを,その検査がどれだけ正確に拾い上げられたかという指標に過ぎません。
しかし臨床現場で知りたいのは,
目の前のその人(検査陽性者)が「本当に病気」である確率は何 % か?
です。ここでの主語は「検査」ではなく「人」であり,これは〈陽性的中率〉という概念にあたります。
結局のところ,臨床現場で本当に重要なのは,感度・特異度より〈的中率〉や〈事前確率〉の方だということです。
一例として,マンモグラフィーのことを考えてみましょう。
マンモグラフィーが陽性なら乳がんか?
ある研究において,乳癌に対するマンモグラフィ検査は,感度が 84 %,特異度が 92% であるというデータがあります。
では,私たちがもし検診のマンモグラフィで「検査陽性」になってしまったら,84% の確率で実際に乳癌なのでしょうか?
もちろんそうではありません。
乳癌診断に対する感度が 84 %ということは,その研究において,「すでに(あるいは後ほど)乳癌であると確定された人」の中で,マンモグラフィーで正しく「陽性」と判定できた人の割合が,84 %であった,ということです。
また,特異度が 92 %ということは,その研究において,「すでに(あるいは後ほど)乳癌でないと確定された人」の中で,マンモグラフィーで正しく「陰性」と判定できた人の割合が,92 %であった,ということです。
いずれにせよ診断は別の手段で「確定」されています。
そして感度も特異度も,その「確定された結果」とどの程度合致していたか,というのを事後的に照合したものに過ぎません。この順序は臨床現場の思考プロセスと真逆になっています。
本来知りたいのは「的中率」
繰り返しになりますが,〈感度〉や〈特異度〉という概念は
ということです。
臨床の現場で求められることは「その検査が病気を適切に判定できるか(=感度・特異度)」ではありません。
興味の対象は「本当に病気なのか?」ということであり,このとき,主語は「検査」ではなく「人」です。
「患者さんが検査陰性となったとき,本当に病気でない確率(=陰性的中率)」
こそが,臨床現場で求められるものです。
事前リスクの重要性
ここで重要になるのが,〈的中率〉に対して最大の影響を与える因子は,感度でも特異度でもないということです。
です。
引き続きマンモグラフィーの例で考えてみましょう。
マンモグラフィーを 10 万人に行うと?
今,ここに
A 国では 40 代女性の 1000 人に 1 人が乳癌を罹患する
というデータがあるとします。
この A 国の 40代 女性 10 万人の対象者に,乳がんのスクリーニングのため,マンモグラフィー検査を行うと,結果はどうなるでしょうか。
事前リスクはどの程度か
手元のデータから,A 国において この年代の女性を無作為に 10 万人集めれば,やはり 1000 人に1人が乳がんに罹患していることが推察されます。
つまり,この 10 万人の集団の中には,概ね 100 人程度の乳がん患者さんがいる,という見込みになります。
これが「事前の見積もり」──つまり〈事前リスク〉です。
検査陽性者と検査陰性者
いま,マンモグラフィーの感度は 84 %なので,10 万人の中にいる 100 人の本物の乳がんの人のうち,84 人は正しく陽性となります。しかし,残りの 16 人は陰性になります(=偽陰性)。
また,特異度が 92 %なので,本当は乳癌ではない人(=99900人)のうち,92 %の 91908 人はきちんと陰性になります。しかし,残りの 7992 人は陽性となってしまいます(偽陽性)。
まとめると,以下の表のようになります(▼)。
乳がんである | 乳がんでない | 計 | |
---|---|---|---|
検査陽性 | 84 | 7992 | 8076 |
検査陰性 | 16 | 91908 | 91924 |
計 | 100 | 99900 | 100000 |
結局,検査陽性者は 8076 人も出ることになりますが,そのうち本当に乳癌である真陽性はわずか 84 人で,残りは全て「偽陽性」です。
陽性者 8076 人中,84 人だけが本物だということです。
いま私たちが本当に知りたいのは「検査が陽性のとき,本当に乳癌である確率」──すなわち〈陽性的中率〉です。
これは 84/8076 ですから,約 0.01(=1%)と求められます。
わずか 1 %です。
今回の例では,感度 84 %,特異度 92 % と決して特別低いわけではありません。
しかし事前確率が低い集団を対象としたため,マンモグラフィー検査がたとえ陽性だったとしても,「本当に乳がんである確率」は 1 %程度にしかならなかったのです。
- |補足
- 陽性的中率 = 検査陽性集団におけるリスク(有病割合)= 検査後確率。
これは,次の検査にとっての検査前確率でもある。
事前リスクの影響が大きい
というのは,正にこういうことです。
感度・特異度が〈的中率〉に与える影響は,さほど大きなものではないのです。
重要なのは「どのようなリスク集団に」「どのような目的で」行う検査なのか,という部分です。
検査が確率を変動させる
今回の例でいうと,「40代女性」というだけでは,「乳がんである」という事前リスクはさほど高くありませんでした。この集団において,乳癌であるリスク(確率)は 0.1 % 程度でした。
しかし,マンモグラフィー検査をしたことで,この 10 万人の集団は2つのグループに分かれました。即ち
- 40代女性かつ検査陽性(+)という集団:8076 人
- 40代女性かつ検査陰性(-)という集団:91924 人
です。
「40代女性かつ検査陽性(+)」という集団に属する人において乳癌の割合は 84/8076 ですから,この集団の人たちは,だいたい 1% の罹患リスクになっています。
検査前に見積もられていたリスク(=検査前確率 0.1%)に比べると,検査後に見積もられるリスク(=検査後確率 1 %)は 実に10倍 です。
検査をおこなった意味はここにこそあります。
10 万人の(リスク 0.1 % の)集団をふるいにかけて,よりハイリスクな 8076 人の(リスク 1% の)集団に絞ることができた,ということです(▼)。
検査前確率を十分に高めてから確定検査へ
乳癌の「確定診断」は,生検──つまり乳房組織をとってきて細胞や組織を取ってきて顕微鏡で見る──というものがゴールドスタンダードです。
つまり極論を言えば,全ての女性の全ての乳房にこの「生検」を行えば,誰が乳癌で誰が乳癌でないのかは,ハッキリするかもしれません。
しかし「10 万人のうち 99900 人は乳癌でない集団」に,そのような侵襲的検査をやることはあまりにもコストの無駄遣いです。
そこで,低侵襲かつ安価な検査によってリスク集団をどんどんふるいにかけていくわけです。
こうして徐々に「確率」を高めていき,選び抜かれたハイリスク集団に絞って ──つまり検査前確率を高めた上で── 診断確定のための〈特異的検査〉(ここでは生検)を行う,という手続きになります。
意識的にしろ無意識的にしろ,医師は常にこうした計算を頭の中でおこなっています。
- |尤度比
- なお,本来そうした事前確率・事後確率の計算の際に用いるのは〈感度〉や〈特異度〉そのものというよりむしろ〈尤度比〉という概念です。が,本質的には同じものを見ているため,ここでは詳細は割愛し,別記事で改めて解説したいと思います。
検査の前にやるべきこと
偽陽性と偽陰性に振り回されないために
結局,いかに正確な検査であっても,極めて低リスクの集団を対象に乱発すれば,無数の偽陽性を生み出すばかりです。
また逆に,極めて高リスクな集団を対象に検査をした場合,たとえ検査が陰性だとしても,本当に陰性と言ってよいのかはわかりません。偽陰性の可能性があるからです。
適切なリスク集団に適切な検査を行わなければ,その検査を活かすことが難しくなってしまいます。
検査はツールに過ぎない
「そもそも低リスク群なのか高リスク群なのか」という事前の見積もりは,その人の年代や地域の有病率や,病歴,背景情報,身体所見などから,総合的になされる必要があります。
検査は本来,診療の方針を決める補助的なものに過ぎません。
診療の方針は事前の見積もりによって大きく左右されるのであって,その「事前リスクの計算」こそが臨床医の極意であると言えます。
この事前リスクの計算を見誤ることがないように,医師は根掘り葉掘り患者さんの話を聴取するわけです。
こうした基本的な部分をおろそかにしていたずらな検査をおこなっても,多量の偽陽性・偽陰性を生み出すばかりだからです。
検査結果で方針は変わるか?
また,そもそも「その検査が陽性だった時」「陰性だった時」で,その後の診療方針(プラクティス)に影響がないのであれば,検査をおこなう意義自体もありません。
とくに
- 事前確率が極めて低い場合
- 事前確率が極めて高い場合
には,検査の意義をよく考えて適用しなければなりません。
事前確率が極めて低い場合
たとえば医師が「事前確率は 1% もないな」と想定するような場合を考えてみます。
このとき,検査の〈感度〉が高いもので,さらに結果が陰性だったとしても,事前の見積もりの 1 % が検査後に 0.3 % にまで下がる,というくらいでしかありません。多少の安心は得られるかもしれませんが,確率としては大きく変動しておらず,追加の臨床情報としてあまり価値はありません。
また逆に,検査の〈特異度〉が高いもので,さらに結果が陽性になってしまったからといって,事後確率が急に 80 % や 90 % になるわけでもありません。せいぜい 5〜10 倍になる(つまり検査後確率 5 〜 10%)くらいのものです。この状況では,依然としてむしろ偽陽性を疑うべきでしょう。
事前確率が 1 %程度の状況であれば「結果が陰性だろうが陽性だろうがその後の方針は変わらない」のです。
事前確率が極めて高い場合
事前確率が極めて高い状況でも,同じことが起きます。
この場合,現実の〈事前確率〉として正確な数字を出すことは困難ですが,かなり高く,おそらく 9 割以上インフルエンザと思われる状況です。
このような場合,いかに検査陰性であったとしても「インフルエンザじゃないですね!よかったよかった」とはなりません。検査陰性だとしても事後確率は十分下がりきらないからです。まずはインフルエンザとして対応すべきですし,継続的な自宅安静を支持して出歩かない様にしていただく必要があります。
ということは,検査結果がどうであれインフルエンザとして対応することになるため,検査自体に意義が乏しいと言えます(明らかに代替診断となる他疾患がある場合は別です)。
方針を変えない検査の意義はあるか?
要するに「その後のプラクティスが変わらないのであれば,もはや検査を行う意味はない」ということです。
事前確率が極めて高い場合も,極めて低い場合も,最初からすでに「追加検査を検討すべき閾値」を下回っており,コストの無駄遣いにしかならないということです(▼)。
検査よりも安価で低侵襲なもの
なお,事前確率の見立てに最も重要なものは「問診」であると言われます。
結局「話をよく聞く」──という,古くから受け継がれてきた基本的な診察手技こそが,最も安価・低侵襲な診断ツールだということですね。
この段階で適切に〈事前確率〉を見積もることができれば,無駄な検査をせずに済みます。 逆にここを疎かにしてしまうと,まったく想定していなかった偽陽性や偽陰性に振り回されてしまうことになります。
100 % など存在しない
医療はどこまでも不確実です。
どこまで無限に検査を重ねようが,100 % 除外や 100 % 確定などというものはできません。
感度が 100 % で特異度も 100 % という検査も,実在し得ません。
検査や所見の〈感度〉や〈特異度〉ばかりに目をやるのではなく,事前確率の見積もりの重要性が広く周知されて欲しいと思います。
- |COVID-19 の PCR検査
- COVID-19 の PCR 検査についても,診断学という意味では,適応を考えない乱発(=全く蔓延していない時期にとりあえず全例検査など)はコスト的にも好ましいものではありません。しかし「防疫の観点」という別の問題もあるため,簡単には片付けられない問題です。
余談:がん検診の話
なお余談ですが「がん検診」あるいは「健康診断」などは,事前リスクの見積もりをあまり重視していません。
というよりはむしろ「リスク集団を見つけに行く」アプローチとも言えるかもしれません。
考え方としては,無症状の人の中に混在する「がんの初期状態」や「生活習慣病」を早期発見・早期治療することで,少ないコストで寿命を伸ばせるかもしれない,ということを期待しているわけです。
しかし当然ながら,無症状の人を対象とするため,どうしても初回は大量の偽陽性を産みます。むしろ偽陽性となることは織り込まれています。
ですからちょうどマンモグラフィーの例でお示ししたように,最初に行う検査は安価・低リスク・低侵襲な検査です。「コストに比較して感度が高い」ことが好まれます。
この段階ではあくまで「リスク集団のふるいわけ」と割り切っており,そこで行うのは「がんであることを証明するための検査(=特異度の高い検査)」ではありません。
そうしてふるいにかけられた高リスク集団に対して,より侵襲的でコストが高い検査を追加していく,というわけです(二次検診,三次検診)。
むだな検診にご用心
ただしここで注意すべきなのは,民間がん検診では「その検診を行うことによって集団の寿命延長効果が期待できる」ものと,そうでないもの(=検診会社の商売でしかないもの)が混在している,ということです。
エビデンスの確立していない検査は,おこなっても無駄な偽陽性・偽陰性を産むばかりで,検査が陽性・陰性だからと言ってもその後のリスクの見積もりに全く繋がりません。
そうした検査は単純にコストの無駄ですし,偽陽性となった時,無駄な心理的負担を負うことになり,良いことがありません。検診目的で行う「腫瘍マーカー」や,民間オリジナルの謎の採血マーカーなどは,その際たる例です。
こうした問題も徐々に周知されるようになってきてはいますが,まだまだ非医療職の方には伝えきれていない部分であり,課題だと感じます。
チェックテスト
今回の解説は以上です。
最後に,理解度の確認のため,以下の問題を解いてみましょう。
- 背中の痛みを訴えて外来を受診した人がいた。
- その病歴と身体診察から,医師は「診断が尿路結石である確率」を 50 % 程度と見積もった。
- その後,尿検査をおこなったところ,尿中赤血球を認めた。
- この所見は「尿路結石症の診断」に対し 感度 80 %,特異度 96 % である。
- これにより「診断が尿路結石症である確率」はいくつになったか?
- |略解(クリック展開)
- 95%(解説は記事後半にて)
実際には〈尤度比〉という概念理解でよく用いられる問題ではありますが,感度・特異度の意味を正しく理解していれば簡単な算数問題として解くことができます。
一緒に計算してみましょう。
クロス集計表を作って計算してみる
まず,医師が見積もった〈事前確率〉が 50 % ということは,仮に全く同じ状態の患者さんが 100 人いる集団があった場合,そのうち 50 人は尿路結石で,50 人は尿路結石でない,ということになります(▼)。
疾患あり | 疾患なし | |
---|---|---|
検査陽性 | ||
検査陰性 | ||
計 | 50 | 50 |
この 100 人の仮想集団に,実際に尿検査をおこなった場合の結果を考えてみましょう。
感度 80 %なので,尿路結石 50 人のうち,きちんと陽性になるのが 40 人で,偽陰性が 10 人になると見込まれます。
また,特異度 96 % なので,尿路結石でない 50 人のうち,きちんと陰性になるのが 48 人で,偽陽性が 2 人になると見込まれます。
これを表にまとめると,以下のようになります(▼)。
尿路結石である | 尿路結石でない | 合計 | |
---|---|---|---|
検査陽性 | 40 | 2 | 42 |
検査陰性 | 10 | 48 | 58 |
計 | 50 | 50 | 100 |
検査後確率はどうなったか
今回,事前リスク(=検査前確率)は 50 %(50/100)だったわけですが,検査をしたことで,この仮想集団は2つのグループに分かれました。
すなわち
- 検査陽性者 42 人(真の有病者 40 人 + 偽陽性 2 人)
- 検査陰性者 58 人(真の有病者 10 人 + 真陰性 48 人)
の 2グループです。
今回,検査結果は陽性だったので,目の前の患者さんは,この「検査陽性者」のグループに属しています。
この集団においては,40/42 の割合(確率)で尿路結石症であるわけですから,これが事後リスク(事後確率)です。 40/42 = 0.952.. ,ということで,約 95 % と算出できます。
事前確率 50 % だったものが,検査後に事後確率 95 % になった,ということです。
- |陰性だった場合は?
- ちなみに検査が陰性だった場合,本当に尿路結石ではない確率は,48/58 で,83 %となります。逆に言えば,検査が陰性だったとしても,本当は尿路結石である確率が 10/58 程度,つまり 17 % 程度残っています。「17 % 程度見落としても問題ない」と考えるか,「もっと検査や問診を重ねて確率を下げないといけない」と考えるかは,疾患や重篤度によって異なります。
|この記事は医療職の方向けです この記事では,尤度比(ゆうどひ)とは何か?医療現場ではどのように使われるのか?という点についてまとめます。 本項のまとめ 陽性尤度比:有病者が無病者と比べ何倍検査陽性になりやすいかという比 陰性[…]
まとめ
まとめです!
この記事では,感度・特異度の基本的なポイントについてまとめました(▼)。
- 感度 ── 陽性となるべきものを陽性と判定できる確率
- 特異度 ── 陰性となるべきものを陰性と判定できる確率
- 感度・特異度は現場の思考プロセスと順序が逆
- 現場で重要なのは〈的中率〉と〈事前確率〉
感度・特異度の限界
ただし,上記の内容はごく基本的な内容に過ぎません。
感度・特異度が抱える問題は,実はもっと根本的に重大なものがあります。それはたとえば,
② 誰を対象にしたかによって,全く異なる値になりうる
といった問題です。
要するに「基準とした検査」や「対象とした集団」によって,算出される感度・特異度の数値自体が大きく変わってしまうのです。
そのため目の前のケースに適応する際,既報と同等の感度・特異度を期待してよいとも限りません。これは非常に重大な問題なのですが,医療現場でもしばしば抜け落ちてしまいがちなピットフォールです。
次回の記事では引き続き,これらの問題について詳しく取り上げたいと思います。
●●スコアが ×× 点 なので,その疾患は否定的だと思います! ●●スコアの感度は 95% もありますので! PCR検査が陽性なので! COVID-19 だと思います!特異度は 99 % です! …… こうした論理はしばしば現場で耳に[…]