【解説】感度・特異度のピットフォール｜リファレンスは何で対象者は誰か？

2021年6月6日
2021年8月1日
やわらか統計学
診断学研究

●●スコアが ×× 点なので，その疾患は否定的だと思います！
●●スコアの感度は 95% もありますので！

PCR検査が陽性なので！
COVID-19 だと思います！特異度は 99 % です！

……

こうした論理はしばしば現場で耳にしますが，多くの場合，以下のいずれかの問題があります。

感度・特異度を〈的中率〉と混同している
その感度・特異度が「何に対する」ものか知らない
その感度・特異度が「どのような集団を対象に」算出されたか知らない

① は特に，一般の方々には非常に誤解されやすい部分です。

しかしそうは言っても教科書的な内容ですから，医療者の多くには周知されてきているように感じます。

問題は ②，③ です。

この観点は未だに，医療者であっても抜け落ちてしまうことが多い印象です。

何を隠そう私も，少なくとも研修医のときには全く理解していませんでした。それどころかまさに

この所見は感度 94% だからよほど rule out できる（ドヤァ！

などと言っていたように思います（恥ずかしい）。

実際には，単一研究で報告されている感度・特異度はほとんど目の前の状況に適応できません。

今回はこの問題について解説したいと思います。

1 感度・特異度より的中率
- 1.1 とは言え・・
2 リファレンス・スタンダードの問題
3 スペクトラムバイアスの問題
- 3.1 「誰を対象にした」感度・特異度なのか？
- 3.2 症例対照研究にご用心
4 まとめ：感度・特異度の限界

感度・特異度より的中率

まず基本的な内容からおさらいします。

感度・特異度を扱う上で第一のピットフォールは，「感度・特異度と的中率が混同されがち」という問題です。

特に医療者でない人の中で多い誤解で，マスメディアも少なからず混同した報道をしてしまっているような印象があります。

重要なのは的中率

臨床現場においては，「感度・特異度」よりも「的中率」の方が遥かに重要です。

感度や特異度は「結論が確定している人」においてその検査が「どの程度正確に陽性・陰性を判定できたか」という検査特性の指標に過ぎません。

しかし現場で知りたいのは「検査が陽性の人は本当にその疾患なのか？」というものです。つまり因果が逆転してしまっているのです（▼）。

その意味で，感度・特異度は直接的には「使えない」指標です。

現場で知りたいのは，あくまで〈的中率〉の方です。

的中率を規定するのは事前リスク

そしてさらに重要なことは，この〈的中率〉に大きな影響を与えるのは〈感度〉〈特異度〉といった検査特性ではなく，事前リスクの見積もりである，ということです。

事前の有病割合（＝その集団におけるリスク）が非常に低いのであれば，感度や特異度が高い検査をおこなって結果が「陽性」だとしても，的中率はさほど高くなりません（▼）。

事前リスクが 0.1 %なら感度84特異度92だとしても陽性的中率は1％にしかならない

事前リスク 0.1 % の集団 10 万人に対して感度 84 %，特異度 92 % の検査を行った場合，検査陽性者は 8076 人も出るが，そのうちホンモノ（陽性的中者）はわずか 1 %（84/8076）。残りの 99%（7992/8076）は偽陽性。診断をより確実にするためには，この集団に対してさらなる追加検査が必要。

ここまでの内容は，前回の記事で詳しく取り扱っています。教科書的な内容ですが，ぜひ今一度ご確認いただければと思います。

合わせて読みたい

【解説】感度・特異度・的中率とは？｜事前確率の重要性

COVID-19 のパンデミックで，世間でも検査の〈感度〉や〈特異度〉という言葉自体の知名度は上がったように感じます。しかしこれらをしっかり理解して使うことは，実は言うほど簡単ではありません。また，そもそも単一研究で算出された〈感度〉や[…]

─ ads ─

とは言え・・

それでも感度・特異度を気にする医師たち

しかし実際に上記の内容を理解した上でも，医師たちはやはり，感度・特異度を気にしています。

事前リスクの重要性は自明のこととして，その上でもやはり

〈感度〉が高い検査で結果が〈陰性〉なら可能性は下がる

〈特異度〉が高い検査で〈陽性〉なら可能性は上がる

ということは事実だからです。

医師たちが頭のなかで「ざっくりと」診断の確率を計算する際，多かれ少なかれ〈感度〉や〈特異度〉はイメージしているものだと思います。

｜本当は尤度比で計算: なお本来，厳密にはこうした確率計算は〈尤度比〉を用いておこなわれます。とはいえ〈尤度比〉は感度・特異度から算出されるため，本質的には同じものを見ています。「特異度が高い」ということは「陽性尤度比が高い」ということであり，それゆえ結果が陽性のとき事後確率を高めます。同様に「感度が高い」ということは「陰性尤度比が低い」ということで，それゆえ結果が陰性のとき事後確率を低くします。ところで感度・特異度の数字をなんとなく記憶している人は多くても，尤度比の数字感覚が染み付いている医師は少ない印象です。やはり感度・特異度は 0〜100 ％で表されるのがイメージしやすいためでしょうか。尤度比は 0〜∞ まで取るうえ「確率の比」ではなく「オッズの比」なのでイメージしにくく，普及しにくいのかもしれません。特に感度や特異度は試験対策などで「Sn-out」「Sp-in」と丸暗記を促されているような風潮も，こうした状況を後押ししているかもしれません。

重大なピットフォール

しかし，実際のところ

研究で報告された感度・特異度は，リアルワールドにそのまま適応できない

というのが問題です。

ランダム化比較試験 RCT で効果が示された治療薬であっても，そのままの効能、、、、、、、をリアルワールドで期待できないことと，本質的には同じ理由です。

その感度・特異度は「何に対する」ものか。

また，

その感度・特異度は「誰を対象にして」得られた数値か。

これらにより，感度・特異度の値そのものも，またその解釈も，大きく変わってしまうからです。

この観点は現場でも抜け落ちてしまいがちなのですが，「そもそも論」にあたる内容であり，非常に重要な問題です。

リファレンス・スタンダードの問題

まずは，その検査の感度・特異度が，何に対する、、、、、ものなのか？という観点について考えてみましょう。

こう言われると，

いやいや，そんなの ●●病の「診断、、」に対する感度・特異度に決まってるでしょう！

と言われてしまうかもしれませんが，そう単純にはいきません。

現実には，

では「その診断、、」は何によってなされたのか？

という問題がついて回ることになります。

これが〈リファレンス・スタンダード〉 reference standard の問題です。

「何に対する」感度・特異度なのか？

重要なことは，

比較対照の検査はゴールド・スタンダードなのか？

という視点をもつことです。

ここでいうゴールド・スタンダードとはつまり，必ず、、その疾患の有無を見分けることができる究極の診断方法のことです。

その検査（や所見）で陽性ならばそれイコール ●● 病！

その検査（よ所見）で陰性ならばそれイコール ●● 病ではない！

と断言できる検査のことを，ゴールド・スタンダードと呼びます。

新しい診断方法や検査方法の優劣を確認したいのであれば，必ずこのゴールドスタンダードと比較することが求められます。

「新しいその検査」は，患者さんが「真にその疾患に罹患しているかどうか」をどの程度正しく判定できるのか。

それは，ゴールド・スタンダードの検査と比べ「どの程度正確か」ということに他なりません。

そしてその「どの程度正確か」ということは，ゴールドスタンダードに対する、、、、感度・特異度として数値化できます。

厳密な gold standard は実在しない

ところが，現実には真の意味でのゴールド・スタンダード検査は実在しません。ある疾患を 100 % 判定できる検査など存在しようがないので，当然のことです。

一見ゴールドスタンダードのように思われる検査であっても，必ず偽陽性・偽陰性が存在します。

そもそも「診断」ということ自体，医師によって恣意的になされる判断に過ぎません。ある１つのラインを越えれば病気で，そうでなければ病気でない，というような厳密な線引きは存在し得ません。

「診断」という行為自体が，

これとこれとこれを満たす現象のことを●●病と呼ぶことで一元管理して，みんなで治療などについて情報共有していきましょうね

という便宜的・恣意的なものに過ぎません。

そのため，疾患の診断基準というのは時代に則してコロコロと変わっていきます（▼）。

高血圧症，脂質異常症，糖尿病，潜伏梅毒，潜伏結核 etc.. いずれもかつては「病気」扱いされていなかった段階から「治療対象」とされるようになってきた。どこからが「病気」で「治療対象」なのか，というその「線引き」は，現代に至るまで，コロコロと変わってきている。

100 % はない

究極的には全ての疾患は spectrum disease であって，

100％ ○○ 病です！

だとか

100％ ○○ 病ではありません！

ということは現実的にあり得ません。

そもそも医学において 100 % ということは原理的にあり得ないため，感度 100 %，特異度 100 % の検査も存在し得ないことになります。

不確定でバラバラな「ヒト」というものを扱う上，得られる検体や身体所見も毎回ばらつくわけですから，当然のことです。

次善の策として reference standard

そこで次善の策として，「既存の診断法のなかで最も確実としてコンセンサスが得られているもの」を，暫定的にゴールドスタンダードとして、、、扱い，それを比較対照として感度・特異度を計算する，ということが行われます。

この「既存の手法のなかで最も確実と考えられている」ものを「参照点」という意味をこめて リファレンス・スタンダード reference standard と呼びます。

新しい「所見」や「検査」の「診断に対する正確性（＝感度・特異度）」を判定するときには，このリファレンス・スタンダードと比べてどの程度正確か？ということを調べるわけです。

リファレンス・スタンダードの例としては，以下のものが挙げられます。

リファレンス・スタンダードの例

がん診療における生検 ── 直接針で刺したり手術で取ってきて，顕微鏡でがん細胞を確認する
心不全診療における心臓カテーテル検査 ── 直接心臓の中までカテーテルを持って行って両側心室や両側心房内の「圧」を測定
髄膜炎診療における髄液検査 ── 直接髄液を取ってきて細胞数・蛋白・糖・培養など総合評価）
妊娠検査において「実際に子宮内に胎児が確認されること」（超音波など）

いずれもほとんど確実、、、、、、に診断できるものとしてコンセンサスが得られています。

しかしこれらの検査は，時間を要したり，侵襲性が高かったり，コストが高かったり，といった欠点を抱えています。

そのため，これらのリファレンス・スタンダードと比べ「安価」であったり「低侵襲」であったり「素早く」判定できて，「正確性も十分高い(*)」新たな検査・身体所見が開発／発見されれば，臨床現場で有用性が高いと考えられます。

｜(*) 補足: *このリファレンス・スタンダードに対する感度・特異度が十分高い，という意。もちろんこの「十分」というものも恣意的な基準です。

コンセンサスが重要

リファレンス・スタンダード（暫定的なゴールドスタンダード）を考えるうえで最も重要なのは「業界のコンセンサスが得られているか」という点です。

ある研究の中で，論文筆者らが勝手に適当な基準や検査所見をリファレンス・スタンダードに設定し，それに対して

感度・特異度が十分高かった！

などと主張されても，スジが通りません。

その自称リファレンス・スタンダードが，「業界のコンセンサスが得られているリファレンス・スタンダード」に対してどの程度の感度・特異度があるのか？という話になり，議論が三段構えになってしまいます。

とにかく

コンセンサスのあるリファレンス・スタンダードと比較されていること

は，感度・特異度の信頼性に関わる最も根幹の部分であり，最低限の重要条件であると言えます。

要するに，検査や所見の〈感度・特異度〉は，コンセンサスのあるリファレンス・スタンダードに照らして「どの程度の診断能（合致率）があるか定量化したもの」と言えます。

リファレンスに関連するバイアス

ただ実際には，問題はもう少し複雑です。

診断研究で行われる「リファレンス・スタンダードとの照らし合わせ」の過程にも，バイアスの入り込む余地があるからです。

論文で発表される感度・特異度は，そうしたバイアスの影響を受けて不当に高く報告されてしまっている可能性があります。

論文読者である私たちは，その点をきちんと見抜いた上で割り引いて、、、、、考えることができなければなりません。

リファレンス・スタンダードとの照らし合わせに関連するバイアスとしては

情報バイアス information bias
とくに検証バイアス verification bias

が有名です。

長くなるため，これらについては別記事で解説しています。ご確認いただければ幸いです（▼）。

合わせて読みたい

【解説】診断研究における情報バイアスと検証バイアス

前回の記事で，検査や所見の〈感度・特異度〉は，コンセンサスのあるリファレンス・スタンダードに照らし合わせたものである，ということを述べました。 [sitecard subtitle=合わせて読みたい url=/stats/sesp-pit[…]

スペクトラムバイアスの問題

感度・特異度に関するピットフォールとしてもう一つ重大なのが〈スペクトラム・バイアス〉spectrum bias の問題です。

これは「どのような集団を対象にしたか」によって，感度・特異度が大きく変わってしまう，という重大な問題です。

「誰を対象にした」感度・特異度なのか？

感度・特異度を算出する診断研究において，

検査の対象となった人がどのような人たちだったのか？

というのは非常に重要な問題です。

「同じような環境」に「同じような症状の強さ」で受診した患者層を対象にしない限り，その研究と同等の感度・特異度は期待できないからです。

心不全を採血で診断する

たとえば「心不全」という疾患に対して，BNPという採血マーカーのもつ感度・特異度について考えてみます。

このとき，BNP のカットオフ値を 100 としたときのリファレンス・スタンダードに対する感度・特異度を考えてみましょう。

なお，リファレンス・スタンダードは「心臓カテーテル検査での診断」とします。また，BNP 値については盲検化された検査者が，BNP 値と無関係に検査を全例に施行したものとします。つまり〈情報バイアス〉のリスクは低いものとして考えます。

軽症なスペクトラム

まずは軽症な患者スペクトラムの環境を想定してみます。

「さいきん息が苦しいんです・・」と，呼吸困難感を主訴にクリニックを受診した 40 歳以下成人 100 人を調査してみました。

研究 A（クリニック受診・40 歳以下）

	心不全である	心不全でない
≧BNP100	9	27
＜BNP100	1	63
計	10	90

ここから，この集団においては「BNP100」という検査所見の「心不全の診断」に対する感度は90 %（9/10），特異度は 70 ％（63/90）となります。

ところで，この100人の集団はあくまで「クリニックを受診した集団」です。そのため心不全であった10人も，そうでなかった 90 人も，いずれもさほど重症ではない人が多数を占めていたと想定されます。

つまりこの研究における感度・特異度は，「軽症心不全を軽症なそれ以外の病気から鑑別する状況」における感度・特異度であるということです。

この「比較的軽症な患者スペクトラム」においては，BNP の心不全カテーテル診断に対する感度は 90 % ，特異度は 70 %であった，ということです。

では次に重症なスペクトラムを考えてみます。

重症なスペクトラム

夜間の ER に「胸が苦しい」といって救急車で搬送されてきた 60 歳以上の成人 100 人に対して調査をすると，以下のような結果が得られました。

研究 B（ER搬送・60 歳以上）

	心不全である	心不全でない
≧BNP100	59	20
＜BNP100	1	20
計	60	40

ここで問題なのは，救急車で来院する人は心不全だろうが心不全でなかろうが重症者の割合が高い，ということです。

歩いてクリニックを受診する集団と，ERに救急搬送される集団では，それぞれの集団がもつスペクトラム（重症度などの分布）が全く異なります。

当然，より重症な患者さんが多いほうが，BNP 値は全体に高い人が多くなります。結果，検査感度（心不全患者が陽性となる確率）は高くなります。

上の例では，感度は 98％（59/60）です。

ところが，主診断が心不全でない病状の人でも，より高齢・より重症であることなどによって，BNP値が高くなりやすくなります。　

結果，特異度は下がってしまい，50％（20/40）になっています。

重症度が違えばもはや「違う疾患」？

これは，同じ言葉で「心不全」と言いながら，研究 A が対象とする患者層における「心不全」と，研究 B が対象としている患者層における「心不全」が，もはや「同じ状態」でないから起きてしまう弊害です。

つまり，1つめの研究 A では，「軽症心不全」と「軽症なそれ以外の病気」の区別のため，BNP の特異度は高く保たれています。

一方２つ目の研究 B では「重症心不全」と「重症なそれ以外の病気」という区別になっています。このとき，BNPの特異度は低くなってしまうのです。

これが〈Spectrum bias〉と呼ばれる現象です。

実質的に〈何と何〉を鑑別しているのか

という状況が変われば，検査特性が大きく変わってしまう，ということです。

スペクトラムが違えば感度・特異度が違うことはごく普通のことなので，スペクトラムバイアス spectrum bias ではなくスペクトラム効果 spectrum effect と呼ぶべきだ，という論者もいるそうです。

｜少し込み入った補足

なお，ややこしいのですが，Spectrum bias と「対象集団のもつ事前リスク（検査前確率）の違い」は別モノとして考えます。たとえば今回，研究 A ではホンモノの心不全が 10/100 と事前確率が低い集団が対象であったのに対し，研究 B では 60/100 と事前確率が高い集団が対象になっていました。しかしこれはあくまで「事前確率の違い」です。Spectrum bias とは別の要素です。
たとえば同じクリニックと言っても「循環器内科の先生が開業しているクリニック」に呼吸困難感で受診する患者さんは，ホンモノの心不全の割合が研究 A よりも少し高い（＝事前確率がもう少し高い）かもしれません。ところが，クリニックに歩いて受診するという条件が同じである以上，その状況においても BNP はやはり「軽症心不全」と「軽症なそれ以外の疾患」との区別に用いられることになります。「何と何を鑑別するか」は大きく変わっていないため，感度・特異度は研究 A と大きく変わらないと思われます（若干は高まる）。
いっぽう，ER に呼吸困難で搬送されてくる「重症な患者スペクトラム」において「重症心不全」と「重症なそれ以外の病気」の鑑別に用いる BNP は，感度・特異度が全く異なる数値になります。
これは「何と何を鑑別しているか」が変わるからです。それが Spectrum bias の本質です。

症例対照研究にご用心

Specturm bias が最も極端化しやすいのは，症例対照研究 case-control study だと言われています。

症例対照研究はその名の通り case（病気）と control（病気じゃない人）を比較するため，スペクトラムの「端と端の比較」というような極端な状況になってしまうことが少なくありません（▼）。

たとえば，呼吸困難感で ER を受診した 40代の心不全患者さん50人（case）と，40代の喘息発作患者さん 50 人（control）の採血検体に，事後的に BNP 検査を行って結果を検証するとします。

そうすると，偽陽性・偽陰性は少なくなり，BNP の感度も特異度も高くなるかもしれません。

しかし，現実を考えてみましょう。「その 40 代の喘息発作患者さん」たちはどういう病歴で ER を受診していたのでしょうか。

実際には

喘息とすでに診断されていて吸入薬も処方されているが，さいきん風邪気味で，またいつもの発作が起きた。吸入薬１回吸ってよくならないので受診。

というシナリオの人ばかりかもしれません。

ではそのシナリオで，臨床医は心不全を鑑別するためわざわざ BNP 検査を行うでしょうか？

「あからさま」なら検査は不要

つまり何が言いたいかというと，検査というものは「現実問題として鑑別に悩む状況」だからこそ行われるものだということです。

「診断があからさま」なら，医師はそもそも無駄な追加検査などしません。

case-control 研究で比較されるような「コテコテの心不全」と「コテコテの喘息」は，臨床現場ではそもそも病歴聴取 ── つまり診療の入口 ── の時点から鑑別されています。

つまり，その状況（＝コテコテの喘息と，コテコテの心不全を区別しなければならないという状況）において，BNP の鑑別能（感度・特異度）がめちゃくちゃ高かろうが，心底どうでもいいのです。

そのように算出された感度・特異度は，どれほど高くとも，実臨床では全く役に立ちません。

「コテコテの喘息」と「コテコテの心不全」を鑑別するために　BNP を検査する医師は存在しないからです。

診断に悩む状況での感度・特異度が重要

医師が気になるのは心機能も低下して喫煙もしていて慢性肺疾患もあるような高齢者において，「心不全の急性増悪」なのか「喘息発作ないし慢性肺疾患の急性増悪」なのかを鑑別したい，といった状況での BNP 検査の診断能（感度・特異度）です。

そういう「対象者／患者スペクトラム」を据えた研究での感度・特異度は，実臨床に則しており，有効な参考所見となります。

だからこそ，

その感度・特異度は「誰を対象にして」得られた数値か

という観点が非常に重要であると言えます。

まとめ：感度・特異度の限界

結局，検査の「有用性」は，単一報告での「感度」「特異度」だけをみていても分かりません。そもそも，その値は「目の前の状況でも当てはめられるのか」。

そうした普遍性・一般化可能性があるかどうかを見極めるために

何に対する感度・特異度なのか？（＝リファレンス・スタンダード）
どのような集団を対象にした数値か？（＝患者スペクトラム）

の確認が欠かせません。

また，そもそも現場で最重要なのは「事前リスクの見積もり」であり，感度・特異度はその次に気にするべきものであることを，忘れないようにしたいものです。

感度・特異度の比である尤度比も同様です。リファレンス・スタンダードや患者スペクトラムの影響を受けるため，研究で算出された値を目の前の患者さんに当てはめられるとは限りません。

合わせて読みたい

【解説】尤度比とは何か？｜計算方法と使い方

｜この記事は医療職の方向けですこの記事では，尤度比（ゆうどひ）とは何か？医療現場ではどのように使われるのか？という点についてまとめます。本項のまとめ陽性尤度比：有病者が無病者と比べ何倍検査陽性になりやすいかという比陰性[…]

[おすすめ本紹介]

Users’ Guides to the Medical Literature

タイトル通り「医学論文を現場でどう応用するか？」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で，どこからでもつまみ読みできます（通読向きではない）。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ，という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが，気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

Amazon で見る

楽天市場で見る

医学文献ユーザーズガイド第3版

表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと（英語版はある）と，和訳が気になる部分が結構あること。２つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます。

Amazon で見る

楽天市場で見る

─ ads ─

【解説】感度・特異度のピットフォール｜リファレンスは何で対象者は誰か？

感度・特異度より的中率

重要なのは的中率

的中率を規定するのは事前リスク

とは言え・・

それでも感度・特異度を気にする医師たち

重大なピットフォール

リファレンス・スタンダードの問題

「何に対する」感度・特異度なのか？

厳密な gold standard は実在しない

100 % はない

次善の策として reference standard

コンセンサスが重要

リファレンスに関連するバイアス

スペクトラムバイアスの問題

「誰を対象にした」感度・特異度なのか？

心不全を採血で診断する

軽症なスペクトラム

重症なスペクトラム

重症度が違えばもはや「違う疾患」？

症例対照研究にご用心

「あからさま」なら検査は不要

診断に悩む状況での感度・特異度が重要

まとめ：感度・特異度の限界

医療統計の解説チャンネル