【解説】αエラーとβエラー;第一種過誤と第二種過誤とは

この記事では

〈αエラー〉と〈βエラー〉とは何なのか?

ということについて,基本的内容に絞ってまとめます。

さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解をしてしまう可能性があります。

一緒に勉強して参りましょう。

いつもの如く,最初に本項のまとめを述べます!

まとめ

  • 標本調査から母集団を推定する際,
    常に「誤った推定」をしてしまう可能性がつきまとう
  • αエラー:「本当はない」差を「ある」と言ってしまう間違い
  • βエラー:「本当はある」差を「ない」と言ってしまう間違い
  • いずれも研究者が慣例的に「許容できる線引き」を決めている
  • αエラーの方が社会的影響が大きいため,厳しく取り扱われる

※ 冗長になるのを防ぐため,以下の項目は別記事で扱います。

| 本項で扱わない内容
  • 〈αエラー〉の確率はなぜ〈有意水準〉と同一なのか
  • 〈βエラー〉と〈検出力 power〉

αエラーとβエラーの定義

Sampling

──「標本調査の結果から,母集団調査の結果を推定する」

この手続きあるいは学問全般を,〈推測統計〉と呼ぶのでした。

そして〈推測統計〉の手法の中では,実際に母集団そのものを調査しているわけでない以上,どうしても限界があります。

「標本調査から推定された結果」が,母集団での【真実】と違う

という可能性が,常に一定程度あるわけです。

母集団を直接調べているわけではないのですから,そのような誤った推定をしてしまう可能性は,どうしてもゼロにできません。

これは構造的な問題です。

そして,その「誤った推定」のことを過誤(エラー)
と呼び,αエラーとβエラーの2種類に大別されます。

ランダム化比較試験の例

実例を見ながら見ていきましょう。

お魚をたくさん摂っている人は心筋梗塞の発症リスクが低そうだ!

そんな情報を聞きつけた研究者が,以下の研究をデザインしたとします。

【ランダム化比較試験】
試験参加者を,魚油サプリメントA を内服し続ける群と,偽薬 B を内服し続ける群にランダムに割り振る。一定期間両群を追跡し,心筋梗塞の発症率に「差が出る」か検討する。

この時,本当は母集団(古今東西のあらゆる人)全員を対象者として研究を行いたいのですが,そのような大規模研究はコスト的にも倫理的にも現実的ではありません。

そこで,やむを得ず手ごろな参加者(=標本)をランダムに募って,その結果から,母集団でも効果があるのかどうかを推定しようと試みているわけです。

Infer ct

αエラーとは何か?

Error

さて,このとき,実はすでに母集団における【真実】がわかっていたと仮定します(現実にはあり得ません)。

そして【真実】は以下(▼)のようでした。

【真実】:介入の有無によって本当は(母集団で)効果の差はない

例)魚油サプリメントAを内服しても,本当は(母集団では)偽薬の内服と比較して心筋梗塞の発症率を減らさない。

この場合,得られた標本データからもしっかり「差がない」と結論できたのであれば,研究結果には何の問題もありません。

しかし,本当は(母集団では)差なんてないのに,手元の標本から得られたデータを基にして「差がある」と結論してしまうのは問題です。

【真実】と推定結果がズレてしまっているからです。

こうしたエラーのことを,第一種の過誤(type I error;α error)と呼び,こんな誤解をしてしまう確率を α と表します。

あわてん坊の α エラーと覚えます。
─ ads ─

βエラーとは何か

また逆に,

【真実】:介入の有無によって本当に(母集団でも)効果の差がある

サプリメントAを内服すれば,偽薬の内服と比べて本当に(母集団でも),心血管障害を予防する効果がある

とわかっていた,と仮定しましょう。

この時,標本調査で得られたデータからも「差がある」と結論できたのであれば,これも問題ありません。

しかし,本当は(母集団では)差があるのに,手元の標本から得られたデータを基にして「差がない」と判断してしまうのも,やはり問題です。

このエラーのことを,第二種の過誤(type II error;β error)と呼び,この誤解を犯してしまう確率を β と表します。

ぼんやり見逃す β エラーと覚えます。

αエラーとβエラーの模式図

ここまでの内容を図にまとめると,以下のようになります(▼)。

■αエラーとβエラーの模式図
Alpha beta

  • 本当は(母集団では)差がないものを,あると言う = αエラー
  • 本当は(母集団では)差があるもの,ないと言う = βエラー

αエラー と βエラー の線引き

113

母集団そのものではなく抽出した標本で調査を行っている以上,母集団について間違った推定を行ってしまう可能性は,必ず存在します。

標本調査の結果から得られた結論を,母集団にも拡張しようとする時,

|αエラーもβエラーも “確率的に” 起きてしまうもの

なのです。

α も β も確率である,というのが重要なポイントです。

問題は,その「確率」のどこに線を引いて,どこまでを許容するか,という私たちの視点の方です。

この点について,もう少し突っ込んで考えてみましょう。

エラーの許容範囲

結論から言えば,医学研究の世界では 通例,

  • 1型エラー(αエラー):5%まで許容される
  • 2型エラー(βエラー):20%まで許容される

ことが多いです。

研究デザインによては,αエラーを 1% までしか許容しない場合や,βエラーを 10 % までしか許容しない場合もあります。

いずれにせよ,αエラーの方が厳しく取り扱われることになります。

αエラーの社会的影響

なぜ αエラー は βエラー と比べて厳しい扱いをされているのでしょうか?

これは実際の世界への影響を考えてみるとわかります。

何の効果もないにもかかわらず「効く」と勘違いされた薬が世の中に出回ってしまうことは,社会にとって非常に重篤なダメージをきたすからです。

医療費は多くの国で一定額以上,公費で賄われるものです。

意味のない薬に巨額の公費が費やされることほどの悲劇はありませんよね。

日本の場合は,高齢者を除き原則 3 割自己負担ですので,逆を言えば 7 割は公費負担ということになります。

承認後に取り消し・リコールは至難

さらに,一度マーケットに出回ってしまった薬は,たとえ「実は意味がない」というデータが集まってきても,制度上ほとんどリコール不可能なのです。

明らかに「害」が上回るというデータが集まれば別ですが「毒にも薬にもならない」くらいのものだと,そのまま処方され続けることになってしまいます。

もちろん全ての医師に「大して意味ないよね〜」という意識が浸透すれば,いずれは処方されなくなり淘汰されることになりますが,それまで非常に長い時間の間,マーケットで出回り続けることになりかねません。

仮にそういう報告が集まってきても,やはり一定程度はエビデンスに疎い医師もいます。そうした医師はいつまでたっても処方し続けてしまうかもしれません。

害の報告や,「大して効かないよ」というような論文は,major 雑誌に accept されづらく,医師の目に留まりにくい,という構造的な問題もあります。

薬剤というものは「ただ無効」ということは少なく,一定の割合で副作用をきたすリスクがあります。

━━ 何にも効かないクセに処方され続けて医療費を増やし,時に副作用で患者さんを苦しめ,さらなる医療費を増やす ━━

そんな状態が長らく放置されることになりかねません。

このような事態を防ぐためにも,αエラーの基準は厳しめに設定されているのです。

βエラーの社会的影響

ではβエラーはどうでしょうか?

本当は「効く」薬が,標本調査の結果から(母集団でも)効かないと判断されてしまうことは,許容されることなのでしょうか?

たとえば新薬の承認をかけた 第 III 相試験などで「有意差」が出なければ,その薬は薬事承認を受けることができなくなってしまいます。「本当は効く」のだとしたら,これも問題ですよね。

その薬の開発を心待ちにしている患者さんからしたら明らかな不利益です。

しかし逆に言えば,不利益はそれだけです。社会全体に与える影響は,αエラーと比べれば大きくありません。

一度見逃されても,いつかは検出されるはず

それに,本当に「効く」薬なのであれば,いつか誰かが必ずその「有意性」を示す時がきます。本当に意味があるものを,世界中の科学者が見逃し続けることはよほどありません。

ある研究者がぼんやり見逃した有意差は,誰か別の研究者がいつか必ず検出してくれます。

βエラーのせいでその新薬がマーケットに出るタイミングが遅れてしまうかもしれませんが,不利益はそれだけなのです。

さらに,承認が遅れることは必ずしも悪いことばかりではありません。その期間には安全性についてより深く検証ができる(データが集まる)という利点もあります。

このような点から,βエラーはαエラーと比べてユルめの許容範囲がとられているのです。

補足:βエラーがユルいと困る場合
ただしβエラーがユルめでも許容されるのは,あくまで「治療効果」に関する話です。「害」について研究するいわゆる「安全性試験」では,話が変わります。そうした試験デザインでは,有害性を検出できない、、、、、、、、、、ことの方がかえって問題となるため,βエラーを少なくするための工夫が必要です。

どこまで言っても事実は不確定

繰り返しになりますが,結局のところ〈母集団〉を直接調べているわけではないため,〈本当の真実〉を調べることは原理的に不可能です。

そもそも世界や未来というものは不確実なものであって「確実な結論」などというものは幻想に過ぎません。

そのため,しばしば以下のような果てなき議論が繰り返されてしまいます(▼)。

終わりなきαエラーとβエラーの神学論争

かつてはこのような議論は永遠に平行線で,

じゃあ実際問題どうしておいた方が確率的に妥当なのか?

という現実的な問いに対して答えを与えてくれるものがありませんでした。

推測統計が「妥当な意思決定」を可能に

しかし推測統計やランダム化比較試験 RCT の手法が確立されたことで,人類はついに不確定なものごとを科学の爼上で扱えるようになりました。

たぶんこういう意思決定をしておいたほうが,確率的には得する可能性が高いだろう

そういう現実主義的な意思決定が可能になったのは,科学にとって非常に大きな進歩だったことは間違いありません(▼)。

αエラーとβエラーと推測統計で意思決定するマン

司法の世界では?

少し話が変わりますが,I 型エラー(αエラー)と II 型エラー(βエラー)は司法の世界でも重要となる考え方です。

殺人容疑者の逮捕・起訴について考えてみましょう。

この時,裁判官は犯行現場を見ていないはずであり,原則として【真実】を知らないはずです。

しかし裁判官は,真実を知らないにもかかわらず,有罪か無罪かの二者択一を迫られます。そのために用いるデータは,弁護人と検察官の提示する一見尤もらしい証拠です。

これは,研究者が母集団調査をせずに(真実を知らずに)標本調査から「有意」かそうでないか判断することと類似していますよね。

ですからやはり司法の世界でも,以下の2つのエラーがあり得ます。

  1. 容疑者が本当は誰も殺害していないのに,実刑判決を受ける(冤罪)
  2. 容疑者は本当に誰かを殺害したが,無罪となり野に放たれる(見逃し)

これはまさに,前者が I 型エラー(α)で,後者が II 型エラー(β)に合致しています。

司法の世界には「疑わしきは罰せず」という大原則がありますから,医学研究同様,II 型エラー(見逃し)よりも I 型エラー(冤罪)を重大な問題と考えているようです。

この原則を遵守すると,むしろ医学研究の世界よりも厳しいα水準で判断を行うことになります。

5%どころか,1%のαエラー(冤罪)も許されない,ということですね(▼)。

司法ではαエラーを絶対に許してはいけない

まとめ

Thinking light

まとめ

  • 標本調査から母集団を推定する際,
    常に「誤った推定」をしてしまう可能性がつきまとう
  • αエラー:「本当はない」差を「ある」と言ってしまう間違い
  • βエラー:「本当はある」差を「ない」と言ってしまう間違い
  • いずれも研究者が慣例的に「許容できる線引き」を決めている
    ┗ 通例,αエラーは 1〜5%,βエラーは 10〜20 %
  • αエラーの方が社会的影響が大きいため,厳しく取り扱われる

Alpha beta

[おすすめ本紹介]

ファクトフルネス FACTFULNESS


ビル・ゲイツが希望者全員に配布したことで有名な世界的超ベストセラー。スウェーデン医師・国際保健学教授である筆者が,誰もが勘違いしている「世界の事実」を1つ1つ挙げながら,本質を歪めて見てしまう人間の本能・バイアスを列挙していきます。脳髄に金槌で釘を打ち込まれるくらいの衝撃を何度も与えてくれる名著です。やや分厚い本ですが,Audible なら通勤時間で聞けてしまうので,大変オススメです。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG