この記事では
ということについて,基本的内容に絞ってまとめます。
さらりと解説されて終わってしまうことが多い概念ですが,その本質的な部分をしっかり理解しておかないと,研究結果の解釈に大きな誤解をしてしまう可能性があります。一緒に整理していきましょう。
最初に本項のまとめを提示します。
- 標本調査から母集団を推定する際,常に「誤った推定」をしてしまう可能性がつきまとう
- αエラー:「本当はない」差を「ある」と言ってしまう間違い
- βエラー:「本当はある」差を「ない」と言ってしまう間違い
- いずれも研究者が慣例的に「許容できる線引き」を決めている
- αエラーの方が社会的影響が大きいため,厳しく取り扱われる
- αエラー:本当は帰無仮説(*)が正しいのに,誤って棄却してしまう誤り。
- βエラー:本当は帰無仮説(*)が誤りなのに,棄却し損ねてしまう誤り。
(*)=「母集団においては,本当は差など生じない」という前提条件
この記事の内容は,以下の動画でより詳細に解説しています(▼)。合わせてチェックいただければ嬉しいです。
αエラーとβエラーの定義
「標本調査の結果から,母集団調査の結果を推定する」 ── この手続きあるいは学問全般を,〈推測統計〉と呼ぶのでした。
そして〈推測統計〉の手法の中では,実際に母集団そのものを調査しているわけでない以上,どうしても限界があります。
という可能性が,常に一定程度あるわけです。
母集団を直接調べているわけではないのですから,そのような誤った推定をしてしまう可能性は,どうしてもゼロにできません。これは構造的な問題です。
そして,その「誤った推定」のことを過誤(エラー)と呼び,αエラーとβエラーの2種類に大別されます。
ランダム化比較試験の例
実例を見ながら見ていきましょう。
お魚をたくさん摂っている人は心筋梗塞の発症リスクが低そうだ!
そんな情報を聞きつけた研究者が,以下の研究をデザインしたとします。
- 試験参加者を,魚油サプリメントA を内服し続ける群と,偽薬 B を内服し続ける群にランダムに割り振る。
- 一定期間両群を追跡し,心筋梗塞の発症率に「差が出る」か検討する。
この時,本当は母集団(あらゆる対象者)全員を対象者として研究を行いたいのですが,そのような大規模研究はコスト的にも倫理的にも現実的ではありません。
そこで,やむを得ず手ごろな参加者(=標本)をランダムに募って,その結果から,母集団でも効果があるのかどうかを推定しようと試みます。
αエラーとは何か?
さて,このとき,実はすでに母集団における【真実】が分かっていたと仮定します(現実にはあり得ません)。
そして【真実】は以下(▼)のようでした。
この場合,得られた標本データからもしっかり「差がない」と結論できたのであれば,研究結果には何の問題もありません。
しかし,本当は(母集団では)差なんてないのに,手元の標本から得られたデータを基にして「差がある」と結論してしまうのは問題です。【真実】と推定結果がズレてしまっているからです。
こうしたエラーのことを,第一種の過誤(type I error;α error)と呼び,こんな誤解をしてしまう確率を α と表します。
βエラーとは何か
また逆に,
とわかっていた,と仮定しましょう。
この時,標本調査で得られたデータからも「差がある」と結論できたのであれば,これも問題ありません。
しかし,本当は(母集団では)差があるのに,手元の標本から得られたデータを基にして「差がない」と判断してしまうのも,やはり問題です。
このエラーのことを,第二種の過誤(type II error;β error)と呼び,この誤解を犯してしまう確率を β と表します。
αエラーとβエラーの模式図
ここまでの内容をまとめると,以下のようになります(▼)。
- 本当は(母集団では)差がないものを,あると言う = αエラー
- 本当は(母集団では)差があるものを,ないと言う = βエラー
実際の統計学的仮説検定では「母集団では差がない」という帰無仮説を棄却するのかしないのか,という手続きになりますから,厳密な定義は以下のようになります。
- αエラー:「帰無仮説が正しいのに誤って棄却してしまうこと」
- βエラー:「帰無仮説は誤りなのに棄却し損ねてしまうこと」
を意味します。
αエラー と βエラー の線引き
母集団そのものではなく抽出した標本で調査を行っている以上,母集団について間違った推定を行ってしまう可能性は,必ず存在します。
標本調査の結果から得られた結論を,母集団にも拡張しようとする時,
です。そしてこの「α も β も確率である」というのは大変重要なポイントです。
問題は,私たちがその「確率」のどこに線を引いて,どこまでを許容するか,という考え方の側にあります。この点について,もう少し突っ込んで考えてみましょう。
エラーの許容範囲
結論から言えば,医学研究の世界では 通例,
- 1型エラー(αエラー):5%まで許容される
- 2型エラー(βエラー):10-20%まで許容される
ことが多いです。研究デザインによっては,αエラーを 1% までしか許容しない場合もあります。
いずれにせよ共通していることは,αエラーの方が厳しく取り扱われるということです。
αエラーの社会的影響
なぜ αエラー は βエラー と比べて厳しい扱いをされているのでしょうか?
これは実際の世界への影響を考えてみるとわかります。
何の効果もないにもかかわらず「効く」と勘違いされた薬が世の中に出回ってしまうことは,社会にとって非常に重篤なダメージをきたすからです。
医療費は多くの国で一定額以上,公費で賄われるものです。意味のない薬に巨額の公費が費やされることほどの悲劇はありません。
承認後に取り消し・リコールは至難
さらに,一度マーケットに出回ってしまった薬は,たとえ「実は意味がない」というデータが集まってきても,ほとんどリコール不可能なのです。明らかに「害」が上回るというデータが集まれば別ですが「毒にも薬にもならない」くらいのものだと,そのまま処方され続けることになってしまいます。
もちろん全ての医師に「大して意味ないよね〜」という意識が浸透すれば,いずれは処方されなくなり淘汰されることになりますが,それまで非常に長い時間の間,マーケットで出回り続けることになりかねません。
仮にそういう報告が集まってきても,やはり一定程度はエビデンスに疎い医師もいます。そうした医師はいつまでたっても処方し続けてしまうかもしれません(*)。
薬剤というものは「ただ無効」ということは少なく,一定の割合で副作用をきたすリスクがあります。何にも効かないクセに処方され続けて医療費を増やし,時に副作用で患者さんを苦しめ,さらなる医療費を増やす──そんな状態が長らく放置されることになりかねません。
このような事態を防ぐためにも,αエラーの基準は厳しめに設定されているのです。
βエラーの社会的影響
ではβエラーはどうでしょうか?
本当は「効く」薬が,標本調査の結果から(母集団でも)効かないと判断されてしまうことは,許容されることなのでしょうか?
たとえば新薬の承認をかけた 第 III 相試験などで「有意差」が出なければ,その薬は薬事承認を受けることができなくなってしまいます。「本当は効く」のだとしたら,これも問題です。その薬の開発を心待ちにしている患者さんからしたら明らかな不利益です。
しかし逆に言えば,不利益はそれだけです。社会全体に与える影響は,αエラーと比べれば大きくありません。
一度見逃されても,いつかは検出されるはず
また,その薬が本当に「効く」薬なのであれば,いつか誰かが必ずその「有意性」を示す時がきます。本当に意味があるものを,世界中の科学者が見逃し続けることはよほどありません。
ある研究者がぼんやり見逃した有意差は,誰か別の研究者がいつか必ず検出してくれます。
βエラーのせいでその新薬がマーケットに出るタイミングが遅れてしまうかもしれませんが,不利益はそれだけなのです。
さらに,承認が遅れることは必ずしも悪いことばかりではありません。その期間には安全性についてより深く検証ができる(データが集まる)という利点もあります。
このような点から,βエラーはαエラーと比べてユルめの許容範囲がとられているのです。
- |βエラーがユルいと困る場合
- ただしβエラーがユルめでも許容されるのは,あくまで「治療効果」に関する話です。「害」について研究するいわゆる「安全性試験」では,話が変わります。そうした試験デザインでは,有害性を検出できないことの方がかえって問題となるため,βエラーを少なくするための工夫が必要です。
どこまで言っても事実は不確定
繰り返しになりますが,結局のところ〈母集団〉を直接調べているわけではないため,〈本当の真実〉を調べることは原理的に不可能です。
そもそも世界や未来というものは不確実なものであって「確実な結論」などというものは幻想に過ぎません。そのため,しばしば以下のような果てなき議論が繰り返されてしまいます(▼)。
かつてはこのような議論は永遠に平行線で,
じゃあ実際問題どうしておいた方が確率的に妥当なのか?
という現実的な問いに対して答えを与えてくれるものがありませんでした。
推測統計が「妥当な意思決定」を可能に
しかし推測統計やランダム化比較試験 RCT の手法が確立されたことで,人類はついに不確定なものごとを科学の爼上で扱えるようになりました。
たぶんこういう意思決定をしておいたほうが,確率的には得する可能性が高いだろう
そういう現実主義的な意思決定が可能になったのは,科学にとって非常に大きな進歩だったことは間違いありません(▼)。
司法の世界では?
少し話が変わりますが,I 型エラー(αエラー)と II 型エラー(βエラー)は司法の世界でも重要となる考え方です。
殺人容疑者の逮捕・起訴について考えてみましょう。
この時,裁判官は犯行現場を見ていないはずであり,原則として【真実】を知らないはずです。
しかし裁判官は,真実を知らないにもかかわらず,有罪か無罪かの二者択一を迫られます。そのために用いるデータは,弁護人と検察官の提示する一見尤もらしい証拠です。
これは,研究者が母集団調査をせずに(真実を知らずに)標本調査から「有意」かそうでないか判断することと類似しています。ですからやはり司法の世界でも,以下の2つのエラーがあり得ます。
- 容疑者が本当は誰も殺害していないのに,実刑判決を受ける(冤罪)
- 容疑者は本当に誰かを殺害したが,無罪となり野に放たれる(見逃し)
これはまさに,前者が I 型エラー(α)で,後者が II 型エラー(β)に該当します。
司法の世界には「疑わしきは罰せず」という大原則がありますから,医学研究同様,II 型エラー(見逃し)よりも I 型エラー(冤罪)を重大な問題と考えることになります。むしろ医学研究の世界よりも厳しいα水準で判断を行うことになります。
5%どころか,1%のαエラー(冤罪)も許されない,ということですね(▼)。
まとめ
- 標本調査から母集団を推定する際,
常に「誤った推定」をしてしまう可能性がつきまとう - αエラー:帰無仮説が正しいのに,誤って棄却してしまう間違い
- 「本当はない差」を「ある」という間違い
- βエラー:帰無仮説は間違いなのに,棄却し損ねてしまう間違い
- 「本当はある差」を見過ごしてしまう間違い
- いずれも研究者が慣例的に「許容できる線引き」を決めている
┗ 通例,αエラーは 1〜5%,βエラーは 10〜20 % - αエラーの方が社会的影響が大きいため,厳しく取り扱われる