- 平均値も中央値も,いずれもデータ全体の〈代表値〉
- データの分布が歪んでいるとき:中央値 median
- データが正規分布に近いとき:平均値 mean
- 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる
この記事の内容は動画にもしています(▼)。
2つの代表値:平均値・中央値
〈平均値 mean〉と〈中央値 median〉は,いずれも
です。
平均値と中央値の使い分けは?
そして,代表値としてこれらを用いる時の使い分けは,非常にシンプルです。
これだけです。
この記事では,主にこの点に着目しながら平均値と中央値の違いをまとめて行きたいと思います。
平均値と中央値の違い
実際に簡単な具体例を見ながら考えてみましょう。
- データの分布が歪んでいないときの例
- データの分布の歪みが大きいときの例
1. データの分布が歪んでいないとき
ある職場の16人のアルバイトの勤続年数を集計してみた状況を考えます。
得られたデータは,下図のようになっていました。
今回のデータでは平均値も中央値も同じで「5」ということですが,実際の算出過程も見てみましょう。
平均値の算出方法
まずは平均値です。平均値は周知の通り,以下の定義で表されます(▼)。
上の例で実際に計算すると,次のようになります。
= 5.0
平均値は5となりました。
中央値の算出方法
いっぽう中央値は
です。
しかし今回は標本が偶数(16人)です。そのため本当の意味で「真ん中」の値は存在しません。しいて言えば「8番目の 5」と「9番目の 5」の「間」が真の「真ん中」と言えます。
このように標本が偶数の場合「真ん中の2つの数字の平均をとる」約束になっています(通例)。
そのため,ここでは中央値 5 となります(5と5の平均)。
最頻値の算出方法
ちなみに,もう1つの〈代表値〉として〈最頻値 mode〉と呼ばれるものもあります。これは文字通り,最も頻度の高かった数値を表すものです。
上記の例では,最も多い値は 5 なので,最頻値も 5 となります。
今回はいずれも同じ
つまり今回のデータでは,平均値 5 で,中央値 5 で,最頻値 5 ということです。
一般に正規分布(▼)に近いデータの分布であれば,平均値と中央値と最頻値はほとんど一致することが知られています。
この様な場合であれば,代表値として〈平均〉を用いても〈中央値〉を用いても,妥当な要約になると言えます。
2. データの分布の歪んでいるとき
では,データの分布に歪みが大きい場合についても検討してみましょう。
再びある職場の16人のアルバイトの勤続年数を集計してみた結果,下図のようになりました。
平均値の算出
実際に平均値を求めてみましょう。上の例では,
= 2.0
より,平均値は2と分かります。
中央値の算出
中央値は「全ての値を小さい方から順に並べ,真ん中の値」ですから,「8番目の 1」と「9番目の 1」の平均になります。
つまり中央値は 1 です。
現実に即している代表値を用いる
さてこのとき,勤続年数のデータの要約としては,平均値と中央値,どちらが適切でしょうか。
このとき平均値を用いると,16 人のうちほぼ全員が勤続 1 年目であるにもかかわらず,
この職場のアルバイトの平均勤続年数は 2 年です!
と表現してしまうことになります。果たしてこれは適切でしょうか。
いっぽう中央値を用いて表現すれば
この職場のアルバイトの勤続年数の中央値は 1 年です!
となります。こちらのほうが,より現実に即したイメージを伝えられるのではないかと思います。
つまりデータの分布に大きな歪みがある場合,〈平均値〉は代表値として不適切になりやすい,ということです。
遠足のお菓子アンケート
他の例として,父兄への “遠足のお菓子の予算アンケート” を考えてみましょう。
このとき,ほとんどの親御さんは「500 円くらいが妥当」と答えたのに,ごく一部のブルジョアお母さんが 2500 円や 3000 円,5000 円などと回答してきたとします。
その場合,〈平均〉をとると上方向に引っ張られてしまう可能性があります。
こうした状況では,外れ値の影響を受けにくい〈中央値〉を選んだ方が,多くの親御さんの意見に即した答えとなることでしょう。
中央値を用いることの強み
ここまでの例で見てきた様に,中央値 median の強みは
ということです。
〈代表値〉というのはその名の通り「元データをきちんと代表したもの」であるべきで,〈中央値〉はその点で汎用性が高いと言えます。
むしろ〈平均値〉は〈正規分布〉などのごく一部の分布を除き,データの要約にはあまり適しません。
「平均年収」の問題
世間でよく言われる
「平均年収」が実態を反映していない!
という問題も,年収が〈正規分布〉でないために起きる問題です。
実際には下図(▼)の様に,一定のピークのあと長く尾を引く分布となっていることが知られています。
この様な分布の場合,少数ながらも実在する〈腰を抜かすほどの高年収〉のブルジョアが,データ全体を上方向に引っ張り上げてしまいます。
結果として,平均値は最頻値や中央値と比べてかなり高い値になってしまいます。
中央値で表現すれば誤解は少ない
結局のところ
わけですが,とりあえず〈中央値〉を使っておけば,誤解の少ない〈代表値〉となります。
そのため近年では,標本データを要約するような図表においては,元データの分布にかかわらず〈中央値〉を記載することが通例となりつつあります。
不適切な〈平均〉にご用心
なお,この問題を逆手に取って〈平均値〉が悪用されるようなケースもあります。人々を誤解させうることを踏まえた上で,
データの要約として〈平均値〉が適さないにも関わらず,あえて〈平均値〉を提示する
といったことは少なくありません。
身近な例だと,求人情報で「管理職も含めた平均年収」を掲示する場合などがそれに当たります。
その様な情報に騙されないために,
そして
が重要であると言えます。
なぜ〈代表値〉を用いるのか
〈代表値〉を使ってデータを要約する目的は,ひとえに「限られたスペース」にデータを詰め込んでわかりやすく伝えるため,と言えます。
極論を言えば,全標本データがヒストグラムなどのグラフで示されていれば,データの分布は一目瞭然ですし,それに越したことはありません。
しかし論文や記事,現場での会話など「限られた文字数」「限られたスペース」では全てをグラフにして示すことなどできません。
例えば医学系の論文では,研究参加者の年齢,性別,喫煙本数,心臓血管疾患の既往歴などなど様々な背景因子を調査して表に示しますが,そのすべての分布を1つ1つグラフで示していては,それだけで紙面が埋まってしまいます。
ですから図表で示すかわりに〈代表値〉を用いて「ひとことで説明する」ということが行われるのです。
代表値だけでは不十分
しかし,〈代表値〉だけでは限界もあります。これだけでは,データの「分布」や「バラツキ」について全く情報がないのです。
例えば単純に「平均5年の勤続年数の職場」と言われても,以下の全てが当てはまってしまいます(▼)。
- 職場 A:3, 3, 5, 5, 5, 5, 7, 7(年) ➡︎ 平均 5,中央値 5
- 職場 B:1, 2, 3, 5, 5, 7, 8, 9(年)➡︎ 平均 5,中央値 5
- 職場 C:5, 5, 5, 5, 5, 5, 5, 5(年)➡︎ 平均 5,中央値 5
〈代表値〉だけでは,上記のような「データの分布のイメージ」を伝えることができません。
そのため多くの科学論文では,
ということが行われます。
代表値には散布度を併記する
具体的には,以下の様な組み合わせの併記がよく行われます(▼)。
- 〈平均値〉に〈標準偏差 SD〉を添えて表記する
- 〈中央値〉に〈四分位範囲 IQR〉や〈範囲 range〉を添えて表記する
これにより「多数のデータを一行で要約する」ことが可能になります。
こうした要約を見た際,データの中身をある程度適切にイメージできるようになりたいものです。
本項の解説内容 標準偏差 SD はデータのバラツキ具合を表す指標(=散布度)の 1つ 計算方法:〈平均からの偏差〉の〈二乗平均〉の平方根 標準偏差が大きい = 平均から離れたデータが多い = 散らばり大 データが正規分布に沿うとき,95 […]
まとめ
- 平均値も中央値も,いずれもデータ全体の〈代表値〉
- データの分布が歪んでいているとき:中央値 median
- データが正規分布に近い分布のとき:平均値 mean
- 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる
補足)アウトカムの指標としては平均値が主役
なお本稿ではここまで「データの要約」に代表値を用いる際の注意事項に絞って解説してきましたが,「推測・推定」の統計学においては,また話が異なります。
- |記述統計・推測統計
- ここまで見てきたように「データを要約する」統計を〈記述統計〉と呼びます。いっぽう,ビジネスや医学で重要となる「推測・推定」のための統計を〈推測統計〉と呼びます。ランダム化比較試験 RCT などの考え方は〈推測統計〉です。この両者の考え方をきちんと区別した上で理解することは統計入門の第一歩とも言われています。
アウトカムは平均値が好まれる
たとえば
高血圧患者さんに新しい降圧薬 X を投与したときの血圧低下幅がどの程度になるか,推定したい
というような場合を考えてみます。ここでの血圧低下幅のことを,興味のある指標ということで,アウトカムと呼びます。
このとき,古今東西すべての高血圧患者さん(母集団)を全て横並びに整列させて投薬しまくれば正しい「血圧低下幅」が判明しますが,現実にそのような介入はできません。
そのため,母集団をよく代表した標本として,数十〜数百人程度の患者さんをランダム抽出し,治験に参加してもらうことになります。
その「標本でのアウトカム」がどの程度か?という値を元に「母集団ではどの程度のアウトカムが期待できるか?」と推定するのが〈推測統計〉という手法です。
重要なのは,ここで数百人の標本から個別に得られる「血圧降下幅」のデータという〈アウトカム〉を要約する指標としては基本的に平均値が好まれるという点です。
つまり,この状況で「血圧低下量の中央値」を扱うことはほぼありません。
理由はいくつかありますが,1つには,そもそも推測統計で用いる〈区間推定〉という概念自体(=95%信頼区間など)が,根本的に平均値ベース(†)の考え方だからです。
──【中心極限定理・標準誤差の解説動画】
また〈中央値〉だと「よく効いたケース」があったときに数字に反映されにくいという問題もあります。外れ値の影響を受けない性質が,むしろ厄介になってしまうわけです。
- |中央値がアウトカムだと解釈も難しい
- 臨床試験は「集団に投与したとき得られる効果量の期待値」を算出するために行われるものです。対象となった標本集団の中には「極端によく効く人」も「極端に効かない人」も混在しますが,それらも全てひっくるめて合算し,集団として平均的な変化量を算出できればよいわけです。しかし〈中央値〉は「変化の順位」に着目する概念であり「データの変化量」という情報はむしろ除去されてしまいます。この点でアウトカム指標には不向きとされています。中央値がアウトカムだと,効果量の直感的解釈も難しくなります。
最終まとめ
以上の観点から平均値と中央値の特徴をまとめると,以下の様になります(▼)。
- データの要約:中央値を用いればデータの分布によらず妥当な代表値になる
- アウトカムの指標:平均値(の差)的な概念を用いるのが基本(※)
- |二値変数なら割合の差
- (※)ざっくりした表現で恐縮ですが,要するに中央値よりは「平均」的な概念を使うことが多い,ということです。厳密には,血圧値のように連続変数がアウトカムになる場合は〈平均値〉を用いますが,0か1か(心筋梗塞が起きるか起きないか)といった二値変数の場合は〈割合〉の差や比(リスク差・リスク比)を用います。ただ〈割合〉は二値変数(0 vs 1)における〈平均値〉のようなもので,数学的な処理は同じです。いっぽう「心筋梗塞を起こさずにいられる期間(=生存期間)」がアウトカムになる場合は少し複雑で,その場合はハザード関数を用いることになります。