【解説】平均値と中央値の違い & 使い分け|やわらか統計学

平均値と中央値
本項で解説する内容

  • 平均値も中央値も,いずれもデータ全体の〈代表値〉
  • データの分布が偏っているとき:中央値 median
  • データの分布に偏りがないとき:平均値 mean
  • 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる

この記事の内容は動画にもしています(▼)。

2つの代表値:平均値・中央値

〈平均値 mean〉と〈中央値 median〉は,いずれも

データを一言で要約するもの

です。

その数字だけで,データの全体を端的にまとめる,ということから,〈代表値〉と呼ばれます。

平均値と中央値の使い分けは?

この二つの使い分けは,非常にシンプルです。

データの分布に偏りがあるか?

これだけです。

この記事では,この点を踏まえて平均値と中央値の違いをまとめて行きたいと思います。

平均値と中央値の違い

─ ads ─

データのバラツキがない場合の平均値と中央値

実際に簡単な具体例を見ながら考えてみましょう。

ある職場の16人のアルバイトの勤続年数を集計してみた結果,下図のようになりました。

平均値の算出方法

平均値の求め方は簡単です。

小学校で習うように,

データの総和を,その個数で割ったもの

が平均値です。

厳密には〈算術平均〉や〈相加平均〉というのが正しい名称ですが,文脈上明らかであれば単に〈平均〉と言ってしまいます。

上の例では実際に算出してみますと,以下の様になります。

平均 = (1+2+3+4+5+5+5+5+5+5+5+5+6+7+8+9)/16
= 5.0

中央値の算出方法

いっぽう中央値

全ての値を小さい方から順に並べ,ちょうど真ん中の値

です。

しかしこの 16 人ですと,標本が偶数なので,本当の意味で「真ん中」の値は存在しません。

強いて言えば「8番目の 5」と「9番目の 5」の「間」が真の「真ん中」と言えます。

中央値を求める際,標本が偶数の場合には「真ん中の2つの数字の平均をとる」約束になっているので,ここではやはり 5 となります。

最頻値の算出方法

ちなみに,もう1つの〈代表値〉として〈最頻値 mode〉と呼ばれるものもあります。これは文字通り,最も頻度の高かった数値を表すものです。

上記の例では,最も多い値は 5 なので,最頻値も 5 となります。

今回はいずれも同じ

つまり今回のデータでは,平均値 5 で,中央値 5 で,最頻値 5 ということです。

一般に偏りがなく正規分布(▼)に近いデータの分布であれば,平均値と中央値と最頻値はほとんど一致することが知られています。

正規分布はガウス分布やベルカーブ bell curve とも言います。平均値/中央値の付近にデータが集積するような,左右対称・釣鐘型のデータの分布のことです。実際には数学的に厳密な定義があるのですが,ここでは割愛します。



from wikipedia

この様な場合であれば,代表値として〈平均〉を用いても〈中央値〉を用いても,妥当な要約になると言えます。

データのバラツキが大きい場合の平均値と中央値

では,別のシチュエーションで検討してみましょう。

またある職場の16人のアルバイトの勤続年数を集計してみた結果,下図のようになりました。

今度は非常に偏った分布になっていることがポイントです。


ほとんどみんな新人だけど,
長老みたいなバイトリーダーが 2 人だけいるね…
ただの例だからね…

平均値の算出

実際に平均値を求めてみましょう。上の例では,

平均 = (1+1+1+1+1+1+1+1+1+1+1+1+1+1+9+9)/16
= 2.0

と示すことができます。

中央値の算出

中央値は「全ての値を小さい方から順に並べ,真ん中の値」ですから,「8番目の 1」と「9番目の 1」の平均になります。

つまり 1 です。

データをどう要約して人に伝えるか

この時,このデータを「一言で人に伝えよう」と思ったら,

平均値 2 (最小値1,最大値9)

と言った方が適切でしょうか? それとも

中央値 1(最小値1,最大値9)

と言った方が適切でしょうか?

現実に即している代表値を用いる

実際には 16 人のうちほとんどがアルバイト 1 年目で,2 人だけ 9 年続けているバイトリーダーがいるという分布であるにもかかわらず,

この職場のアルバイトの平均勤続年数は 2 年です!

と言っても,全くピンと来ません。
現実に即していない印象を受けるのではないでしょうか。

一方,

この職場のアルバイトの勤続年数の中央値は 1 年です!

と言えば,より現実に即したイメージを伝えられます。

遠足のお菓子アンケート

他の例として,父兄への “遠足のお菓子の予算アンケート” を考えてみましょう。

このとき,ほとんどの親御さんは「500 円くらいが妥当」と答えたのに,ごく一部のブルジョアお母さんが 2500 円や 3000 円,5000 円などと回答してきたとします。

その場合,〈平均〉をとると上方向に引っ張られてしまう可能性があります。

こうした状況では,外れ値の影響を受けにくい〈中央値〉を選んだ方が,多くの親御さんの意見に即した答えとなることでしょう。

中央値を用いることの強み

ここまでの例で見てきた様に,中央値 median の強みは

大きな外れ値があっても,正規分布でなくても,概ね妥当な〈代表値〉になる

ということです。

〈代表値〉というのはその名の通り「元データをきちんと代表、、したもの」であるべきで,〈中央値〉はその点で汎用性が高いと言えます。

むしろ〈平均値〉は〈正規分布〉などのごく一部の分布を除き,データの要約にはあまり適しません。

「平均年収」の問題

世間でよく言われる

「平均年収」が実態を反映していない!

という問題も,年収が〈正規分布〉でないために起きる問題です。

実際には下図(▼)の様に,一定のピークのあと長く尾を引く分布となっていることが知られています。

Rep val

この様な分布の場合,少数ながらも実在する〈腰を抜かすほどの高年収〉のブルジョアが,データ全体を上方向に引っ張り上げてしまいます。

結果として,平均値は最頻値や中央値と比べてかなり高い値になってしまいます。

中央値を選んでおけば間違いは少ない

結局のところ

データの分布によって最適な〈代表値〉は異なる

わけですが,とりあえず〈中央値〉を使っておけば,誤解の少ない〈代表値〉となります。

そのため近年では,標本データを要約するような図表においては,元データの分布にかかわらず〈中央値〉を記載することが通例となりつつあります。

不適切な〈平均〉にご用心

なお,この問題を逆手に取って〈平均値〉が悪用されるようなケースもあります。

人々を誤解させるため,

データの要約として〈平均値〉が適さないにも関わらず,あえて〈平均値〉を提示する

といったことは少なくありません。

身近な例だと,求人情報で「管理職も含めた平均年収」を掲示する場合などがそれに当たります。

管理職の報酬が他の社員と比べて極めて高い場合,平均値を押し上げてしまうため,妥当な代表値になりません。

その様な情報に騙されないために,

本当に適切な代表値なのか?と疑うこと

そして

データが正規分布と勝手に勘違いしないこと

が重要であると言えます。

なぜ〈代表値〉を用いるのか

〈代表値〉を使ってデータを要約する目的は,ひとえに「限られたスペース」にデータを詰め込んでわかりやすく伝えるため,と言えます。

極論を言えば,全標本データそのものがヒストグラムや散布図などのグラフで示されていれば,データに偏りや外れ値があったかどうか一目瞭然ですし,それに越したことはありません。

しかし論文や記事,現場での会話など「限られた文字数」「限られたスペース」では全てをグラフにして示すことなどできません。

例えば医学系の論文では,研究参加者の年齢,性別,喫煙本数,心臓血管疾患の既往歴などなど様々な背景因子を調査して表に示しますが,そのすべての分布を1つ1つグラフで示していては,それだけで紙面が埋まってしまいます。

ですから図表で示すかわりに〈代表値〉を用いて「ひとことで説明する」ということが行われるのです。

代表値だけでは不十分

しかし,〈代表値〉だけでは限界もあります。これだけでは,データの「分布」や「バラツキ」について知らせることができません。

例えば単純に「平均5年の勤続年数の職場」と言われても,以下の全てが当てはまってしまいます(▼)。

「平均勤続年数5年の職場」のパターン

  • 職場 A:3, 3, 5, 5, 5, 5, 7, 7(年)
  • 職場 B:1, 2, 3, 5, 5, 7, 8, 9(年)
  • 職場 C:5, 5, 5, 5, 5, 5, 5, 5(年)

〈代表値〉だけを人に伝えても「データの分布のイメージ」は伝えられません。

そこで

〈代表値〉に〈散布度〉を併記する

ということが行われます。

これによって,データの分布のイメージをもう少し具体的に伝えることができるようになります。

散布度 = 分散・標準偏差 SD・平均偏差・範囲など

代表値は散布度と合わせて使う

〈平均値〉や〈中央値〉に〈標準偏差 SD〉や〈四分位範囲 IQR〉を添えると,データの分布を「一行で要約する」ことが可能になります。

その 1 行の記載で,読者に「分布をイメージしてね」と言っているわけですね。

そのイメージが適切にできる様,私たちも〈代表値〉や〈散布度〉のそれぞれの特徴について,正しく理解しておきたいものです。

散布度や〈標準偏差〉については別記事で解説しています
合わせて読みたい

本項の解説内容標準偏差 SD はデータのバラツキ具合を表す指標(=散布度)の 1つ計算方法:〈平均からの偏差〉の〈二乗平均〉の平方根標準偏差が大きい = 平均から離れたデータが多い = 散らばり大データが正規分布に沿うとき,95 […]

まとめ

本頁のまとめ

  • 平均値も中央値も,いずれもデータ全体の〈代表値〉
  • データの分布がバラツいているとき:中央値 median
  • データの分布にバラツキが少ない or 正規分布:平均値 mean
  • 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる

[おすすめ本紹介]

User’s Guides to the Medical Literature


EBMを学ぶにあたり 1 冊だけ選ぶとしたら間違いなくコレ,という一冊です。著者 Gordon Guyatt 先生は「EBM」という言葉を作った張本人。かなり網羅性が高く分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「User’s Guides to the Medical Literature (JAMA)」の邦訳版です。一生言い続けますが,EBMと言えばこの1冊です。唯一の欠点は,Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG