【解説】平均値と中央値の違い & 使い分け|やわらか統計学

平均値と中央値
本項で解説する内容

  • 平均値も中央値も,いずれもデータ全体の〈代表値〉
  • データの分布が偏っているとき:中央値 median
  • データの分布に偏りがないとき:平均値 mean
  • 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる

この記事の内容は動画にもしています(▼)。

2つの代表値:平均値・中央値

〈平均値 mean〉と〈中央値 median〉,いずれも種々多様な統計でまず見かけますよね。

その数字だけで,データの全体を端的に要約するものであるため,いずれもデータ全体の〈代表値〉と呼ばれるものです。

ですが,この二つの違いは何なのでしょうか?

「平均値」については非常に耳馴染みのある概念かと思います。

  • 日本人全体の「平均給与」
  • 日本人女性の「平均身長」

では「中央値」とは何でしょうか。

  • 日本人全体の「給与中央値」
  • 日本人女性の「身長の中央値」

平均値と中央値の使い分けは?

中央値と平均値の「使い分け」について,「一言で説明してください」と言われたらどう答えるべきでしょうか。

いろいろ細かい説明はあるかと思いますが,結論から言ってしまえばポイントは シンプルに1つです。

データの分布に偏りがあるか?

これだけです。

この記事では,この点を踏まえて平均値と中央値の違いをまとめて行きたいと思います。

改めて知識を再確認したい,あるいはそもそも知らなかった,という方はぜひ読み進めて下さい!

平均値と中央値の違い

─ ads ─

データのバラツキがない場合の平均値と中央値

実際に簡単な具体例を見ながら考えてみましょう。

ある職場の16人のアルバイトの勤続年数を集計してみた結果,下図のようになりました。

平均値の算出方法

平均値の求め方は簡単です。

小学校で習うように,

データの総和を,その個数で割ったもの

が平均値です。

厳密には〈算術平均〉や〈相加平均〉というのが正しい名称ですが,文脈上明らかであれば単に〈平均〉と言ってしまいます。

上の例では実際に算出してみますと,以下の様になります。

(1+2+3+4+5+5+5+5+5+5+5+5+6+7+8+9)/16
= 5.0

中央値の算出方法

いっぽう中央値

全ての値を小さい方から順に並べ,ちょうど真ん中の値

です。

しかしこの 16 人ですと,母集団の人数が偶数なので,本当の意味で「真ん中」の値は存在しません。

強いて言えば「8番目の 5」と「9番目の 5」の「間」が真の「真ん中」と言えます。

中央値を求める際,標本が偶数の場合には「真ん中の2つの数字の平均をとる」約束になっているので,ここではやはり 5 となります。

最頻値の算出方法

ちなみに,もう1つの〈代表値〉として〈最頻値 mode〉と呼ばれるものもあります。これは文字通り,最も頻度の高かった数値を表すものです。

上記の例では,最も多い値は 5 なので,最頻値も 5 となります。

今回はいずれも同じ

つまり今回のデータでは,平均値 5 で,中央値 5 で,最頻値 5 ということです。
たまたまですが,同一の数値となりました。

一般に偏りがなく正規分布(▼)に近いデータの分布であれば,平均値と中央値と最頻値はほとんど一致することが知られています。

正規分布はガウス分布やベルカーブ bell curve とも言います。平均値/中央値の付近にデータが集積するような,左右対称・釣鐘型のデータの分布のことです。実際には数学的に厳密な定義があるのですが,ここでは割愛します。



from wikipedia

この様な場合であれば,代表値として〈平均〉を用いることも妥当です。

もちろん,〈中央値〉を選んでも適切な〈代表〉になっていると言えます。

データのバラツキが大きい場合の平均値と中央値

では,別のシチュエーションで検討してみましょう。

またある職場の16人のアルバイトの勤続年数を集計してみた結果,下図のようになりました。

今度は非常に偏った分布になっていることがポイントです。


シロ

ほとんどみんな新人だけど,
長老みたいなバイトリーダーが 2 人だけいるね…

ミケ

ただの例だからね…

平均値の算出

実際に平均値を求めてみましょう。

上の例では,

(1+1+1+1+1+1+1+1+1+1+1+1+1+1+9+9)/16
= 2.0

と示すことができます。

中央値の算出

中央値は「全ての値を小さい方から順に並べ,真ん中の値」ですから,「8番目の 1」と「9番目の 1」の平均になります。

つまり 1 です。

データをどう要約して人に伝えるか

この時,このデータを「一言で人に伝えよう」と思ったら,

平均値 2 (最小値1,最大値9)

と言った方が適切でしょうか? それとも

中央値 1(最小値1,最大値9)

と言った方が適切でしょうか?

実際には 16 人のうちほとんどがアルバイト 1 年目で,2 人だけ 9 年続けているバイトリーダーがいるという分布であるにもかかわらず,

この職場のアルバイトの平均勤続年数は 2 年です!

と言っても,全くピンと来ません。
現実に即していない印象を受けるのではないでしょうか。

むしろ

この職場のアルバイトの勤続年数の中央値は 1 年です!

と言えば,より現実に即したイメージを伝えられます。

遠足のお菓子アンケート

他の例として,父兄への “遠足のお菓子の予算アンケート” を考えてみましょう。

この時,ほとんどの親は 500 円と答えたのに,ごく数 % 程度の金銭感覚のぶっ壊れたブルジョアお母さんが 2500 円や 3000 円,5000 円などと回答してきた場合,〈平均〉をとると上方向に引っ張られてしまう可能性があります。

こうした状況では,外れ値の影響を受けにくい〈中央値〉を選んだ方が,多くの親御さんの意見に即した答えとなることでしょう。

中央値を用いることの強み

ここまでの例から分かります様に,

大きな外れ値があっても,正規分布でなくても,代表値として概ね妥当な値になる

のが中央値の強みであると言えます。

〈代表値〉というのはその名の通り「元データから見てきちんと《代表》たり得るもの」であるべきです。

そう考えると,〈平均値〉はむしろ,正規分布など一部の分布を除きデータの要約に用いるために不適切となることが多いのです。

「平均年収」の問題点

世間でよく言われる

「平均年収」が実態を反映していない!

という問題も,「年収」が正規分布でないために起きる問題です。

実際には下図(▼)の様に,一定のピークのあと長く尾を引く分布となっていることが知られています。

Rep val

この様な分布の場合,少数ながらも実在する〈腰を抜かすほどの高年収〉のブルジョアが,データ全体を上方向に引っ張り上げてしまいます。

結果として,平均値は最頻値や中央値と比べてかなり高い値になってしまいます。

中央値を選んでおけば間違いは少ない

結局,

データの分布の形によって最適な〈代表値〉は異なる

わけですが,元のデータの分布から大きな影響を受けにくい〈中央値〉は汎用性が高いものと言えます。

そのため〈平均〉と比べてより代表値として好ましい場合が多く,特に元データの分布にかかわらず〈中央値〉を記載する科学論文も増えています。とりあえず中央値を使っておけば,誤解の少ない代表値を述べることができるからです。

またその一方で,明確な意図を持って〈中央値〉が提示される場合もあります。

「データに外れ値があった」「正規分布とは違った」からこそ中央値を選んで記載している,という場合です。

さらにそれを逆手にとって,悪質な情報発信者が人々を誤解させるため,「データの要約として〈平均〉が適さないにもかかわらずあえて〈平均〉を提示する」なんてこともあります。

身近な例だと,求人情報で「管理職も含めた平均年収」を掲示する場合などがそれに当たります。

その様な情報に騙されないために,

本当に適切な代表値なのか?と疑うこと

そして

データが正規分布と勝手に勘違いしないこと

が重要であると言えます。

なぜ〈代表値〉を用いるのか

そもそも,全サンプルの生データそのものがヒストグラムや散布図などのグラフで示されていれば,データに偏りや外れ値があったかどうか一目瞭然ですし,それに越したことはありません。

しかし論文や記事,現場での会話など「限られた文字数」「限られたスペース」では全ての生データの分布をグラフにして示すことができません。

例えば医学系の論文では,対象者の年齢,性別,喫煙本数,心臓血管疾患の既往歴などなど様々な背景因子を調査して表に示しますが,そのすべての分布を1つ1つグラフで示していては,それだけで紙面が埋まってしまいますよね。

ですから,実際の論文では図表で示すかわりに〈代表値〉を用いて「ひとことで説明する」ということが行われるのです。

代表値だけでは不十分

しかし,情報を受け取る側からすれば,いきなり〈代表値〉だけを示されても,データの「分布」や「バラツキ」について知ることができません。

例えば単純に「平均5年の勤続年数の職場」と言われても,以下の全てが当てはまってしまいます(▼)

  • 職場 A:3, 3, 5, 5, 5, 5, 7, 7(年)
  • 職場 B:1, 2, 3, 5, 5, 7, 8, 9(年)
  • 職場 C:5, 5, 5, 5, 5, 5, 5, 5(年)

いずれも分布は全く異なるデータです。

代表値だけを人に伝えても「データの分布のイメージ」は伝えられないのです。

しかし〈代表値〉に加えて〈散布度〉を併記すれば,データの分布のイメージは非常に伝わりやすくなります。

散布度 = 分散・標準偏差 SD・平均偏差・範囲など

代表値は散布度と合わせて使う

そこで,実際の論文ではデータの分布を図示するかわりに〈代表値〉と〈散布度〉を併記することで「データの分布をひとことで説明する」ということが行われています。

つまり〈平均値〉や〈中央値〉といった代表値を明記しつつ,その横に〈標準偏差 SD〉や〈四分位範囲 IQR〉を添えたりしてデータ分布を「一行で述べる」ということが行われているのです。

その 1 行の記載で,読者に「分布をイメージしてね!」と言っているわけですね。

そのイメージが適切にできる様,私たちも〈代表値〉や〈散布度〉のそれぞれの特徴について,正しく理解しておきたいものです。

散布度や〈標準偏差〉については別記事で解説しています
合わせて読みたい

本項の解説内容標準偏差 SD はデータのバラツキ具合を表す指標(=散布度)の 1つ計算方法:〈平均からの偏差〉の〈二乗平均〉の平方根標準偏差が大きい = 平均から離れたデータが多い = 散らばり大データが正規分布に沿うとき,95 […]

まとめ

本頁のまとめ

  • 平均値も中央値も,いずれもデータ全体の〈代表値〉
  • データの分布がバラツいているとき:中央値 median
  • データの分布にバラツキが少ない or 正規分布:平均値 mean
  • 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる

[おすすめ本紹介]

ファクトフルネス FACTFULNESS


ビル・ゲイツが希望者全員に配布したことで有名な世界的超ベストセラー。スウェーデン医師・国際保健学教授である筆者が,誰もが勘違いしている「世界の事実」を1つ1つ挙げながら,本質を歪めて見てしまう人間の本能・バイアスを列挙していきます。脳髄に金槌で釘を打ち込まれるくらいの衝撃を何度も与えてくれる名著です。やや分厚い本ですが,Audible なら通勤時間で聞けてしまうので,大変オススメです。

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG