- 標準偏差 SD はデータのバラツキ具合を表す指標(=散布度)の 1つ
- 計算方法:〈平均からの偏差〉の〈二乗平均〉の平方根
- 標準偏差が大きい = 平均から離れたデータが多い = 散らばり大
- データが正規分布に沿うとき,95 % は平均 ± 2SDに含まれる
標準偏差:バラツキの指標(散布度)
の1つです。このようなデータのバラツキの指標のことを〈散布度〉と呼びます。
「データを一言で要約する」ときは,以下のように〈代表値〉と〈散布度〉を併記するのが一般的なのでした。
- 平均値に標準偏差 SD を併記する
- 中央値に四分位範囲 IQR や 範囲 range を併記する
本項で解説する内容 平均値も中央値も,いずれもデータ全体の〈代表値〉 データの分布が歪んでいるとき:中央値 median データが正規分布に近いとき:平均値 mean 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる […]
このとき,なぜ〈代表値〉だけではダメかというと,同じ〈代表値〉をとるデータの集まりであっても,いろいろなパターンの分布が考えられるためです。
散布度の使い方
代表値だけでは限界がある
例として,以下のデータの〈代表値〉について考えてみましょう。
- 職場 A:3, 3, 5, 5, 5, 5, 7, 7(年) ➡︎ 平均 5 年
- 職場 B:1, 2, 3, 5, 5, 7, 8, 9(年) ➡︎ 平均 5 年
- 職場 C:5, 5, 5, 5, 5, 5, 5, 5(年) ➡︎ 平均 5 年
いずれも中身は全く異なりますが,全て「平均勤続 5 年の職場」です。
職場 A も職場 B も職場 C も,代表値のみでは区別できません。〈代表値〉だけでは要約として大雑把すぎ,情報が不十分だということです。
しかし〈代表値〉に〈散布度〉を併記すれば,データの分布のイメージが一段と伝わりやすくなります。
散布度を併記してみる
たとえば,もっとも直感的に理解しやすい〈散布度〉である〈範囲〉を併記してみますと,以下の様になります(▼)。
- 職場 A:平均 5年(範囲:3年〜7年)
- 職場 B:平均 5年(範囲:1年〜9年)
- 職場 C:平均 5年(範囲:5年〜5年)
単に「平均勤続 5 年の職場」と言うだけでは伝わらないデータの分布が,一定程度イメージできるようになったと思います。
散布度はこのように使います。今回扱う〈標準偏差 SD〉も,上記の様に〈平均値〉に併記して使うことが多い指標です。
散布度の種類
代表的な〈散布度〉は,以下の通りです。
- 範囲(range):最大値と最小値
- 四分位範囲(IQR):第 2 四分位 〜 第 3 四分位(真ん中の50%)
- 分散(variance):標準偏差の 2 乗
- 標準偏差(SD):今回のテーマ
以下では,実際に〈標準偏差〉とは何なのか,どの様にして算出するものなのかを取り上げていきます。
- |要約統計量
- なお〈代表値〉や〈散布度〉の様にデータの特徴を要約して記述するものを〈要約統計量〉と総称します。
標準偏差の求め方
まず,標準偏差の数学的な定義を端的に述べると,以下の様になります(▼)。
この計算プロセスをもう少しわかりやすく分割すると,次の様になります。
- 得られた全データの〈平均〉 \(\bar{x}\) を求める
- 個々のデータと〈平均〉との差:〈偏差〉を求める
- 個々のデータの〈偏差〉の二乗:〈偏差平方〉を求める
- 〈偏差平方〉の平均:〈分散〉を求める
- 〈分散〉の正の平方根をとる:それが〈標準偏差 SD〉
こう書いてしまうと一見ややこしそうな感じもしますが,実際の計算は単純明快です。
実際に STEP を踏んで計算していきましょう!
STEP1:「平均」を求める
Aクラスの 8人の学生と,B クラスの 8人の学生を対象に,ある同一の数学テストを行った状況を考えてみます。
この時のテストの点数は次の通りでした。
【Bクラス】10点,20点,30点,50点,50点,60点,80点,100点
まずは【STEP 1】です。
それぞれのクラスについて平均点を求めると,AクラスもBクラスも 50 点になっています。
しかし同じ 平均 50 点とはいっても,Aクラスと Bクラスではかなり点数のばらつきに差がありそうです。そこで A クラスと B クラスにおける,テストの点数の〈標準偏差〉を比較するのが今回のゴールです。
STEP2:〈偏差〉を求める
続いて【STEP 2】,A・Bクラス双方のテストの得点について〈偏差〉を求めます。
ここで言う〈偏差〉とは,個々のデータと平均値との差 です。
AクラスもBクラスも平均点は50点ですので,偏差は下記の様になります。
素点:40点,45点,50点,50点,50点,50点,55点,60点
偏差:-10点,-5点,0点,0点,0点,0点,+5点,+10点
【Bクラス】
素点:10点,20点,30点,50点,50点,60点,80点,100点
偏差:-40点,-30点,-20点,0点,0点,+10点,+30点,+50点
STEP3:〈偏差平方〉を求める
偏差平方は,先ほど求めた〈偏差〉をそれぞれ二乗するだけです。
以下のように,簡単に求められます。
素点:40点,45点,50点,50点,50点,50点,55点,60点
偏差:-10点,-5点,0点,0点,0点,0点,+5点,+10点
偏差平方:100,25,0,0,0,0,25,100(単位は点2)
【Bクラス】
素点:10点,20点,30点,50点,50点,60点,80点,100点
偏差:-40点,-30点,-20点,0点,0点,+10点,+30点,+50点
偏差平方:1600,900,400,0,0,100,900,2500(単位は点2)
STEP4:〈偏差平方〉の平均 =〈分散〉を求める
【STEP 4】です。
ここでは【STEP 3】で算出した〈偏差平方〉の平均値を求めます。
まずは〈偏差平方〉の総和(偏差平方和)をとると,
【Bクラス】6400 点2(1600+900+400+0+0+100+900+2500)
となっていますので,これをデータの数(n=8)で割りましょう。これで〈偏差平方の平均〉を求めることができます(▼)。
【Bクラス】得点の〈偏差平方の平均〉:6400/8 = 800 点2
これは専門用語で〈分散〉variance と言われる概念にあたります。
名前から想像される通り,この〈分散〉も立派な〈散布度〉つまり「バラツキの指標」の 1つです。というより〈分散〉は標準偏差 SD と同等以上の代表格ですが,ここでは一旦傍において,このまま〈標準偏差〉まで算出してしまいましょう。
STEP5:〈分散〉の正の平方根が〈標準偏差〉
実は〈分散〉まで算出してしまえば,もう標準偏差は求められたも同然です。
だからです。
Aクラスの得点の〈分散〉は 31.25 点2,
Bクラスの得点の〈分散〉は 800 点2でしたので,
それぞれの正の平方根を求めれば SD が求められます。
【Bクラス】点数の標準偏差 SD:√800 = 28.28 点
こうして,Aクラスの学生の点数とBクラスの学生の点数を簡潔に述べることができる様になりました(▼)。
【Bクラスの点数】平均 50 点(標準偏差 28.2, 範囲 10-100)
こうしてみると,格段に情報量が増えたことが実感いただけると思います。これが〈代表値〉と〈散布度〉を併記することの強みです。
こうすることで,生データをいちいちヒストグラムなどの図表にまとめずとも,分布の大まかなイメージを伝えることが可能です。
- |標準偏差の数式
- $$\begin{eqnarray*}\text{標準偏差} s &=& \sqrt{\text{分散} s^2} \\&=& \sqrt{\text{偏差平方の平均}} \\ &=& \sqrt \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \sqrt \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$
なぜ〈偏差平方の平均〉が〈分散〉なのか?
さて話は戻りますが,なぜわざわざ〈平均からの偏差〉の2乗平均 (=偏差平方の平均)などという非常〜〜にまどろっこしい概念に〈分散〉という “最もそれらしい” 名前が付けられているのでしょうか。
標準偏差はさらにその平方根であり,何がなんだかという感じです。
そもそも〈分散〉や〈標準偏差〉にはどういう意味があるのでしょうか。この点について,もう少し検討していきましょう。
データのバラツキをどう定量するか?
もう一度先ほどのAクラスとBクラスのテストの成績を見てみましょう。
素点:40点,45点,50点,50点,50点,50点,55点,60点
偏差:-10点,-5点,0点,0点,0点,0点,+5点,+10点
偏差平方:100,25,0,0,0,0,25,100(単位: 点2)
【Bクラス】
素点:10点,20点,30点,50点,50点,60点,80点,100点
偏差:-40点,-30点,-20点,0点,0点,+10点,+30点,+50点
偏差平方:1600,900,400,0,0,100,900,2500(単位: 点2)
この時,「Bクラスの方がAクラスよりも点数がバラついているよ」ということをなんらかの数値で定量化して示したい,と考えてみます。
そこで着目するのが〈偏差〉です。
〈平均からの偏差〉が大きいデータというのは,つまるところ平均から大きくズレた「外れ値」だということです。そういう「外れ値」が多ければ多いほど,全体としてもデータの「散らばり」が大きくなるのは間違いなさそうです。
ここをうまく数学的に表現できれば,それが「バラツキ」のパラメーターになることは間違いありません。
しかしここでわざわざ〈平均からの偏差〉の2乗平均を〈分散〉と定義したことについては異論があるかもしれません。
単純に〈平均からの偏差〉の総和や平均ではいけなかったのでしょうか? それらの数値であっても「データのばらつきの指標」にはなりそうな感じがあります。
偏差の総和は〈散布度〉にならない
しかし実際に計算してみますと,そうはなりません。
(平均からの)〈偏差〉の平均 = 0
となってしまうのです。
これは冷静に考えればある意味当然のことです。
平均より大きい値のデータは〈平均からの偏差〉がプラスの値をとり,平均より小さい値のデータは〈平均からの偏差〉がマイナスの値をとるからです。単純に総和すると,ちょうどプラスマイナスが打ち消し合うことになります。これにより,どんなデータであっても上記は絶対にゼロになるのです。
しかし「総和」でなく「二乗和」であれば,二乗する過程で符号が必ず正になりますので,打ち消し合いでゼロになることがありません。
そのため〈平均からの偏差〉の2乗平均(=分散)を利用することになったのです。
- |〈平均からの偏差〉の絶対値の平均ではダメ?
- ところで「符号を正に揃える」だけであれば,2乗する以外にも「絶対値」をとるという選択肢があります。〈偏差の二乗の平均〉ではなく〈偏差の絶対値の平均〉ではダメだったのか? というのも当然の疑問になると思います。実は,これは“ダメ“ではありません。この〈平均からの偏差〉の絶対値の平均にも名前がついていて〈平均偏差〉と言うそうです。しかし絶対値というのは数学的に極めて扱いにくい概念で,特にデータの数が増えれば増えるほど計算が極めて煩雑になります。昔はこの散布度を使おうとした統計家もいたようですが,電卓もPCもなく手計算で統計を行っていた時代にこの計算の煩雑さは致命的で,分散・標準偏差の概念が登場して以降ほぼ使われなくなったそうです。
標準偏差の利便性
最後に,標準偏差の利便性についてまとめたいと思います。
- 利便性①:〈分散〉より直感的にわかりやすい
- 利便性②:95%ルールが便利
利便性①:分散よりわかりやすい
標準偏差の利便性の1つ目は,散布度として〈分散〉よりも解釈がしやすい,という点が挙げられます。
分散と標準偏差
ここでもう一度,語句の定義をまとめます。
- 〈分散〉 = 各データの〈平均からの偏差〉の二乗平均
- 〈標準偏差〉 = √〈分散〉
このとき,標準偏差 SD の導出は〈平均からの偏差〉を二乗 ➡︎ その値の平均を取る ➡︎ 正の平方根をとるというプロセスになっています。
つまり,計算の途中でいちど 2乗したものを,わざわざ最後に平方根をとって戻しているということです。
一体なぜこのようなまどろっこしいことを行っているのでしょうか。
- 数式
- $$\begin{eqnarray*}\text{標準偏差} s &=& \sqrt{\text{分散} s^2} \\&=& \sqrt{\text{偏差平方の平均}} \\ &=& \sqrt \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \sqrt \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$
\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値
〈分散〉の平方根をとる理由
実は,〈分散〉は数学的には意義深く大切な指標なのですが,実生活では直観的に理解しづらく,使いづらい概念です。
先ほどの例で言えば,〈分散〉は単位が 点2 となってしまっているため,
平均50点,ばらつきは 分散が 800 点2でした!
と言われてもはっきり状態がイメージできません。
どう考えても
平均50点,ばらつきは 標準偏差が 28.3点でした!
と言った方が伝わりやすいハズです。
単位がそろうと解釈しやすい
標準偏差 SD は〈分散〉と違って単位の次元がデータと同じなので,イメージがしやすいのが利点です。
というよりむしろ,元のデータと単位の次元を合わせるため,わざわざ〈分散〉の平方根をとった概念として生み出されたものが〈標準偏差〉とすら言えます。
利便性②:95%ルール
標準偏差の利便性の2点目は「95%ルール」です。
これは,あるデータが正規分布に沿った分布になっている時,
という法則です。
これが〈散布度〉として〈標準偏差〉が好まれる理由の最たるもの,と言えるかもしれません。
便利な 95% ルール
正規分布に近い分布を取りやすいデータとしては「身長の統計」や「テストの点数の統計」が有名です。
たとえば,ある高校の男子高校生の平均身長が 171 cm であったとして,〈標準偏差〉が 8 cm と示されていれば,その高校の男子の身長の約 95 % が 171 ± 16 cm の中にあると一瞬で分布を理解することができるわけです。
とても便利ですよね。
ただしこれには注意点があります。これは,あくまで〈正規分布〉に近い分布の時にしか成立しない特殊ルールだということです。
正規分布以外では 95%ルールが成立しない
例えば先ほどの16人のテスト結果を振り返ってみます。
【Bクラス】10点,20点,30点,50点,50点,60点,80点,100点
となったテストの結果について要約すると,以下の様になるのでした。
【Bクラスの点数】平均 50 点(標準偏差 28.2, 範囲 10-100)
しかしここで素直に ±2 SD を求めてしまうと,
【Bクラス】平均 ± 2SD:50 ± 56.4 (➡︎ -6.4 〜 106)
とバグった幅になってしまいます。
この範囲の中にデータの 95 %が含まれる,などといっても意味が通らないのは自明です。Bクラスなんて,マイナスなどという意味不明な点数が出てしまっています。
これは単に,Aクラスの得点もBクラスの得点も,正規分布に近い分布になっていなかったために起きてしまった現象です。
正規分布の特別ルール
95 %ルールはあくまで「正規分布の時」だけの特別ルールに過ぎません。
外れ値が多かったり,正規分布でない分布を取るデータにおいては,そのようなルールは成立しないのです。
ですから歪んだ分布をとる場合には,〈標準偏差〉ではなく〈範囲〉や〈四分位範囲 IQR〉を散布度として表示することが一般的です。
まとめると以下のようになります(▼)。
- 正規分布のとき:平均と標準偏差を用いる
- 正規分布でないとき:中央値と四分位範囲(または範囲)を用いる
- |四分位範囲 IQR とは
-
- 標準偏差や分散と同じく,データの散らばりを表す指標〈散布度〉の 1 つ
- データの真ん中 50 % 部分の範囲を表す
データを小さい順に横並びにして,4 分の1ずつに当たる点を小さい側から順に[第1四分位数,第2四分位数,第3四分位数]とする。このとき,第 1 四分位数から第 3 四分位数まで,つまり「データの真ん中 25〜75 % の合計 50% 部分」のこと。
チェビシェフの不等式
なお「正規分布でない場合」にも,標準偏差 SD の一定程度の解釈は可能です。
〈チェビシェフの不等式〉を用いた数式上の証明において,どのような分布のデータであっても,以下が成立することが知られているからです。
- 平均 ± 2SD 内に少なくとも約75%のデータ
- 平均 ± 3SD 内に少なくとも約89%のデータ
- 平均 ± 4SD 内に少なくとも約94%のデータ
ということで,
- 正規分布のときの ±2SD:95%ルール
- それ以外のときの ±2SD:少なくとも 75 % ルール
と覚えてしまっても良いかもしれません。
まとめ:標準偏差とは?
- 標準偏差 はデータのバラツキ具合を表す指標(=散布度)の 1つ
- 標準偏差 は〈平均からの偏差の2乗平均:分散〉の平方根
- 標準偏差 が大きい = 平均から離れたデータが多い = 散らばり大
- データが正規分布に沿うとき,95 % は平均 ± 2SDに含まれる
- そのような場合,平均と標準偏差を併記するのが一般的
- そうでない場合,中央値と(四分位)範囲を併記するのが一般的
- 数式
- $$\begin{eqnarray*}\text{標準偏差} s &=& \sqrt{\text{分散} s^2} \\&=& \sqrt{\text{偏差平方の平均}} \\ &=& \sqrt \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \sqrt \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$
\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値
受験業界などで親しみ深い「偏差値」の計算にも
標準偏差が用いられています。
「偏差値」や「z 点」とは何か? 等についてもいずれ別記事で扱いたいと思っています。