【解説】標準偏差とは何か|計算方法は?|やわらか統計学

本項の解説内容
  • 標準偏差 SD はデータのバラツキ具合を表す指標(=散布度)の 1つ
  • 計算方法:〈平均からの偏差〉の〈二乗平均〉の平方根
  • 標準偏差が大きい = 平均から離れたデータが多い = 散らばり大
  • データが正規分布に沿うとき,95 % は平均 ± 2SDに含まれる
この記事の内容は動画にもしています(▼)。
この記事では「国語的な解釈」を主軸に解説していますが,要所では数式も併記しています:クリックで展開

標準偏差:バラツキの指標(散布度)

標準偏差 SD(standard deviation)はデータのバラツキの度合いを表す指標

の1つです。このようなデータのバラツキの指標のことを散布度と呼びます。

「データを一言で要約する」ときは,以下のように〈代表値〉と〈散布度〉を併記するのが一般的なのでした。

代表値と散布度の併記
  • 平均値に標準偏差 SD を併記する
  • 中央値に四分位範囲 IQR や 範囲 range を併記する
代表値:平均値や中央値や最頻値のこと。前記事参照(▼)
代表値の復習はコチラ

本項で解説する内容 平均値も中央値も,いずれもデータ全体の〈代表値〉 データの分布が歪んでいるとき:中央値 median データが正規分布に近いとき:平均値 mean 〈代表値〉と〈散布度〉を併記すればデータの分布を一言で説明できる […]

平均値と中央値

このとき,なぜ〈代表値〉だけではダメかというと,同じ〈代表値〉をとるデータの集まりであっても,いろいろなパターンの分布が考えられるためです。

散布度の使い方

代表値だけでは限界がある

例として,以下のデータの〈代表値〉について考えてみましょう。

【例】8人のバイトの勤続年数を集計
  • 職場 A:3, 3, 5, 5, 5, 5, 7, 7(年) ➡︎ 平均 5 年
  • 職場 B:1, 2, 3, 5, 5, 7, 8, 9(年) ➡︎ 平均 5 年
  • 職場 C:5, 5, 5, 5, 5, 5, 5, 5(年) ➡︎ 平均 5 年
平均値のみならず,中央値も最頻値もすべて 5 年となっています。

いずれも中身は全く異なりますが,全て「平均勤続 5 年の職場」です。

職場 A も職場 B も職場 C も,代表値のみでは区別できません。〈代表値〉だけでは要約として大雑把すぎ,情報が不十分だということです。

しかし〈代表値〉に〈散布度〉を併記すれば,データの分布のイメージが一段と伝わりやすくなります。

─ ads ─

散布度を併記してみる

たとえば,もっとも直感的に理解しやすい〈散布度〉である〈範囲〉を併記してみますと,以下の様になります(▼)。

【例】8人のバイトの勤続年数を集計
  • 職場 A:平均 5年(範囲:3年〜7年)
  • 職場 B:平均 5年(範囲:1年〜9年)
  • 職場 C:平均 5年(範囲:5年〜5年)
範囲:最大値と最小値を示すだけの,最もシンプルな〈散布度〉。

単に「平均勤続 5 年の職場」と言うだけでは伝わらないデータの分布が,一定程度イメージできるようになったと思います。

散布度はこのように使います。今回扱う〈標準偏差 SD〉も,上記の様に〈平均値〉に併記して使うことが多い指標です。

散布度の種類

代表的な〈散布度〉は,以下の通りです。

散布度の代表例
  • 範囲(range):最大値と最小値
  • 四分位範囲(IQR):第 2 四分位 〜 第 3 四分位(真ん中の50%)
  • 分散(variance):標準偏差の 2 乗
  • 標準偏差(SD):今回のテーマ

以下では,実際に〈標準偏差〉とは何なのか,どの様にして算出するものなのかを取り上げていきます。

|要約統計量
なお〈代表値〉や〈散布度〉の様にデータの特徴を要約して記述するものを〈要約統計量〉と総称します。

標準偏差の求め方

まず,標準偏差の数学的な定義を端的に述べると,以下の様になります(▼)。

標準偏差 = 各データの〈平均からの偏差〉の〈二乗平均〉の平方根

この計算プロセスをもう少しわかりやすく分割すると,次の様になります。

標準偏差の求め方
  1. 得られた全データの〈平均〉 \(\bar{x}\) を求める
  2. 個々のデータと〈平均〉との差:〈偏差〉を求める
  3. 個々のデータの〈偏差〉の二乗:〈偏差平方〉を求める
  4. 〈偏差平方〉の平均:〈分散〉を求める
  5. 〈分散〉の正の平方根をとる:それが標準偏差 SD

こう書いてしまうと一見ややこしそうな感じもしますが,実際の計算は単純明快です

実際に STEP を踏んで計算していきましょう!

STEP1:「平均」を求める

Aクラスの 8人の学生と,B クラスの 8人の学生を対象に,ある同一の数学テストを行った状況を考えてみます。

この時のテストの点数は次の通りでした。

【Aクラス】40点,45点,50点,50点,50点,50点,55点,60点

【Bクラス】10点,20点,30点,50点,50点,60点,80点,100点

まずは【STEP 1】です。

それぞれのクラスについて平均点を求めると,AクラスもBクラスも 50 点になっています。

しかし同じ 平均 50 点とはいっても,Aクラスと Bクラスではかなり点数のばらつきに差がありそうです。そこで A クラスと B クラスにおける,テストの点数の〈標準偏差〉を比較するのが今回のゴールです。

なお上記例は少ないデータ数ですから,ぱっと見でも「Aクラスは平均値付近に得点が収束している」だとか「Bクラスはかなりばらつきが大きい」だとかいう特徴がすぐにわかります。しかし実際には 100 人や 200 人,もっとはるかにたくさんのデータを扱うので,そうはいかないことが多いはずです。そういう状況でこそ〈散布度〉による要約が威力を発揮します。

STEP2:〈偏差〉を求める

続いて【STEP 2】,A・Bクラス双方のテストの得点について〈偏差〉を求めます。

ここで言う〈偏差〉とは,個々のデータと平均値との差 です。

$$\text{偏差} = x_i-\overline{x}$$
\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値
実際には〈平均からの偏差〉というのが正しいのですが,以下単に〈偏差〉と記載するときは〈平均からの偏差〉と読み替えて下さい。

AクラスもBクラスも平均点は50点ですので,偏差は下記の様になります。

【Aクラス】
素点:40点,45点,50点,50点,50点,50点,55点,60点
偏差:-10点,-5点,0点,0点,0点,0点,+5点,+10点

【Bクラス】
素点:10点,20点,30点,50点,50点,60点,80点,100点
偏差:-40点,-30点,-20点,0点,0点,+10点,+30点,+50点

STEP3:〈偏差平方〉を求める

偏差平方は,先ほど求めた〈偏差〉をそれぞれ二乗するだけです。

$$\text{偏差平方} = (x_i-\overline{x})^2$$
\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値

以下のように,簡単に求められます。

【Aクラス】
素点:40点,45点,50点,50点,50点,50点,55点,60点
偏差:-10点,-5点,0点,0点,0点,0点,+5点,+10点
偏差平方:100,25,0,0,0,0,25,100(単位は点2

【Bクラス】
素点:10点,20点,30点,50点,50点,60点,80点,100点
偏差:-40点,-30点,-20点,0点,0点,+10点,+30点,+50点
偏差平方:1600,900,400,0,0,100,900,2500(単位は点2

STEP4:〈偏差平方〉の平均 =〈分散〉を求める

【STEP 4】です。

ここでは【STEP 3】で算出した〈偏差平方〉の平均値を求めます。

まずは〈偏差平方〉の総和(偏差平方和)をとると,

【Aクラス】250 点2(100+25+0+0+0+0+25+100)

【Bクラス】6400 点2(1600+900+400+0+0+100+900+2500)

となっていますので,これをデータの数(n=8)で割りましょう。これで〈偏差平方の平均〉を求めることができます(▼)。

【Aクラス】得点の〈偏差平方の平均〉:250/8 = 31.25 点2

【Bクラス】得点の〈偏差平方の平均〉:6400/8 = 800 点2

なお〈偏差平方の平均〉は〈偏差の二乗平均、、、、〉とも表現できます。

これは専門用語で分散〉variance と言われる概念にあたります。

$$\begin{eqnarray*}\text{分散} s^2 &=& \text{偏差平方の平均} \\ &=& \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$
分散 = s2,\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値

名前から想像される通り,この〈分散〉も立派な〈散布度〉つまり「バラツキの指標」の 1つです。というより〈分散〉は標準偏差 SD と同等以上の代表格ですが,ここでは一旦傍において,このまま〈標準偏差〉まで算出してしまいましょう。

STEP5:〈分散〉の正の平方根が〈標準偏差〉

実は〈分散〉まで算出してしまえば,もう標準偏差は求められたも同然です。

標準偏差 SD は,ただ〈分散〉の正の平方根をとったもの

だからです。

Aクラスの得点の〈分散〉は 31.25 点2
Bクラスの得点の〈分散〉は 800 点2でしたので,
それぞれの正の平方根を求めれば SD が求められます。

【Aクラス】点数の標準偏差 SD:√31.25 = 5.59 点

【Bクラス】点数の標準偏差 SD:√800 = 28.28 点

こうして,Aクラスの学生の点数とBクラスの学生の点数を簡潔に述べることができる様になりました(▼)。

【Aクラスの点数】平均 50 点(標準偏差 5.6, 範囲 40-60)

【Bクラスの点数】平均 50 点(標準偏差 28.2, 範囲 10-100)

こうしてみると,格段に情報量が増えたことが実感いただけると思います。これが〈代表値〉と〈散布度〉を併記することの強みです。

こうすることで,生データをいちいちヒストグラムなどの図表にまとめずとも,分布の大まかなイメージを伝えることが可能です。

尚ここで最も着目したいのは,〈分散〉は単位が 2 乗になってしまっていたのが,〈標準偏差 SD〉では正の平方根をとることによって,単位を元のデータのものと揃えることができているという点です(後ほど詳述)。
|標準偏差の数式
$$\begin{eqnarray*}\text{標準偏差} s &=& \sqrt{\text{分散} s^2} \\&=& \sqrt{\text{偏差平方の平均}} \\ &=& \sqrt \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \sqrt \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$

なぜ〈偏差平方の平均〉が〈分散〉なのか?

さて話は戻りますが,なぜわざわざ〈平均からの偏差〉の2乗平均 (=偏差平方の平均)などという非常〜〜にまどろっこしい概念に分散という “最もそれらしい” 名前が付けられているのでしょうか。

標準偏差はさらにその平方根であり,何がなんだかという感じです。

そもそも〈分散〉や〈標準偏差〉にはどういう意味があるのでしょうか。この点について,もう少し検討していきましょう。

データのバラツキをどう定量するか?

もう一度先ほどのAクラスとBクラスのテストの成績を見てみましょう。

【Aクラス】
素点:40点,45点,50点,50点,50点,50点,55点,60点
偏差:-10点,-5点,0点,0点,0点,0点,+5点,+10点
偏差平方:100,25,0,0,0,0,25,100(単位: 点2

【Bクラス】
素点:10点,20点,30点,50点,50点,60点,80点,100点
偏差:-40点,-30点,-20点,0点,0点,+10点,+30点,+50点
偏差平方:1600,900,400,0,0,100,900,2500(単位: 点2

この時,「Bクラスの方がAクラスよりも点数がバラついているよ」ということをなんらかの数値で定量化して示したい,と考えてみます。

そこで着目するのが〈偏差〉です。

〈平均からの偏差〉が大きいデータというのは,つまるところ平均から大きくズレた「外れ値」だということです。そういう「外れ値」が多ければ多いほど,全体としてもデータの「散らばり」が大きくなるのは間違いなさそうです。

ここをうまく数学的に表現できれば,それが「バラツキ」のパラメーターになることは間違いありません。

しかしここでわざわざ〈平均からの偏差〉の2乗平均、、、、、を〈分散〉と定義したことについては異論があるかもしれません。

単純に〈平均からの偏差〉の総和や平均ではいけなかったのでしょうか? それらの数値であっても「データのばらつきの指標」にはなりそうな感じがあります。

偏差の総和は〈散布度〉にならない

しかし実際に計算してみますと,そうはなりません。

(平均からの)〈偏差〉の総和 = 0
(平均からの)〈偏差〉の平均 = 0

となってしまうのです。

これは冷静に考えればある意味当然のことです。

平均より大きい値のデータは〈平均からの偏差〉がプラスの値をとり,平均より小さい値のデータは〈平均からの偏差〉がマイナスの値をとるからです。単純に総和すると,ちょうどプラスマイナスが打ち消し合うことになります。これにより,どんなデータであっても上記は絶対にゼロになるのです。

しかし「総和」でなく「二乗和」であれば,二乗する過程で符号が必ず正になりますので,打ち消し合いでゼロになることがありません。

そのため〈平均からの偏差〉の2乗平均、、、、、(=分散)を利用することになったのです。

|〈平均からの偏差〉の絶対値の平均ではダメ?
ところで「符号を正に揃える」だけであれば,2乗する以外にも「絶対値」をとるという選択肢があります。〈偏差の二乗の平均〉ではなく〈偏差の絶対値の平均〉ではダメだったのか? というのも当然の疑問になると思います。実は,これは“ダメ“ではありません。この〈平均からの偏差〉の絶対値の平均、、、、、、、にも名前がついていて〈平均偏差〉と言うそうです。しかし絶対値というのは数学的に極めて扱いにくい概念で,特にデータの数が増えれば増えるほど計算が極めて煩雑になります。昔はこの散布度を使おうとした統計家もいたようですが,電卓もPCもなく手計算で統計を行っていた時代にこの計算の煩雑さは致命的で,分散・標準偏差の概念が登場して以降ほぼ使われなくなったそうです。

標準偏差の利便性

最後に,標準偏差の利便性についてまとめたいと思います。

  • 利便性①:〈分散〉より直感的にわかりやすい
  • 利便性②:95%ルールが便利

利便性①:分散よりわかりやすい

標準偏差の利便性の1つ目は,散布度として〈分散〉よりも解釈がしやすい,という点が挙げられます。

分散と標準偏差

ここでもう一度,語句の定義をまとめます。

分散と標準偏差
  • 〈分散〉 = 各データの〈平均からの偏差〉の二乗平均
  • 〈標準偏差〉 = √〈分散〉

このとき,標準偏差 SD の導出は〈平均からの偏差〉を二乗 ➡︎ その値の平均を取る ➡︎ 正の平方根をとるというプロセスになっています。

つまり,計算の途中でいちど 2乗したものを,わざわざ最後に平方根をとって戻しているということです。

一体なぜこのようなまどろっこしいことを行っているのでしょうか。

数式
$$\begin{eqnarray*}\text{標準偏差} s &=& \sqrt{\text{分散} s^2} \\&=& \sqrt{\text{偏差平方の平均}} \\ &=& \sqrt \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \sqrt \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$
\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値

〈分散〉の平方根をとる理由

実は,〈分散〉は数学的には意義深く大切な指標なのですが,実生活では直観的に理解しづらく,使いづらい概念です。

先ほどの例で言えば,〈分散〉は単位が 点2 となってしまっているため,

平均50点,ばらつきは 分散が 800 点2でした!

と言われてもはっきり状態がイメージできません。
どう考えても

平均50点,ばらつきは 標準偏差が 28.3点でした!

と言った方が伝わりやすいハズです。

単位がそろうと解釈しやすい

標準偏差 SD は〈分散〉と違って単位の次元がデータと同じなので,イメージがしやすいのが利点です。

というよりむしろ,元のデータと単位の次元を合わせるため,わざわざ〈分散〉の平方根をとった概念として生み出されたものが〈標準偏差〉とすら言えます。

利便性②:95%ルール

標準偏差の利便性の2点目は「95%ルール」です。

これは,あるデータが正規分布に沿った分布になっている時

そのデータの 95 % は,平均 ± 2 SD の間に存在する
※ 厳密には ± 1.96 SD

という法則です。

これが〈散布度〉として〈標準偏差〉が好まれる理由の最たるもの,と言えるかもしれません。

■ 正規分布

by Ainali CC-BY-SA 3.0
正規分布は図のようなベル型の分布で,σ は 標準偏差 SD を指します。

便利な 95% ルール

正規分布に近い分布を取りやすいデータとしては「身長の統計」や「テストの点数の統計」が有名です。

たとえば,ある高校の男子高校生の平均身長が 171 cm であったとして,〈標準偏差〉が 8 cm と示されていれば,その高校の男子の身長の約 95 % が 171 ± 16 cm の中にあると一瞬で分布を理解することができるわけです。

とても便利ですよね。

ただしこれには注意点があります。これは,あくまで〈正規分布〉に近い分布の時にしか成立しない特殊ルールだということです。

正規分布以外では 95%ルールが成立しない

例えば先ほどの16人のテスト結果を振り返ってみます。

【Aクラス】40点,45点,50点,50点,50点,50点,55点,60点

【Bクラス】10点,20点,30点,50点,50点,60点,80点,100点

となったテストの結果について要約すると,以下の様になるのでした。

【Aクラスの点数】平均 50 点(標準偏差 5.6, 範囲 40-60)

【Bクラスの点数】平均 50 点(標準偏差 28.2, 範囲 10-100)

しかしここで素直に ±2 SD を求めてしまうと,

【Aクラス】平均 ± 2SD:50 ± 11.2 (➡︎ 39 〜 61)

【Bクラス】平均 ± 2SD:50 ± 56.4 (➡︎ -6.4 〜 106)

とバグった幅になってしまいます。

この範囲の中にデータの 95 %が含まれる,などといっても意味が通らないのは自明です。Bクラスなんて,マイナスなどという意味不明な点数が出てしまっています。

これは単に,Aクラスの得点もBクラスの得点も,正規分布に近い分布になっていなかったために起きてしまった現象です。

正規分布の特別ルール

95 %ルールはあくまで「正規分布の時」だけの特別ルールに過ぎません。

外れ値が多かったり,正規分布でない分布を取るデータにおいては,そのようなルールは成立しないのです。

ですから歪んだ分布をとる場合には,〈標準偏差〉ではなく〈範囲〉や〈四分位範囲 IQR〉を散布度として表示することが一般的です。

まとめると以下のようになります(▼)。

一般的な要約統計量の使い方
  • 正規分布のとき:平均と標準偏差を用いる
  • 正規分布でないとき:中央値と四分位範囲(または範囲)を用いる
|四分位範囲 IQR とは
  • 標準偏差や分散と同じく,データの散らばりを表す指標〈散布度〉の 1 つ
  • データの真ん中 50 % 部分の範囲を表す
データを小さい順に横並びにして,4 分の1ずつに当たる点を小さい側から順に[第1四分位数,第2四分位数,第3四分位数]とする。このとき,第 1 四分位数から第 3 四分位数まで,つまり「データの真ん中 25〜75 % の合計 50% 部分」のこと。

チェビシェフの不等式

なお「正規分布でない場合」にも,標準偏差 SD の一定程度の解釈は可能です。

〈チェビシェフの不等式〉を用いた数式上の証明において,どのような分布のデータであっても,以下が成立することが知られているからです。

どのような分布でも以下は “最低限” 成立
  • 平均 ± 2SD 内に少なくとも約75%のデータ
  • 平均 ± 3SD 内に少なくとも約89%のデータ
  • 平均 ± 4SD 内に少なくとも約94%のデータ

ということで,

  • 正規分布のときの ±2SD:95%ルール
  • それ以外のときの ±2SD:少なくとも 75 % ルール

と覚えてしまっても良いかもしれません。

まとめ:標準偏差とは?

標準偏差 SD に関するまとめ
  • 標準偏差 はデータのバラツキ具合を表す指標(=散布度)の 1つ
  • 標準偏差 は〈平均からの偏差の2乗平均:分散〉の平方根
  • 標準偏差 が大きい = 平均から離れたデータが多い = 散らばり大
  • データが正規分布に沿うとき,95 % は平均 ± 2SDに含まれる
    • そのような場合,平均と標準偏差を併記するのが一般的
    • そうでない場合,中央値と(四分位)範囲を併記するのが一般的
数式
$$\begin{eqnarray*}\text{標準偏差} s &=& \sqrt{\text{分散} s^2} \\&=& \sqrt{\text{偏差平方の平均}} \\ &=& \sqrt \frac{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+(x_n-\overline{x})^2}{n}\\ &=& \sum_{i=1}^n \sqrt \frac{(x_i-\overline{x})^2}{n} \end{eqnarray*}$$
\(x_i\) = 個々のデータの値,\(\overline{x}\) = データの平均値

受験業界などで親しみ深い「偏差値」の計算にも
標準偏差が用いられています。

「偏差値」や「z 点」とは何か? 等についてもいずれ別記事で扱いたいと思っています。

[おすすめ本紹介]

Users’ Guides to the Medical Literature


タイトル通り「医学論文を現場でどう応用するか?」迷える臨床家のためのユーザーズガイド。Tips 集のような構成で,どこからでもつまみ読みできます(通読向きではない)。医学論文の批判的吟味を学ぶにあたり 1 冊だけ選ぶならコレ,という極めて網羅性の高い一冊です。著者 Gordon Guyatt 氏は “EBM” という言葉を作った張本人。分厚い本ですが,気軽に持ち歩ける Kindle 版はオススメです。邦訳版もあります。

医学文献ユーザーズガイド 第3版


表紙が全然違いますが「Users’ Guides to the Medical Literature (JAMA)」の邦訳版。医学文献を批判的吟味するためのTips集としてかなりの網羅性を誇る代表的な一冊です。唯一の欠点は Kindle版がないこと(英語版はある)と,和訳が気になる部分が結構あること。2つでした。原著とセットで手に入れると最強の気分を味わえます。鈍器としても使えます

─ ads ─
>医療統計の解説チャンネル

医療統計の解説チャンネル

スキマ時間で「まるきりゼロから」医療統計の基本事項を解説していく Youtube チャンネルを 2 人で共同運営しています。

CTR IMG