こんにちは。福田泰裕です。
テストを実施した後、結果を分析していますか?
平均点だけでなく、得点の分布を見てしっかり分析したいところです。
テスト作成者としては点数の散らばり具合が気になるところですが、その散らばり具合を知るために『分散』という指標を求めます。
そして、その分散の正の平方根を『標準偏差』と呼びます。
『分散』と『標準偏差』は、どちらもデータの散らばり具合を示す指標です。
なぜ同じ意味を持つ指標が、2つ存在するのでしょうか?
今回は、標準偏差を求める意味についてご紹介します。
最後まで読んでいただけると嬉しいです。
目次
標準偏差は、集団のデータの散らばり具合を示す指標です。
値が大きいほどデータが散らばっているということになります。
その標準偏差の計算方法は、分散の正の平方根と定義されています。
つまり、
$$ (標準偏差 s ) = \sqrt{(分散 s^2)}$$
です。
分散の意味と求め方については、こちらの記事をご覧ください👇
まとめると、次のようになります。
\(n\) 個のデータ \(x_1 , x_2 , x_3 , \cdots , x_n\) の平均値を \(\bar{x}\) とすると、分散 \(s^2\)は、
$$s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2$$
であり、標準偏差 \(s\) は、
$$ s = \sqrt{s^2} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2}$$
分散は「偏差の2乗の平均」で、標準偏差は「分散の正の平方根」と覚えましょう。
標準偏差が最も活躍するのは、偏差値を求めるときです。
平均点 \(\bar{x}\)、標準偏差 \(s\) のテストで点数が \(x_i\) だったとき、偏差値は
$$\frac{x_i-\bar{x}}{s} \times 10 + 50$$
偏差値の求め方や意味などについては、こちらの記事をご覧ください👇
平均点と標準偏差 \(s\) が分かれば、次のように点数ごとの分布が何となく見えてくるのです👇
例えば「平均点60点、標準偏差15点」のテストの場合、45点~75点が全体の約68%であることが分かるのです。
このように、標準偏差はデータの散らばり具合を知るために欠かせないとても重要な指標です。
分散と標準偏差は、どちらもデータの散らばり具合を示す指標です。
しかし、
なぜ散らばり具合を示す指標が2つもあるの?
と、思われる方も多いでしょう。
同じ意味を持つ指標が2つあるのは、もちろん存在意義があるからです。
分散の詳しい求め方は、こちらの記事をご覧ください👇
平均点が \(\bar{x}\) 点のテストで \(x_i\) 点を取ったとき、偏差は
$$x_i – \bar{x}$$
となります。
この「平均点との差」である偏差が、そのデータ散らばりを表すのです。
偏差が大きいほど散らばりが大きいので、その集団で偏差を平均して散らばり具合を出そうとします。
しかし、偏差は合計すると \(0\) になります。
詳しくはこちらの記事をご覧ください👇
そこで仕方なく偏差を2乗して全員プラスにして平均したものが「分散」です。
本当はそのまま平均が取りたかったのですが、仕方なく2乗したのです。
では、なぜ分散の正の平方根を計算して「標準偏差」とする必要があるのか考えていきましょう。
それは分散の計算過程を、単位を考えながら見ていくと理解できます。
平均点が \(\bar{x} [点]\) のテストで、ある生徒の点数が \(x_i [点]\) だとすると、その人の偏差は
$$x_i – \bar{x} [点]$$
です。
このまま偏差を合計すると \(0\) になるで、2乗します。
$$(x_i – \bar{x})^2 [点^2]$$
あとはこの「偏差の2乗」の平均を求めると、分散 \(s^2\) が求まります。
$$s^2 = \frac{1}{n} \sum_{i=i}^{n} (x_i – \bar{x})^2 [点^2]$$
このように、分散を求める過程で最初のデータを2乗しているので、単位も2乗になったままなのです。
このままでは他の計算に使うことができません。
ということで、この分散の正の平方根を考えると、
$$\sqrt{(分散) s^2 [点^2]} = (標準偏差) s [点]$$
となって単位が元に戻り、他の計算にも利用できるようになるのです。
例えば平均点が \(50点\) 、標準偏差が \(15点\) の場合、\(45 ~65 点\) に全体の68%が含まれることが分かります。
しかし、標準偏差 \(15点\) というのは、分散 \(225点^2\) です。
100点満点のテストで、散らばり具合の指標が \(225点^2\) では意味が分かりません。
そもそも単位がオカシイので、何とも比べることができません。
分散は、あくまでも散らばり具合を他と比べるための指標。
標準偏差は、単位を戻して他の計算にも利用できるようにしたもの。
という認識で問題ないと思われます。
それなら最初から2乗せずに、偏差をそのまま平均すれば良いのでは?
と考えるのも自然なことです。
実は、偏差の絶対値の平均を求めて散らばり具合を示すこともあります。
『偏差の2乗の平均(分散)の正の平方根』を「標準偏差」と呼ぶのに対して、『偏差の絶対値の平均』を「平均偏差」または「絶対偏差」と呼びます。
\(n\) 個のデータ \(x_1 , x_2 , x_3 , \cdots , x_n\) の平均値を \(\bar{x}\) とすると、平均偏差は、
$$\frac{1}{n} \sum_{i=1}^{n} |x_i – \bar{x}|$$
しかし、統計を行うなかで平均偏差はほとんど登場しません。
その理由はとても簡単で、絶対値の処理が大変だからです。
絶対値の計算は場合分けをする必要があるためとても大変です。
2乗して平方根を考える標準偏差の方が扱いやすいため、多くの場面で標準偏差が利用されています。
いかがでしたでしょうか。
分散と標準偏差は同じ意味をもちますが、その用途が違います。
「分散」はデータの散らばり具合を他の集団の分散と比べるためにあり、「標準偏差」は偏差値などを求めるためにあるのです。
最後まで読んでいただき、ありがとうございました!
質問やご意見、ご感想などがあればコメント欄にお願いします👇