はじめに
数学Ⅰの分野で出てくる「分散」と「標準偏差」。
学校で習ったけどいまいち何を言っているのかわからないという生徒も多いのではないでしょうか。そこで、このページでは「分散」「標準偏差」が一体どのような意味を持っているのかについて考えてみましょう。
分散って何?
具体的な例から考えてみましょう。例えば、ある100点満点のテストを作ったときに10人の生徒A~Jの点数が以下のようになったとしましょう。
| 生徒 | A | B | C | D | E | F | G | H | I | J |
| 点数 | 58 | 36 | 22 | 67 | 14 | 89 | 65 | 5 | 97 | 74 |
この成績を見たときに、どう思うでしょうか。おそらく、多くの人は「点数がかなりバラバラ」だなと思うのではないでしょうか。でも、バラバラと言っても「どのくらいバラバラか」というのを言葉で表現するのは結構難しそうです。そこで、「分散」の登場です。
「分散」はデータ(ここでは、生徒の点数)がどれくらいバラバラなのかを、数字で示してくれます。以下のステップに従って分散を求めてみましょう。
- 平均を求める
まずは、10人の点数の平均を求めましょう。すべての点数を足して10で割ります。
(58+36+22+67+14+89+65+5+97+74)÷10=52.7となります。 - 平均との差を求める
点数から平均を引きます。結果は下のようになります。
| 生徒 | A | B | C | D | E | F | G | H | I | J |
| 平均との差 | 5.3 | -26.7 | -30.7 | 14.3 | -38.7 | 36.3 | 12.3 | -47.7 | 44.3 | 21.3 |
- すべて2乗する
今計算した差を、すべて2乗しましょう。結果は以下のようになります。
| 生徒 | A | B | C | D | E | F | G | H | I | J |
| 2乗した結果 | 28.09 | 712.89 | 942.49 | 204.49 | 1497.69 | 1317.69 | 151.29 | 2275.29 | 1962.49 | 453.69 |
- 全て足して生徒の数で割る
今計算した値を全て足して、10で割りましょう。これで分散が得られます。
(分散) =(28.09+712.89+942.49+204.49+1497.69+1317.69+151.29+2275.29+1962.49+453.69)÷10 = 1012.4556
というわけで、分散は1012.4556と得られました。
ところで、点数がバラバラということはある生徒にとってはとても解きやすく、ある生徒にとっては非常に解きにくいテストだったと言えます。つまり、出題に偏りがあったということです。
これでは生徒によって明らかな有利不利が生まれてしまうので、先生は新たにテストを作り直しました。その結果は以下のようになりました。
| 生徒 | A | B | C | D | E | F | G | H | I | J |
| 点数 | 54 | 56 | 63 | 50 | 69 | 59 | 56 | 61 | 75 | 58 |
どうでしょうか。今回は結構点数がまとまってそうです。先ほどと同じ手順で分散を求めてみると、54.3222になります。先程の1012.4556と比べて明らかに値が小さくなりました。つまり、「バラけていない」ということになります。
分散:データの「バラけ具合」を比べるための数
標準偏差は超シンプル
次に「標準偏差」です。「標準偏差」は分散の平方根を取ったもの、つまり、を表します。
…実はコレだけなんです。なんで平方根を取るかは少し難しいので、下に分けて説明しておきます。興味があれば読んでみてください。
分散が100なら標準偏差はとなるというわけです。
(標準偏差) =
例えば、立ち幅跳び3回の記録が、2.0m, 2.1m, 2.3mだったとしましょう。分散を求める過程で、データを2乗しましたね。ここで、”m”も2乗されるので、となります。
(平方メートル)は「面積」を表す記号ですね。立ち幅跳びを飛んだ「距離」のバラつきを求めたかったのに、「面積」になってしまいました。なので、「距離」に戻してあげたいということになります。
そのために最後に平方根を取ってあげることで、となってもとに戻るというわけです。つまり、標準偏差は「2乗された単位をもとに戻してあげる」ためにあります。
(おまけ)偏差値の意味
もう一つおまけとして「偏差値」についてお話しします。
先に偏差値の定義から示してしまいます。
(偏差値)
この式を見ながら、偏差値の意味を確認していきましょう。
(データ) − (平均)は、「平均からどれだけ離れているか」を表しています。
テストの点数が60点で平均も60点だったとすれば、当然 (データ) − (平均) = 0なので、偏差値は50になります。偏差値50が平均というのはこういうからくりなのです。テストの成績が平均よりもプラスなら偏差値は60、70と増えていき、平均よりもマイナスなら偏差値は40、30と減っていくことが式からわかりますね。
(データ) − (平均)を(標準偏差)で割ることで、「平均からどれだけ外れているか」がわかります。
といっても若干わかりにくいですね。具体的に考えてみましょう。
「分散って何?」に出てきた1回目のテストで11人目の生徒Kさんが90点を取ったとしましょう。確かに高得点ですが、他にも97点の生徒や89点の生徒がいますし、飛び抜けて優秀という感じではありませんね。標準偏差は32.2132、Kさんの偏差値は60.5となります。
今度は2回目のテストでKさんが90点を取ったとしましょう。これは明らかにすごいですね。飛び抜けて優秀と言えるかもしれません。標準偏差は11.4089、Kさんの偏差値は73.8となります。
つまり、他のみんなに比べてどれだけ優れているか(あるいは劣っているか)がわかるというわけです。


コメント