【Excel】データ分析してみる⑦【偏差とバラつき】

スポンサーリンク





標準偏差と偏差値について前回、前々回と書いたのですが、今回は偏差という事についてもう少し掘っていきます。

標準偏差はデータのバラつきを表す「指標」だと前回書きました。標準偏差以外にも指標には幾つかあり、バラつきの指標を「散布度」と言うと書きました。散布度の詳細はいずれ出てくると思いますが、そもそも偏差って何?「標準偏差」とか「偏差値」、「平均偏差」ってあるけど…バラつきってどういう事??どう判別するかとかって解りにくいですよね?

「偏差」とは
データの値と平均値との差」の事です。つまりそれぞれのデータが「平均値からどのくらい離れているか」を表す値を「偏差」と言います。
標準偏差はこの「平均値からどのくらい離れているか」という値で、偏差値は「標準偏差何個分離れているかを元に計算して求める」事でした。
どうも本を読んでいると「偏差」やら「標準偏差」やらと出てきてややこしいです。
「偏差」と「標準偏差」は違う値の事を指していますし、勿論「偏差値」とも違います。

前回使用したA組とB組の小テストの点数と偏差をグラフにすると以下のグラフになります。

グラフ下に偏差を合計した「偏差の合計」を書いています。これを見るとA組、B組どちらも合計「0」になっています。これはこの2つに限らず平均を「0」として+-で表される偏差を合計すると必ず「0」になります。

2つのグラフを見比べるとグラフの幅が大きいA組の方がバラついているように見えます。というより実際バラついているのですが、A組がバラついているという事をどう説明すれば良いだろうか?
これには2つのやり方があります。
① 「平均偏差」を求める
1つ目はすべての値をプラス(マイナスを取っ払います)とし、合計をデータ数で割ります。
求められた値は「平均偏差」といいます。※すべての値をプラスする考えを「絶対値」と言います。
「平均偏差」の求め方
偏差の値をすべて「+」にして合計し、データ数で割る
この平均偏差の求め方でA組とB組の平均偏差を求めます。

 A組の平均偏差を求める 
A組の偏差は「-3,-2,-2,-1,-1,0,2,2,2,3」でした。これを全て「+」にして合計します。
3+2+2+1+1+0+2+2+2+3 = 18
合計した値「18」をデータ数で割ります。
18÷10 = 1.8
この値「1.8」がA組の平均偏差です。

 B組の平均偏差を求める 
B組の偏差は「-2,-1,-1,0,0,0,1,1,1,1」でした。これを全て「+」にして合計します。
2+1+1+0+0+0+1+1+1+1 = 8
合計した値「8」をデータ数で割ります。
8÷10 = 0.8
この値「0.8」がB組の平均偏差です。

それぞれの「平均偏差」を比較するとA組の方が値が大きい為、”バラつき”も大きいと考えられる。

② 「分散」を求める
もう一つはすべての値を2乗し(2乗すればマイナスもプラスになります)、合計をデータ数で割ります。
求められた値は「分散」といいます。(2乗して合計した値は「偏差平方和」といいます。)
「分散」の求め方
偏差の値をすべて2乗して合計し、データ数で割る
この分散の求め方でA組とB組の分散を求めます。

 A組の分散を求める 
A組の偏差は「-3,-2,-2,-1,-1,0,2,2,2,3」でした。これを全て「2乗」して合計します。
(-3)2+(-2)2+(-2)2+(-1)2+(-1)2+02+22+22+22+32 = 40
合計した値「40」をデータ数で割ります。
40÷10 = 4
この値「4」がA組の分散です。

 B組の分散を求める 
B組の偏差は「-2,-1,-1,0,0,0,1,1,1,1」でした。これを全て「2乗」にして合計します。
(-2)2+(-1)2+(-1)2+02+02+02+12+12+12+12 = 10
合計した値「10」をデータ数で割ります。
10÷10 = 1
この値「1」がB組の分散です。

それぞれの「分散」を比較するとA組の方が値が大きい為、”バラつき”も大きいと考えられる。

Excelで「標準偏差」と「分散」を求める
Excelで「平均偏差」と「分散」は関数で簡単に求められます。
「平均偏差」は「AVEDEV()」、「分散」は「VAR.P()」の関数で求められます。
Excelで求めるとこんな感じになります。

平均偏差でも分散でもA組の方が値が大きくなりました。つまり平均偏差も分散も”バラつき”の指標である「散布度」と考えられます。
どっちも散布度でおなじようにバラつきが求められるのであれば「平均偏差」の方が楽に計算出来そうです。しかし、「平均偏差」はあまり使うことがないようです。それは、
平均偏差に使う絶対値の数学的な表し方がややこしい
絶対値を求める際、もとの数値を「|」で挟んで表記します。
「2」の絶対値は「|2|」となり、「|2| = 2」、これを数式として値を「X」とした場合は「|X| =  X」と表記されます。
マイナスの場合は同様に「|-2| =  2」と表記できます。
しかし、「|X| =  X」であるなら「||」内の値とイコールを挟んだ右辺の値は同じ値として表記されなければいけません。であれば次のように考えます。
「|-2| = 2」 → 「|-2| = -(-2)」となり、値を「X」とした場合は「|X| =-(X)= -X 」 → 「|X| = -X」
つまり
「|X|」 = X (X ≧= 0)、X(X ≦ = 0)
これは「Xの絶対値は、Xの値が0以上の時はX、Xの値が0以下の時は-X」となります。
という感じになっていて、絶対値を使うことは数学的には複雑なことになるみたいです。一方分散は数学的には扱いやすい反面、注意が必要な点があるそうです。

分散は2乗するため「単位」が変わるので注意が必要
A組とB組のテスト結果の分散を求めましたが、その「単位」は「」です。(テストなので勿論、点ですがw)これを2乗して偏差平方和を求めた時に2乗するので「」から「2」に変わってしまいます。
まだ、「点」はましなのですがこれが「cm」となると話は変わってきます。「cm」を2乗して単位が変わってしまうと「cm2」となり面積になってしまいます。これには注意が必要です。単位が異なると元のデータとの比較ができなくなってしまいます。
単位が変わってしまうという注意点はありますが、分散の「2乗」は値が正でも負でも2乗すれば全て正になるので数学的には使いやすい手法です。
スポンサーリンク
%d人のブロガーが「いいね」をつけました。