【Excel】データ分析してみる⑨【正規分布】

スポンサーリンク





前回迄のおさらい
以前(③くらいで)ヒストグラムという棒グラフみたいなものが出てきました。
これは、それぞれ階級ごとに何%のデータがあるのかという「割合」のわかるグラフでした。

前回の標準偏差でも同じように「割合」を考えることが出来ます。

正規分布
例えば日本の成人男性の身長について「平均170㎝」「標準偏差6㎝」という2つのデータがあれば、「正規分布」という分布の形を使ってどのように分布しているかを割合で知ることが出来るそうです。よく分からないけどそうらしいです。
2つのデータを正規分布に当てはめると、身長182cmの人は上位2%(100人中2人位)の割合でいるという事が分かります。これが「標準偏差」のすごいところです。

他にも新生児の体重など身の回りには正規分布とみなせる例がたくさんあります。

統計学の学びには正規分布の理解は必須

正規分布」という言葉が新たに出てきました。統計学では正規分布なしでは語れないと言われるほど重要な存在です。統計学を学ぶ上で正規分布の理解は必須です。

統計学の手法の多くは、この正規分布を前提にしています。

また、世の中の事柄を計測すると、多くは正規分布に従っているものが見受けられることも一つの理由にです。生活習慣や意思の影響を受ける以外の胎児の体重や身長などは正規分布に従います。他にも工場で生産される製品の長さや重さの”バラつき”も正規分布に近似している為品質管理に用いられるそうです。

正規分布は左右対称の「釣鐘」状のグラフになっている
グラフは左右対称の「釣鐘」状をしています。正規分布に従うデータでは平均値から標準偏差何個分離れているか(標準得点)で割合が分かるのが特徴です。

正規分布のグラフは下図のようになるのが特徴です。

平均から標準偏差1個分が34%、2個分が14%となっています。(図の一個分の幅はおおよそです。正確ではありませんのであしからず)

これを見ると平均から標準偏差±1個分の割合がそれぞれ34%、2個分になると14%増加し、それ以上では2%増えていることになっています。これを見ると全体の7割近いものが平均に近い位置にあるといえます。

因みにヒストグラムの階級幅(1つの棒)をどんどん小さくしていくと正規分布のグラフみたいに釣鐘状になります。

正規分布の山の部分が1つであれば「一峰性」といいます。2つ山があれば「二峰性」といいます。ヒストグラムを作成した際に「二峰性」や、それ以上(3つとか)山がある場合は複雑な何か別の要素が関係していることを示唆しています。

一峰性」とか「二峰性」は現在読んでいる

には書いていなく別の本


に書いてありました。

標準正規分布表を見れば、値がデータの何%に含まれるかがわかる
平均身長(平均値:μ)=170㎝、標準偏差(σ)=6㎝の正規分布
上記にある正規分布のグラフでは標準偏差1個分のパーセンテージが34%となっています。

正確には34.13%ですが、このパーセンテージは「標準正規分布表」から求めます。


この表が「標準正規分布表」です。ここから割合を求めます。

この表は縦軸が「標準得点の小数第一位」、横軸が「標準得点の小数第二位」を示しています。身長170cm~176cmの人が全体に占める割合を求めるには、「μ=170cm、σ=6cm」から176cmの標準得点を求めます。

標準得点は「偏差を標準偏差で割る」で求めました。あてはめると「(176-170)÷6=1
これを上記の標準正規分布表で見ると標準得点1(1.00)は縦方向に「1.0」、横方向に「0.00」の値「0.3413」であることが分かります。

つまり、「標準得点が0~1」である「身長170~176cm」の割合は「0.3413(34.13%)と求めることが出来ます。

176cmの場合はいいのですが、標準得点が標準偏差の倍数にない場合はどうでしょう?
例えば身長180cmの場合の割合を求めてみます。
標準得点は「(180-170)÷6=1.67」となり、標準正規分布表にあてはめると縦方向が「1.6」横方向が「0.07」となり0.4525(45.25%)となります。

この場合、「身長170~180cm」の人が占める割合は「45.25%」という事が分かります。

データ全体の「上から何%を占めるか」を求める
今度は「データの上の部分を占める割合」を求めます。平均値より上はデータ全体の50%であることに注目します。

まずは標準得点を求めます。「(190-170)÷6=3.33」となり、標準正規分布表にあてはめると縦方向が「3.3」横方向が「0.03」となり「0.4996(49.96%)」となります。


「平均値より上の割合は50%」なので50から先に求めた割合49.96を引いて「50-49.96=0.04%」となり、身長190cm以上の人が占める割合は全体の0.04%となります。

Excelで標準正規分布表を作成する
標準正規分布表はこの手の本には大抵載っているはずですし、ちょっとググればすぐ出てくると思います。とはいえ毎回調べるのも面倒です。なのでExcelであらかじめ作っておけば、調べるときに楽になると思います。
作成手順

① 縦方向に標準得点の小数点以下第一位を「0.0から3.7まで」、横方向に標準得点の小数点以下第二位を「0.00から0.09まで」の表を作成する。

何故3.7までかというと、それ以上は同じ値で結果は変わらないからです。(小数点第二位まで)
② 縦横の交差するセルに「NORM.S.DIST関数」を使って式を入力する。
=NORM.S.DIST(B4+$C$3,TRUE)-0.5
引数の「B4」は縦方向にある標準得点のセル位置、「$C$3」は横方向にある標準得点のセル位置を指しています。「TRUE」はとりあえず固定です。

NORM.S.DIST関数の結果から0.5を引くとその位置での値が求められます。

③ あとは他のセルも同様にするだけです。

最後の「-0.5」ですが何故「0.5」を引くかというと、標準正規分布のグラフは平均を中心にして左右対称になっているからです。(あくまで一峰性の場合)
全体を1としてみると半分は0.5です。その分を引くと平均値からの値が求められます。
因みに身長180㎝の時の標準得点を求めた時は「1.67」でした。平均値から同じだけ差がある160cmの時の標準得点は「-1.67」です。正規分布表にあてはめるとどちらも同じ割合が求められます(値がプラスでもマイナスでも同じです。)
スポンサーリンク
%d人のブロガーが「いいね」をつけました。