【Excel】データ分析してみる③

スポンサーリンク





前回、平均値と中央値を普通通りExcelの関数で出しました。最頻値も関数で出したのですが、データが細かすぎた為そのままではあまり意味のない結果になりました。

今回はその最頻値をデータ分析アドインを使って出したいと思います。

まずは準備としてデータを整理するためのデータの幅を作成します。

右側にある赤い枠で囲った部分がデータの幅になります。今回は給与額の最頻値を出したいので給与範囲の名称で1000から500刻みで10000までの幅にします。

こうして作成したデータの幅を「階級」といいます。

これで準備が出来たのでいよいよデータ分析アドインを使用します。

メニューの「データ」から「データ分析」を選択するとこんなウィンドウが表示されます。

Excelで可能なデータ分析が色々と表示されています。今回はこの中から「ヒストグラム」を選択します。ヒストグラムはデータを整理してその内容を図で表現するグラフです。

ヒストグラムを選択するとデータの範囲などを選択するウィンドウが表示されます。

入力範囲に給与のデータ、データ区間に給与範囲のデータを設定します。ヒストグラムの図を作成するので出力オプションの「グラフ作成」にチェックします。「OK」をクリックすると新規ワークシートに結果が作成されます。

ワークシートには表とグラフが作成されています。このグラフが「ヒストグラム」、表が「度数分布表」と言います。

左にある表「度数分布表」は「データ区間」と「頻度」とあります。データ区間は作成したデータの幅である「階級」を使用しています。頻度はその階級の中に登場するデータの個数の値が表示されています。頻度は統計学では「度数」と言います。

この表には出力されていませんが各階級の中央値(例えば1000~1500の階級であれば「1250」の値)を「階級値」と言います。(度数分布表には階級値も含まれています。)

度数分布表をグラフ化したものを「ヒストグラム」と言います。この表を見ると度数が一番多いのはデータ区間「3500」の階級が「10」で一番多く登場しています。

この階級の階級値を最頻値として求めるので「3750」が最頻値となります。

前回と今回で2種類の最頻値が求められました。どちらが正解でもう片方が間違いというわけではなく、2種類の求め方があります。

① 登場回数が最も多い値

② 度数が最も大きな階級の階級値

どちらの求め方でも正解なのですが、使用目的やデータの内容によって求め方を変えるのが良いのではないかと思います。

前回求めた最頻値は「3996」で、今回は「3750」で近い値がでました。最初の値は登場回数が2回しかなくてあまり意味がないように思えたのですが、こうして2種類の求め方で出してみると近い値でそうでもなかった気もします。

2回しか出ていない値を信用に足るかどうかは置いといて・・・

最初に作成した階級にあたる「給与範囲」の幅を500でなく1000で区切ってみるとか100にしてみるとかすると違った結果が出てきて面白いかもしれません。

スポンサーリンク
%d人のブロガーが「いいね」をつけました。