前回、ヒストグラムを作成して最頻値を求めました。
階級幅を変えてみると色々とヒストグラムが変化することが分かりました。
では、この階級幅はどれくらいにするのが一番いいのでしょうか?
勘でするわけにはいかないですし、固定の値というのも無理があるかと思います。
階級「幅」は階級の「数」が決まれば、自然と決まってきます。実は階級の数を決める目安となる「スタージェスの公式」というものがあります。
データの個数 | 度数分布表やヒストグラムでの適切な階級の数の目安 |
21=2 | 2 |
22=4 | 3 |
23=8 | 4 |
24=16 | 5 |
25=32 | 6 |
2n | n+1 |
〇 データ全体の個数を「2のn乗」と考え、その時の階級の数を「n+1」とする。
〇 これは「絶対にこうあるべき」というものではなく、これまでの統計学において「大体これくらいがいいだろう」という経験的なもの。
〇 提唱者であるスタージェス氏が、人間の持つ主観を含めて考え、「目安」となるものを用意した公式が「スタージェスの公式」。
分析は、いろいろな数値で何度も検証するものなのでこの公式を目安に何通りかやってみるのが良いでしょう。
前回使用したデータは64個あります。2の6乗なのでn+1で目安としては「7」になります。が、実際階級を7にしてみると実際のデータの範囲で収まるくらいで、なんとなく良さそうな感じになります。
3000から9000で1000刻みにすると階級数が7になって、頻度が0になっている階級もなく、無駄なくスッキリした感じになります。
こんな感じですね。前回の500刻みの時よりも良い感じです。
公式を目安に色々と試してみると面白いかもしれません。