pythonで色々と自動化してtwitterで勝手にフォローしまくったり、色んなサイトをクローリングして情報収集したりと出来るように調べて勉強してると実はpythonは、データ分析や統計にすごく強い言語だという事が判明。
しかし、統計学やデータ分析とかは全く勉強していなくさっぱり分からないので、統計学やデータ分析について勉強してみることにした。
統計学を初歩から勉強するのに分かりやすいと思った本を購入して、内容に沿って学んでいくことにする。
購入したのはこんな本
買う前に同じ様な入門書的な本を何種類かパラパラと見て、これならおバカな自分でも理解できそうと思ったので購入w
統計学とかデータ分析とか出来ると実際の仕事でも役に立つと思うのでやって損はないはず・・・
pythonでプログラムを書くのもアリだけど、それだと仕事場で環境を整えて実行するには手間がかかるけど、会社のPCには基本的にExcelがインストールされているのでそっちで出来るようにやってみる。
【準備】
Excelにはデータ分析用のアドインがデフォルトでインストールされていますが、初期状態ではメニューには表示されていないので表示して使用可能にします。
① Excelを起動して「ファイル」メニューを表示
② 表示した「ファイル」メニューから「オプション」を選択
③ 表示されたオプションウィンドウから「アドイン」を選択
④ 画面下にある「管理」から「Excelアドイン」を選択し「設定」ボタンをクリック
⑤ 表示された「アドイン」ウィンドウから「分析ツール」必要なら「分析ツールVBA」のチェックボックスをチェックして「OK」ボタンをクリック
⑥ 「データ」メニューに「データ分析」が追加される
※自分の環境がExcel2013なので他のバージョンでは違うかもしれないので注意。
次に使用する元データを用意する。これは国が色々と調査した結果を公開してくれているのでそれを利用する。
この辺ですかね。
国税庁の「民間給与実態統計調査結果」
ここから「第13表 事業所規模別及び勤続年数別の給与所得者数・給与額」や「第14表 企業規模別及び勤続年数別の給与所得者数・給与額」とか他にも色々と使用できそうなものがあります。
このExcelファイルをダウンロードして開くと、そのままデータ分析に使用するにはちょっと使い難いのでもうちょっと単純な表に加工します。
13表を開くと、事業所規模が男女別に分けられているのが分かります。これを男女別の表に分割します。
これでひとまず準備完了です。