こんにちは、blueです。
前回までは統計学における用語についての説明をしました。
前回までの記事はこちら
しかし、実際の処理、解析については説明はあまりしてきませんでした。
そこで今回からはExcelを使った統計処理についての説明をします。
この記事を読めば
- Excelの「分析ツール」アドインを用いた統計の基本処理ができる
- 統計に役立つグラフを作成できる
ようになります。
できる限りわかりやすく説明していますのでぜひ勉強していってください。
今回はこの書籍を利用して作成しています。Excelの機能を使うことで最低限の数式で統計を使いこなせるようにしてくださっているのでお勧めの一冊です。
統計に対して苦手意識を持っている方にはこちらの書籍がお勧めです。統計学とは?というところから丁寧に書いてくださっています。数式についても図を使いながら一つずつ説明してくださっています。
数式が大嫌い!という方にはこちらの書籍がお勧めです。この本だけでは統計解析ができるようにはなりませんが、文章や図でわかるようにすることをモットーにされているのでイメージで理解されたい方向けの書籍です。
データ分析の準備
Excelにおいては以下のデータ分析が可能です。
- 記述統計・・・基本統計量や可視化
- 推測統計・・・仮説検定、回帰分析のような一部の統計手法
記述統計や推測統計って何?という方はこちら
上に示した分析をExcelで行うには「分析ツール」というアドインを導入する必要があります。
以降でその導入方法について説明します。
分析ツールの読み込み
アドインを追加する手順は以下になります
1.「ファイル」-「オプション」を選択
2. Excelのオプションにて「アドイン」を選択、「設定」を選択
3. アドインにて「分析ツール」にチェックを入れ、「OK」をクリックする
これで準備は完了です。
基本統計量の算出の仕方
Excelで基本統計量を算出するには「関数」か「分析ツール」を使います。
「関数」による算出方法
基本統計量の関数による算出方法は以下になります。
平均値・・・AVERAGE関数
中央値・・・MEDIAN関数
分散・・・VAR.S関数*
標準偏差・・・STDEV.S関数*
最大値・・・MAX関数
最小値・・・MIN関数
*SはSample(サンプル=標本)の略。P(ペアレント=母集団)もあるが普通はSでよい
標本、母集団についての説明はこちら
Excelで行うと以下のようになります。
このように関数を使って算出することができます。
「分析ツール」による算出方法
分析ツールを使って基本統計量を算出する手順は以下になります。
1.「データ」-「データ分析」をクリックし、データ分析ウィンドウにて「基本統計量」を選択し、「OK」をクリックする
2. 基本統計量ウィンドウにて「入力範囲」、「データ方向」、「先頭行をラベルとして使用」のチェックの有無、「出力先」を入力の上、「統計情報」にチェックを入れ、「OK」をクリックする
すると、以下のように基本統計量が一覧となって出力されます。
この場合は範囲や最頻値といった項目も出るので、手軽に基本統計量一式を知りたい場合にお勧めです。
データの可視化
データの傾向をより正確に把握するには可視化=グラフ化が有効です。
グラフは基本統計量では見えないものも見えるようにしてくれます。
ここでは統計学でよく用いられる
- ヒストグラム
- パレート図
- 箱ひげ図
- ヒートマップ
- 散布図
- 相関行列
についての説明をします。
ヒストグラム
ヒストグラムは「データ分布の形状」を把握するための可視化手法です。
ヒストグラムの作成方法は以下になります(Excel2016以降)。
1.「挿入」-「統計グラフの挿入」-「ヒストグラムの絵」を選択
このように自動的にヒストグラムが作成されます。
なお、ピン(1つ1つの棒)の幅や数を変える方法は以下になります。
幅の変更方法
1.軸を選択して右クリック-「軸のオプション」-「グラフの絵」をクリック
2. ピンの幅を変更(ここでは8)
ピンの間隔が8になったヒストグラムが作成されます。
数の変更方法
1.軸を選択して右クリック-「軸のオプション」-「グラフの絵」をクリック
2.ピンの数を変更(ここでは10)
ピンの数が10個になったヒストグラムが作成されます。
ここでは同様にピンのオーバーフロー(上限値)やアンダーフロー(下限値)の設定もできます。
ただし、ヒストグラムはピンの数や幅によって見え方が大きく変わります。
その為基本は自動で扱うことをお勧めします。
外れ値の管理方法
ヒストグラムの場合は外れ値が存在すると形状は大きく変わります。
以下は外れ値として大きな値が存在する場合になります。
その為不要な外れ値は以下の方法で削除します。
1.該当列の項目を選択-「データ]-「フィルター」をクリック
2. 列項目に現れた「フィルターボタン」をクリック-「昇順または降順」をクリック
3. 不要なデータを削除する(以下は2つの外れ値を削除)
これで想定したヒストグラムを表示させることができます。
パレート図
パレート図はデータの数値の大きい順に並べた棒グラフと、データの累積比率を折れ線グラフで表した複合グラフです。
パレート図の作成方法は以下になります。
1.「項目」と「値」を選択した状態で「挿入」-「統計グラフの挿入」をクリック-「パレート図の絵」を選択
このようにして作成することできます。
箱ひげ図
箱ひげ図はデータのばらつきを表すグラフです。ヒストグラムでは一つの項目しか表示できませんが、箱ひげ図では複数の項目を一つのグラフで表示できます。
箱ひげ図の作成方法は以下になります。
1.縦軸となる項目を選択-「挿入」-「統計グラフの挿入」をクリック-「箱ひげ図の絵」を選択
このようにして作成することができます。
一方2つ以上の箱ひげ図を作成する際は横軸と縦軸となる項目を選択します。
1.横軸と縦軸となる項目を選択-「挿入」-「統計グラフの挿入」をクリック-「箱ひげ図の絵」を選択
このようにして作成することができます。
なお箱ひげ図内の名称、意味は以下のようになります。
最初は慣れないかと思いますが複数のデータのばらつきを把握するのにはとても良い方法です。
ヒートマップ
ヒートマップとは、二次元のデータを色の濃淡で表したものです。
その為3次元の表示をする際に適しています。
ヒートマップの作成方法は以下になります。
1.「ホーム」-「条件付き書式」-「カラースケール」-「赤、白のカラースケール」を選択
赤白で濃淡がついた表ができます。
なおヒートマップを作る際、すべて0以上は単一色で、プラスマイナスがある場合は赤色と青色で表すなどするとよいです。
散布図
散布図はデータ同士の関係を確認する際に使う手法です。
散布図の作成方法は以下になります。
1.X軸Y軸となるものを選択-「挿入」-「散布図」をクリック、「散布図の絵」を選択
このようにして作成することができます。
なお相関係数や数式を表示する方法は以下になります。
1.データを選択した状態で右クリック-「近似曲線の追加」-「グラフに数式を表示する」、「グラフにR2乗値を表示する」にチェックを入れる
このようにしてグラフに表示させることができます。
外れ値の管理方法
散布図の場合も外れ値が存在すると相関係数は大きく変わります。
左のグラフのように近似曲線の延長線上に点があると見た目の相関係数は高くなります。
また近似曲線の垂直線上に点があると見た目の相関係数は低くなります。
先ほどのグラフで表すと以下のようになります。
ヒストグラムの場合と同様、相関係数を考慮する際はよけいな外れ値は除外したほうがよいです。
相関行列
相関行列とは変数間の相関を表す相関係数を行と列からなる表で表したものです。
相関行列の作成方法は以下になります。
1.「データ」-「データ分析」-データ分析ウィンドウで「相関」を選択-「OK」をクリック
2. 相関ウィンドウで「入力範囲」を選択-「データ方向」を選択-「先頭行をラベルとして使用」のチェックの有無を入れる-「出力先」を該当するものにする-「OK」をクリック
図のようにすべての相関係数が行と列に配置され、それぞれの組み合わせに対する相関係数が表示されます。
またヒートマップを使用することでさらにわかりやすくすることができます。
このように複数ある変数同士の相関もExcelのデータ分析を使えばすぐに算出することができます。
今回のまとめ
今回はExcelを用いて
- Excelの「分析ツール」アドインを用いた統計の基本処理
- 統計に役立つグラフの作成
に関する説明をしました。
Excelの「分析ツール」アドインは優秀な機能なのですがあまり使われていません。
この記事を読んで今後使いこなせるようになっていただければ幸いです。
次回は「分析ツール」を使った回帰分析の方法について説明します。
今回はこの書籍を利用して作成しています。Excelの機能を使うことで最低限の数式で統計を使いこなせるようにしてくださっているのでお勧めの一冊です。
統計に対して苦手意識を持っている方にはこちらの書籍がお勧めです。統計学とは?というところから丁寧に書いてくださっています。数式についても図を使いながら一つずつ説明してくださっています。
数式が大嫌い!という方にはこちらの書籍がお勧めです。この本だけでは統計解析ができるようにはなりませんが、文章や図でわかるようにすることをモットーにされているのでイメージで理解されたい方向けの書籍です。
コメント