こんにちは、blueです。
前回は1章から4章の用語を勉強しました。
今回は5章から10章の用語について理解します。ここからが仮説検定のメインになります。
この記事では、統計用語の意味を明快に解説し、資格取得までに導く情報をお届けします。統計学への第一歩を踏み出すあなたにとって、貴重な参考となることでしょう。一緒に学んでいきましょう!
エクセルを使った統計において仮説検定を勉強したい方は以下がお勧めです。エクセルの「データ分析」アドインを使用するので難しい計算式などはでてきませんし、資格取得も可能です。平易な言葉が使われているので数学が苦手な人でも理解しやすい書籍です。
エクセルを使った統計について一から勉強したい方は以下がお勧めです。平均や中央値など統計で用いる基本的な項目を平易な言葉でわかりやすく説明してくれています。仮説検定を勉強する前に読んでおくとよい書籍です。
Excelを使った統計について一通り勉強したい方は以下がお勧めです。やや数学的な計算が入った説明がありますが最低限の数式で統計を使いこなせるようにしてくださっています。
(5章の前に) 因果関係の4つのパターン
2変数の組み合わせと仮説
x y | 質的変数 | 量的変数 |
質的変数 | 分析:クロス集計表 仮説検定:カイ二乗検定 | 分析:xごとに平均値を計算 仮説検定:t検定、F検定、一元配置分散検定 |
量的変数 | (2択の質的変数のみ) 分析:散布図と相関 仮説検定:回帰分析(ダミー変数) | 分析:散布図と相関 仮説検定:回帰分析 |
xが2つ以上:重回帰分析
xの選択肢が3つ以上:ダミー変数を使用した重回帰分析
5章 カイ二乗検定
カイ二乗検定とは
- 質的変数と質的変数の間の関係性を調べる検定
- 例:性別と購入商品
- 性別(質的変数)が購入商品(質的変数)に影響を与えるかどうか?
- 例:性別と購入商品
- 注意点
- 組み合わせが多いと有意差は出やすいが個々の影響は判断できない
- データ数が少ないと信頼性が低くなるので各セルは5件以上ある方がよい
Excelでのカイ二乗検定の計算方法
- ピボットテーブルで行に原因系、列に結果系のクロス集計表を作る
- 比較用の「差がない」集計表(期待度数による集計表)を作成する
- 原因系の集計を出す
- 原因系の構成比率を出す
- 元のピボットテーブルに対して構成比率をかけて期待度数による集計表を作る
- カイ二乗検定であるCHISQ.TEST(観測度数の値, 期待度数の値)で有意確率を出す
残差分析
- 行に原因系、列に結果系のクロス集計表においてどこに差があるのかを分析する方法。個々の組み合わせの差について分析できる
- 残差=(実測値ー期待度数)^2/期待度数(差を二乗して期待度数で割る)
- カイ二乗値=残差の合計
- カイ二乗検定での自由度=(行の選択肢の数-1)*(列の選択肢の数-1)
- カイ二乗検定での有意確率=CHIDIST(カイ二乗値,自由度)=CHISQ.TEST
- 実数値と期待度数から調整済み標準化残差を求める
- NORM.S.DIST関数を用いて有意確率を求める
6章 t検定
t検定とは
- 質的変数と量的変数の間の因果関係を調べる検定
2つのデータの平均値に差があるかどうかを調べることができる
質的変数 | 検定 |
質的変数が2択 | (等分散) t検定:等分散を想定した2標本による検定 を用いる |
質的変数が2択 | (等分散でない) t検定:分散が等しくないと仮定した2標本による検定 を用いる |
質的変数が3択以上 | 一元配置分散分析 を用いる |
質的変数が一対の関係 | t検定:一対の標本による平均の検定 を用いる 例:同じ回答者 |
F検定とは
- 2つのデータのばらつきが同じかどうかを調べる検定
- ExcelのF検定にて選択肢1の結果系変数と選択肢2の結果系変数の値を入力して調べる
- 有意確率pを計算する。片側なので2倍する。
- 有意確率以下なら差があるので「分散が等しくないと仮定した2標本による検定」を用いる。有意確率以上なら差がないとし「等分散を仮定した2標本による検定」を用いる
7章 相関分析と回帰分析
相関分析
- 量的変数同士の関係性を見る分析方法
- 2つの量的変数の比較はCORREL関数でできる
- 変数が多い場合は「分析ツール」を使うのがよい
- 関係性があるかどうかを判断するのに有意確率pを考慮することも可能。ただ自力で算出する必要あり
回帰分析
- 量的変数間の因果関係(あることが別のことを引き起こす関係)を想定した分析
- y=ax+bで表せる関係
- 原因系変数で結果系変数をどれくらい説明できるかを分析できる
- 「分析ツール」より分析が可能。切片、傾き、p値、重決定R2を見ればよい
- 結果の見方
- 重決定R2:原因系変数だけでどれだけ結果を説明できるかを表す指標(%)
- 残差の利用:実測データと回帰分析データからの差を表したもの。分析ツールで使用可能。残差の基本統計分析により、外れ値やばらつきを知ることなどもできる。
8章 ダミー変数
ダミー変数
- 量的変数から質的変数の関係性を見る際に質的変数に対して用いる
- 結果系の選択肢は2つのみで考える(Excelでは困難)
- 着目する選択肢を1, そうでない選択肢を0とする。If文で作成する
- 量的変数とダミー変数で散布図作成、回帰分析を行う
- 量的変数同士の関係性を見る分析方法
ダミー変数2
- 回帰分析の際は以下に注意する
- 回帰分析から出る予測値は0か1にはならない。0.5以上を1、未満を0として質的変数に戻す
- 正答率:予測値を質的変数に戻した時の予測の精度。クロス集計表で出す
- 重決定R2:原因系変数で結果(0か1)をどれだけ説明できるかを表したもの
- 残差:あるxにおける実測値と予測値との差。大きいずれに分析のヒントがある
9章 重回帰分析
重回帰分析
- Y=a1x1+a2x2+・・・+bで表す
- Excelでの使用方法
- データ分析の「回帰分析」を用いる
- 入力X範囲は連続列を指定する必要がある
- 結果の見方
- p値:各変数の影響がたまたまかどうか?
- 重決定R2:各変数でどれだけ説明できるか?
- 補正R2:変数の数を増やすことでR2が大きくなることを踏まえた補正値。
- F値:全変数による影響がたまたまかどうか?
10章 ダミー変数の応用
結果系変数と原因系変数
- 結果系変数への適用(8章 ダミー変数)
- 選択肢は2つのみで考える(Excelでは困難)
- 着目する選択肢を1, そうでない選択肢を0とする。If文で作成する
- 量的変数とダミー変数で散布図作成、回帰分析を行う
- 原因系変数への適用
- 3択以上の選択肢で使用する
- 選択肢を変数名としたダミー変数を作成する
- 基準となる選択肢を選択し、削除する
- 両方満たす場合でも両方1にはしていけない。新たな選択肢とする
- ダミー変数と量的変数で重回帰分析を行う
- ダミー変数の傾きは基準との差を表す
- 時系列データにおける日や月を選択肢としてダミー変数化することもできる
- 3択以上の選択肢で使用する
今回のまとめ
今回は「ビジネス統計スペシャリスト・エクセル分析スペシャリスト」の5章から10章までの用語をまとめました。実践での計算は大事ですが、まずは用語について説明できないと意味がないと考えていますのでお付き合いいただければ幸いです。
次回は5章から10章の用語のまとめをします。
エクセルを使った統計において仮説検定を勉強したい方は以下がお勧めです。エクセルの「データ分析」アドインを使用するので難しい計算式などはでてきませんし、資格取得も可能です。平易な言葉が使われているので数学が苦手な人でも理解しやすい書籍です。
エクセルを使った統計について一から勉強したい方は以下がお勧めです。平均や中央値など統計で用いる基本的な項目を平易な言葉でわかりやすく説明してくれています。仮説検定を勉強する前に読んでおくとよい書籍です。
Excelを使った統計について一通り勉強したい方は以下がお勧めです。やや数学的な計算が入った説明がありますが最低限の数式で統計を使いこなせるようにしてくださっています。
コメント