こんにちは、blueです。
前回は統計学は?というところから「記述統計」についての説明をしました。
前回の記事はこちら
今回は統計学の「推測統計」についてできる限りわかりやすく説明しようと思います。
この記事を読めば
- 推測統計には3つの分布が存在する
- 理解すべき分布は「標本分布」
- 標本分布を構成するデータ数から正規分布からt分布まで考えることができる
ことがわかるようになります。
Excelは普段使っているけどデータ分析に関しては素人の方にはこちらの書籍がお勧めです。Excelの機能を使うことで最低限の数式で統計を使いこなせるようにしてくださっていて非常に読みやすいです。
リンク
統計に対して苦手意識を持っている方にはこちらの書籍がお勧めです。統計学とは?というところから丁寧に書いてくださっています。数式についても図を使いながら一つずつ説明してくださっています。
リンク
数式が大嫌い!という方にはこちらの書籍がお勧めです。この本だけでは統計解析ができるようにはなりませんが、文章や図でわかるようにすることをモットーにされているのでイメージで理解されたい方向けの書籍です。
リンク
推測統計の分布
前回もお話しした通り、推測統計とは「一方母集団に対する統計」のことです。
なお推測統計には以下3つの分布が存在します。
図にすると以下のようになります。
それぞれの用語の説明については以下になります。
母集団
全体のデータのこと。
〇母平均:Σ各データ/データの個数
〇母分散:Σ(各データ-母平均)^2/データ個数
〇母標準偏差: √母分散
基本的に上記の情報を調べることは困難
gacco:ga031社会人のためのデータサイエンス入門
標本
母集団からサンプリングした1つの集団のこと。
〇標本平均:Σ各データ/データの個数
〇標本分散:Σ(各データ-標本平均)^2/データ個数
〇標本標準偏差: √標本分散
標本のみから母集団の情報を知ることは困難
gacco:ga031社会人のためのデータサイエンス入門
標本分布
標本平均の分布のこと。標本と抽出を繰り返してできた分布のこと。正規分布になることがわかっている。
標本から母集団の情報を推定する為に利用する。
以下のように母集団の情報が多く含まれている
〇標本分布の平均=母平均
〇標本分布の分散=母分散/標本データの個数
〇標準偏差=標準誤差= √(母分散/標本データの個数)
gacco:ga031社会人のためのデータサイエンス入門
Excelによるやさしい統計解析
推測統計における用語
95%信頼区間
平均と分散か標準偏差がわかっている正規分布で、全体の面積の95%となる範囲のこと
〇正規分布は
-1.96*(標準偏差)ー平均から1.96*(標準偏差)ー平均の範囲となる
〇標準正規分布は
-1.96から1.96の範囲となる
Excelによるやさしい統計解析
不偏分散
母集団の分散を推定する為に用いる。標本データから算出することができる
〇不偏分散=Σ(各データ-標本平均)^2/(データ個数-1)
Excelによるやさしい統計解析
区間推定
手元にある標本から母集団の平均がどの範囲に存在するかを推定すること。
不偏分散を用いて求める
〇標本データが十分多い時は正規分布になる為以下に従う(95%信頼区間の場合)
-1.96*√(不偏分散/データの個数)ー標本平均≦母平均≦1.96* √(不偏分散/データの個数)+標本平均
〇標本データが少ない時はt分布という形になり以下に従う
-(tの境界値)*√(不偏分散/データの個数)ー標本平均≦母平均≦(tの境界値)* √(不偏分散/データの個数)+標本平均
tの境界値:t値と、t分布で囲まれる面積が信頼区間になるときのt値のこと。自由度(データの個数-1)と有意水準よりt分布表を参照して求める
Excelによるやさしい統計解析
t分布
正規分布する母集団の平均と分散が未知であり、標本サイズが小さい場合に平均を推定する問題に利用される。
t分布~Wikipedia~
帰無仮説
ある仮説が正しいかどうかの判断の為にたてられる仮説。基本的には否定されるための仮説であり、具体的にa=bであるものをいう
統計学の基礎から学ぶExcelデータ分析の全知識
対立仮説
帰無仮説を覆す為の仮説。帰無仮説を棄却することで採用する
統計学の基礎から学ぶExcelデータ分析の全知識
t検定
帰無仮説が正しいと仮定したときに、統計量がt分布に従うことを利用する統計学的検定法の総称
以下のようなものがある
〇2つの母集団がいずれも正規分布に従うと仮定したうえでの、平均が等しい(帰無仮説)かどうかの検定
〇正規分布に従う母集団の平均が特定の値に等しい(帰無仮説)かどうかの検定
〇回帰直線の勾配が0(帰無仮説)と有意に異なるかどうかの検定
t検定~Wikipedia~
p値
t値以上の極端な値を取る確率 全体の面積1からtまでの累積面積を引いた値
Excelによるやさしい統計解析
χ2検定
帰無仮説が正しいと仮定したときに、統計量がχ二乗分布に従うことを利用する統計学的検定法の総称
χ二乗分布:YesかNoである2値の事象がN個分あるような事象のこと
カイ二乗検定とは?わかりやすく例で分割表の検定の計算式も簡単に!
統計学の基礎から学ぶExcelデータ分析の全知識
今回のまとめ
今回は推測統計について
- 推測統計には3つの分布が存在する
- 理解すべき分布は「標本分布」
- 標本分布を構成するデータ数から正規分布からt分布まで考えることができる
を説明しました。
最初はわかりくいかと思いますが勉強のヒントになってもらえれば幸いです。
Excelは普段使っているけどデータ分析に関しては素人の方にはこちらの書籍がお勧めです。Excelの機能を使うことで最低限の数式で統計を使いこなせるようにしてくださっていて非常に読みやすいです。
リンク
統計に対して苦手意識を持っている方にはこちらの書籍がお勧めです。統計学とは?というところから丁寧に書いてくださっています。数式についても図を使いながら一つずつ説明してくださっています。
リンク
数式が大嫌い!という方にはこちらの書籍がお勧めです。この本だけでは統計解析ができるようにはなりませんが、文章や図でわかるようにすることをモットーにされているのでイメージで理解されたい方向けの書籍です。
リンク
コメント