こんにちは、blueです。
今回からは統計学の用語についてできる限りわかりやすく説明しようと思います。
統計学に対しては
・ビッグデータとか大きな集団に対して分析をする為のやつでしょ? ・標本とか母集団とか出てくるけど何のこと? ・同じような用語や数式が出てきてよくわからないんだけど
と思っている方も多いのではないでしょうか?
私も最初はそうでした。統計学はとても難しい分野でこれまで使ったことのない知識を一から勉強しなくてはならないと思っていました。
ただ勉強するにつれ、統計学は日常にあふれており、自分も日々仕事などで使っていることがわかってきました。
その為今回からは統計学で出てくる用語に関して、以下の書籍やネットで学んだ情報を自分なりにまとめることにしました。
この記事を読めば
- 統計学には2つの集団が存在する
- 統計においては「記述統計」と「推測統計」の2種類が存在する
- 「推測統計」をやる前に「記述統計」を理解する必要がある
ことがわかるようになります。統計を学ぶための初心者用としてこの記事を使っていただければ幸いです。
Excelは普段使っているけどデータ分析に関しては素人の方にはこちらの書籍がお勧めです。Excelの機能を使うことで最低限の数式で統計を使いこなせるようにしてくださっていて非常に読みやすいです。
統計に対して苦手意識を持っている方にはこちらの書籍がお勧めです。統計学とは?というところから丁寧に書いてくださっています。数式についても図を使いながら一つずつ説明してくださっています。
数式が大嫌い!という方にはこちらの書籍がお勧めです。この本だけでは統計解析ができるようにはなりませんが、文章や図でわかるようにすることをモットーにされているのでイメージで理解されたい方向けの書籍です。
結論
まず最初に結論です。
- 統計学には2つの集団が存在する
- 統計においては「記述統計」と「推測統計」の2種類が存在する
- 「推測統計」をやる前に「記述統計」を理解する必要がある
これらについて以下で説明していきます。
統計学では2つの集団が存在する
まず最初に統計学について説明します。
統計学とは、「現在ある集団から取得できる結果からなんとかして全体のデータの傾向や性質を理解しようという学問」のことです。
ここで現在ある集団を標本、全体のデータを母集団とも言います。
図に表すと以下のようになります。

標本はある特定の集団や一部分、母集団は非常に広いデータを示していることがわかると思います。
このように統計学においてはまず「標本」と「母集団」の存在を理解することが大事になります。
統計には「記述統計」と「推測統計」の2種類が存在する
では次に統計の手法について説明します。
まず標本についての統計は「記述統計」と言います。
「10人の試験の平均点は50点」「100人の生徒の身長の最大値は180㎝」というのは標本に対する数値なので記述統計です。
一方母集団に対する統計は「推測統計」と言います。
選挙速報で出てくる当選確実などは一部から全データを推測しているので、推測統計になります。
これらのことから「記述統計」は普通に使っているということがよくわかると思います。
ただしこれらの違いを明確に示していない書籍も多くあります。
以下に参考サイトを示します多今行っている解析は標本に対する統計なのか母集団に対する統計なのかを理解するのことが重要です。
「推測統計」をやる前に「記述統計」を理解する必要がある
記述統計は目の前の情報を扱うだけなので非常に簡単な内容です。
ただし、推測統計は見えない情報を扱う為難しくなります。
推測統計では記述統計の知識も必要になるので、先に記述統計をよく理解しておくとよいです。
その為ここでは記述統計に出てくる各用語について説明します。
なお用語の説明は各サイト、書籍をもとにしています。詳しい説明が必要な方はそちらを参考にしていただけるとより理解できると思います。
代表値(平均値、中央値、最頻値)
代表値(平均値、中央値、最頻値)とはたくさんのデータを一つの数値で表したものです。
gacco:ga031社会人のためのデータサイエンス入門
データの重心を表す
(デメリット)大きな値や小さな値(=外れ値)に引っ張られやすい
統計学の基礎から学ぶExcelデータ分析の全知識
複数の値のうち中央に位置する値
(デメリット)一番多い所というわけではない
統計学の基礎から学ぶExcelデータ分析の全知識
最も大きい頻度の場所
(デメリット)階級幅の影響を受けやすい
統計学の基礎から学ぶExcelデータ分析の全知識
なおデータを一つの指標で表すことは困難です。ヒストグラム(後述)などを使いながらデータを見ていく必要があります。
分散・標準偏差
分散・標準偏差はデータの散らばりの程度を数値で表したものです。
データのばらつきを見る指標。Σ(各データ-平均)^2/(N-1)
偏差の二乗を表す
(デメリット)単位も二乗されてしまう為データとの比較が難しい
統計学の基礎から学ぶExcelデータ分析の全知識
データのばらつきを見る指標。√Σ((各データ-平均)^2/(N-1))
分散の平方根のこと
単位が生データと同じになるので比較しやすい
統計学の基礎から学ぶExcelデータ分析の全知識
グラフ
データの可視化も記述統計の一つです。上記の数値だけだとデータを見誤る可能性がある為グラフ化もセットだと思っておいた方がよいです。
統計学の基礎から学ぶExcelデータ分析の全知識
データの分布の形状を把握する
統計学の基礎から学ぶExcelデータ分析の全知識
平均値を中心(0)とした左右対称の釣鐘のこと
それぞれの値から平均を引いたものを用いる
統計学の基礎から学ぶExcelデータ分析の全知識
平均値を中心(0)、分散を1とした分布のこと
それぞれの値から平均を引き標準偏差で割ることで標準化できる
これを標準正規分布表にあてはめて考える
統計学の基礎から学ぶExcelデータ分析の全知識
中央値からのデータのばらつきを表したもの
第一四分位が25%タイル、第三四分位が75%タイルになる
四分位範囲の1.5倍が上下のバーを示す。それ以降のデータは点で表す
統計学の基礎から学ぶExcelデータ分析の全知識
グループ同士の比較をする際に用いる
統計学の基礎から学ぶExcelデータ分析の全知識
(時間などを通じた)水位や変化を表す際に用いる
統計学の基礎から学ぶExcelデータ分析の全知識
行列型のデータの特徴を把握する際に用いる 3次元のデータの表示ができる
統計学の基礎から学ぶExcelデータ分析の全知識
2つの変数の間の関係を確認する際に用いる。因果関係は示していないことに注意
共分散:xとyの2つの変数のそれぞれの平均値との偏差を掛け合わせたもの
相関係数:直線的な関係を表す指標 共分散をx、yそれぞれの標準偏差で割ったもの
(デメリット)直線の延長線上に外れ値が存在すると相関係数は高くなる。直線の垂直線上に外れ値が存在すると相関係数は低くなる
統計学の基礎から学ぶExcelデータ分析の全知識
対象とするすべての変数に対して、それら変数間のすべての組み合わせにて計算される相関係数を行列の形式で表したもの
行列の表にした後はヒートマップ化するとよい
データの種類
私たちが扱うデータは大きく「質的データ」と「量的データ」に分けられます。
データの分類や種類を区別するもの
質的データの一種。他と区別して分類する為の名称 例:好きなスポーツ、血液型
Excelによるやさしい統計解析
質的データの一種。順序や大小に意味はあるものの間隔に意味がないもの。足し算や引き算はできない。 例:運動会の順位、役職
Excelによるやさしい統計解析
数字の大小に意味があり、数値で推量できるものをいう
Excelによるやさしい統計解析
量的データの一種。目盛りが等間隔になっていて、その間隔に意味があるもの 例:気温やテストの得点
Excelによるやさしい統計解析
量的データの一種。0が原点であり間隔と比率に意味があるもの 例:身長や速度
Excelによるやさしい統計解析
今回のまとめ
今回は統計の入りとして「記述統計」について詳しく説明しました。
- 統計学には2つの集団が存在する
- 統計においては「記述統計」と「推測統計」の2種類が存在する
- 「推測統計」をやる前に「記述統計」を理解する必要がある
「記述統計」を理解するだけで多くの統計処理が行えることがわかっていただけたかと思います。
ここでの知識は次の「推測統計」に非常に役に立つので、ぜひ記事を通して理解を深めていただければ幸いです。
次回は「推測統計」について説明します。
Excelは普段使っているけどデータ分析に関しては素人の方にはこちらの書籍がお勧めです。Excelの機能を使うことで最低限の数式で統計を使いこなせるようにしてくださっていて非常に読みやすいです。
統計に対して苦手意識を持っている方にはこちらの書籍がお勧めです。統計学とは?というところから丁寧に書いてくださっています。数式についても図を使いながら一つずつ説明してくださっています。
数式が大嫌い!という方にはこちらの書籍がお勧めです。この本だけでは統計解析ができるようにはなりませんが、文章や図でわかるようにすることをモットーにされているのでイメージで理解されたい方向けの書籍です。
コメント