基本統計量

基本統計量

こんにちは。namakemonoです。
本日は統計の基本である。「基本統計量」について記載していこうと思います。
Rを利用した基本統計量の求め方はこちらをご参照ください。

基本統計量とは

基本統計量とはその名の通り、対象データの特徴を表す「基本的な統計量」のことです。
代表的なものには、平均や分散などがありますね。
人間で例えると身長や体重、年齢や性別などといったところでしょう。


基本統計量は代表値散布度の2つに大きく分類されます。
では、それぞれどんなものがあるのか、見ていきましょう。

代表値

代表値とは分布全体を1つの値で表しているものです。例えば、平均や中央値、最大値、最小値などです。
では代表値を見ていきましょう。

平均(mean)

皆さんもよく耳にしますよね。
定義としては、データの中心的傾向を示す値となります。
普段はデータの値をすべて足して、足したデータ数で割る、といった相加平均が使われます。

最大値(maximum)、最小値(minimum)

これもみなさんご存知ですよね?
データの中で最も大きな値(最大値)と、最も小さな値(最小値)です。

最頻値(mode)

続いては最頻値です。
これは読んで字のごとく、「も出現度(回数)の多い数」です。
例えば「1,1,2,3,4,5」というデータであれば、「1」が最頻値となります。

中央値(median)

中央値とは、「データの中央の値」です。
平均値とは異なります。
データの数が奇数であれば中央の値を、データの数が偶数の場合は真ん中の2数の平均値を中央値とします。
例えば「1,1,2,3,4」というデータであれば、中央値は「2」となり
「1,1,2,3,4,5」というデータであれば、中央値は「(2+3) ÷ 2 = 2.5」となります。

散布度

散布度とは、ばらつきの大きさを表す値です。分散や標準偏差が有名ですね。

分散(variance)

分散は、測定値の変異、つまりどの程度データにバラツキがあるかを示しています。
平均が同じ値であったとしても必ずしも同じ傾向のあるデータとは言い切れません。
以下のデータをご覧ください。
011
平均値は同じですが、分散に大きな差があります。
つまり、平均だけではデータの特徴を把握できないということですね。
計算方法は少し複雑なため、ツールを利用したほうが良いと思います。
分散はσ²(シグマ)という記号で表現されます。
なお、分散は、対象データの単位の2乗値となります。

標準偏差

標準偏差は分散の平方根を指します。
そのため、σという記号で一般的には表現されます。
標準偏差は品質管理などにも利用されていますね。(シックスシグマなど)
標準偏差は、単位が対象データと同じため、ばらつきの度合いがつかみやすく、分散よりも頻繁に利用されます。

いかがでしたでしょうか?
今回紹介した言葉は統計の基礎用語なので、覚えて損はないと思います。
次回はRを利用した基本統計量の計算方法を紹介したいと思います。

ではでは