基本統計量

こんにちは。namakemonoです。
本日は統計の基本である。「基本統計量」について記載していこうと思います。
Rを利用した基本統計量の求め方はこちらをご参照ください。

基本統計量とは

基本統計量とはその名の通り、対象データの特徴を表す「基本的な統計量」のことです。
代表的なものには、平均や分散などがありますね。
人間で例えると身長や体重、年齢や性別などといったところでしょう。


基本統計量は代表値散布度の2つに大きく分類されます。
では、それぞれどんなものがあるのか、見ていきましょう。

代表値

代表値とは分布全体を1つの値で表しているものです。例えば、平均や中央値、最大値、最小値などです。
では代表値を見ていきましょう。

平均(mean)

皆さんもよく耳にしますよね。
定義としては、データの中心的傾向を示す値となります。
普段はデータの値をすべて足して、足したデータ数で割る、といった相加平均が使われます。

最大値(maximum)、最小値(minimum)

これもみなさんご存知ですよね?
データの中で最も大きな値(最大値)と、最も小さな値(最小値)です。

最頻値(mode)

続いては最頻値です。
これは読んで字のごとく、「も出現度(回数)の多い数」です。
例えば「1,1,2,3,4,5」というデータであれば、「1」が最頻値となります。

中央値(median)

中央値とは、「データの中央の値」です。
平均値とは異なります。
データの数が奇数であれば中央の値を、データの数が偶数の場合は真ん中の2数の平均値を中央値とします。
例えば「1,1,2,3,4」というデータであれば、中央値は「2」となり
「1,1,2,3,4,5」というデータであれば、中央値は「(2+3) ÷ 2 = 2.5」となります。

散布度

散布度とは、ばらつきの大きさを表す値です。分散や標準偏差が有名ですね。

分散(variance)

分散は、測定値の変異、つまりどの程度データにバラツキがあるかを示しています。
平均が同じ値であったとしても必ずしも同じ傾向のあるデータとは言い切れません。
以下のデータをご覧ください。
011
平均値は同じですが、分散に大きな差があります。
つまり、平均だけではデータの特徴を把握できないということですね。
計算方法は少し複雑なため、ツールを利用したほうが良いと思います。
分散はσ²(シグマ)という記号で表現されます。
なお、分散は、対象データの単位の2乗値となります。

標準偏差

標準偏差は分散の平方根を指します。
そのため、σという記号で一般的には表現されます。
標準偏差は品質管理などにも利用されていますね。(シックスシグマなど)
標準偏差は、単位が対象データと同じため、ばらつきの度合いがつかみやすく、分散よりも頻繁に利用されます。

いかがでしたでしょうか?
今回紹介した言葉は統計の基礎用語なので、覚えて損はないと思います。
次回はRを利用した基本統計量の計算方法を紹介したいと思います。

ではでは


コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA