Rを利用した基本統計量の計算方法

こんばんは。namakemonoです。

本日は、Rを利用した基本統計量の求め方をご紹介します。
Rのインストール方法についてはこちらをご参照ください。
基本統計量についてはこちらをご参照ください。

Rを利用した基本統計量の計算方法

事前準備

Rにはサンプルデータがいくつか存在します。
今回はwomenという、女性の身長と体重のサンプルデータを使用します。
010

事前準備として、womenデータセットを変数に格納しましょう。

012

上記のように「<-」を利用して、変数xに値を代入します。

平均

平均を求める場合、mean関数を利用します。
例として、「height」列の平均値を算出します。
012

上記の例では、womenデータセットを格納した変数xの1列目を利用して、平均値を求めています。
Rにはデータの「型」というものが存在します。
関数を利用する際は、データの型を意識する必要があります。
型は「mode」関数を利用して確認することができます。
014
今回使用しているwomenデータは行列(list)型のため、そのままmean関数に利用することはできません。
関数によって引数(投入するデータ)の型は異なるため、注意する必要があります。
mean関数は数値データを引数とするため、引数をx[[N]]として、N列目のデータを数字の配列として取得します。
※x[N]は行列のN列目を、行列として指定します。

最大値、最小値、中央値の求め方

さて、次は最大値、最小値、中央値の求め方です。
1つ1つ統計量を求めるのは面倒ですよね?
そこで便利なのが「summary」関数です。
015
列ごとに統計量を算出できましたね。
summary関数は以下の統計量を一度に求めることが可能です。
Min. :最小値
1st Qu.:第1四分位点
Median :中央値
Mean :平均値
3rd Qu.:第3四分位点
Max. :最大値

四分位点とは、データを小さい方から並び替えたときに、データ全体を、含まれているデータの個数が等しい4つのグループに分けるような3つの点(値)のことです。
第2四分位点は中央値となります。

分散、標準偏差

分散は「var」関数を利用して求めます。標準偏差は「sd」関数を利用して求めます。
016



いかがでしたでしょうか?
慣れればかなり簡単に基本統計量を求めることができます。
Excelでも可能だとは思いますが、ぜひRを使ってみてください!

ではでは


コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA