目次(まとめ)

  • ◾️ "summary" 関数を使って数値配列に対する統計値を簡単に取得する


R言語を使ってプログラミングを始めました。数値からなる配列から最大値や最小値、平均値や中央値などを計算する方法はありますか?

Rでは "summary" 関数を使って、数値配列に対する統計値を簡単に取得することができます。

今回の記事では、数値配列から統計値(最大値、最小値、平均値、中央値など)を得る方法を紹介します。

"summary" 関数を使って数値配列に対する統計値を簡単に取得する

例えば、Rの中で、以下のような数値配列を考えます。

> num <- c(1.4, 3.2, 4.3, 5.7, 2.4)

"num" という変数には、5つの数字が入っています。

これらの数字から、最大値や最小値、平均値や中央値などの統計値を得るためには、"summary" 関数を使用します。

> summary(num)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.4     2.4     3.2     3.4     4.3     5.7

実行結果は、左から、最小値、第一四分位数、中央値、平均値、第三四分位数、最大値となっています。

ここで、四分位数とは、データを小さい順にならべて、データを四等分するときの区切り値です。

第一四分位数とは、25%パーセンタイルとも呼ばれ、小さいデータからみて、全体の25%に相当する値です。

第三四分位数とは、75%パーセンタイルとも呼ばれ、小さいデータからみて、全体の75%に相当する値です。

同じように、第二四分位数(50%パーセンタイル)も考えられますが、これは、中央値として知られています。

四分位数は、以下のように取得することができます。

> quantile(num)
  0%  25%  50%  75% 100% 
 1.4  2.4  3.2  4.3  5.7 

ちなみに、それぞれの四分位数は、以下のように "quantile(num)[1]" といったインデックスをつけて取得することができます。

他の統計値についても、最大値であれば "max" 関数、最小値であれば "min" 関数、平均値であれば "mean" 関数、中央値であれば "median" 関数を使って、それぞれ取得することができます。


今回の記事では、Rを使って数値配列を定義したときに、その配列の統計値を簡単に取得できる "summary" 関数を紹介しました。データの分布などを知るために便利な関数なので、是非ご活用ください。

B!