-
目次(まとめ)
- ◾️ "summary" 関数を使って数値配列に対する統計値を簡単に取得する
R言語を使ってプログラミングを始めました。数値からなる配列から最大値や最小値、平均値や中央値などを計算する方法はありますか?
Rでは "summary" 関数を使って、数値配列に対する統計値を簡単に取得することができます。
今回の記事では、数値配列から統計値(最大値、最小値、平均値、中央値など)を得る方法を紹介します。
"summary" 関数を使って数値配列に対する統計値を簡単に取得する
例えば、Rの中で、以下のような数値配列を考えます。
> num <- c(1.4, 3.2, 4.3, 5.7, 2.4)
"num" という変数には、5つの数字が入っています。
これらの数字から、最大値や最小値、平均値や中央値などの統計値を得るためには、"summary" 関数を使用します。
> summary(num)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.4 2.4 3.2 3.4 4.3 5.7
実行結果は、左から、最小値、第一四分位数、中央値、平均値、第三四分位数、最大値となっています。
ここで、四分位数とは、データを小さい順にならべて、データを四等分するときの区切り値です。
第一四分位数とは、25%パーセンタイルとも呼ばれ、小さいデータからみて、全体の25%に相当する値です。
第三四分位数とは、75%パーセンタイルとも呼ばれ、小さいデータからみて、全体の75%に相当する値です。
同じように、第二四分位数(50%パーセンタイル)も考えられますが、これは、中央値として知られています。
四分位数は、以下のように取得することができます。
> quantile(num)
0% 25% 50% 75% 100%
1.4 2.4 3.2 4.3 5.7
ちなみに、それぞれの四分位数は、以下のように "quantile(num)[1]" といったインデックスをつけて取得することができます。
他の統計値についても、最大値であれば "max" 関数、最小値であれば "min" 関数、平均値であれば "mean" 関数、中央値であれば "median" 関数を使って、それぞれ取得することができます。
今回の記事では、Rを使って数値配列を定義したときに、その配列の統計値を簡単に取得できる "summary" 関数を紹介しました。データの分布などを知るために便利な関数なので、是非ご活用ください。