目次(まとめ)
- 1. 解析用データを国勢調査からダウンロードして準備
- 2. ダウンロードしたファイルの場所を確認する
- 3. Excelでファイルの内容を確認する
- 4. ターミナル上でファイルの文字コードを確認する
- 5. Rでファイルを読み込む
こんにちは、みっちゃんです。
今回の記事では「プログラミングをやってみたいけれど、手元のデータからどうやって始めたらいいかわからない」という方向けに、実際のデータをダウンロードするところから、Rを使ったデータ解析手順(読み込み)を紹介したいと思います。
1. 解析用データを国勢調査からダウンロードして準備
解析用のデータとして、総務省のWebサイトから国勢調査のデータを使用します。
出典:「平成27年国勢調査結果」(総務省統計局) Webサイト
ここでは、上のWebサイトの表番号1「人口,人口増減(平成22年~27年),面積,人口密度,世帯数及び世帯数増減(平成22年~27年) - 全国※,全国市部・郡部,都道府県※,都道府県市部・郡部,市区町村※,平成12年市町村」から、オレンジ色のCSVファイルをダウンロードして使用します。
2. ダウンロードしたファイルの場所を確認する
プログラミングでは、使用するファイルの場所を認識しておくことが重要です。
なぜなら、作成したプログラムから、そのファイルを読む際に、その場所がわからないと読み込むことができないからです。
通常、ダウンロードファイルは "/Users/***/Downloads/" に保存されています。
上の手順でダウンロードしたファイルは、"001_00.csv" という名前になっています。
3. Excelでファイルの内容を確認する
CSVファイルである "/Users/***/Downloads/001_00.csv" は、Excelなどの表計算ソフトで開くことができます。
開くと以下のようになっています。
中身をみると、ファイル上部の9行は、表の説明であり、実質的な表は、10行目以降にあることがわかります。
4. ターミナル上でファイルの文字コードを確認する
特に、日本語を含むようなファイルの場合、プログラムで読み込む場合に「文字化け」を引き起こすことが多いです。
そこで、読み込む前に、あらかじめファイルの文字コードを把握しておくことをお勧めします。
やり方は簡単です。
Macのターミナルを開いて、以下のように入力します。
$ nkf -g /Users/***/Downloads/001_00.csv
すると、"CP932"という結果が出てきます。
5. Rでファイルを読み込む
以前の記事で紹介したように、ターミナルからRを起動します。
$ R -q
データの読み込みは、以下のように実行します。
> data <- read.csv("/Users/***/Downloads/001_00.csv", fileEncoding = "CP932", skip = 9, header = T)
「read.csv( )」というのは、CSVファイルを読み込むための関数です。
4のセクションで確認した文字コードを「fileEncoding = "CP932"」と指定しています。
3のセクションで、ファイルの上部に9行のコメント行があることを確認したので「skip = 9」と指定することで、先頭9行を読み込まないように指定しています。
また、9行をスキップして、次の行は、表の列の名前を示しているので、その行がヘッダー行になるように「header = T」と指定しています。
以上の操作により、データを読み込みは完了です(つづきはこちら)。