目次(まとめ)
- 1. 解析用データを国勢調査からダウンロードして準備
- 2. ダウンロードしたファイルの場所を確認する
- 3. Excelでファイルの内容を確認する
- 4. ターミナル上でファイルの文字コードを確認する
- 5. Rでファイルを読み込む



こんにちは、みっちゃんです。

今回の記事では「プログラミングをやってみたいけれど、手元のデータからどうやって始めたらいいかわからない」という方向けに、実際のデータをダウンロードするところから、Rを使ったデータ解析手順(読み込み)を紹介したいと思います。

1. 解析用データを国勢調査からダウンロードして準備

解析用のデータとして、総務省のWebサイトから国勢調査のデータを使用します。

出典:「平成27年国勢調査結果」(総務省統計局) Webサイト

ここでは、上のWebサイトの表番号1「人口,人口増減(平成22年~27年),面積,人口密度,世帯数及び世帯数増減(平成22年~27年) - 全国※,全国市部・郡部,都道府県※,都道府県市部・郡部,市区町村※,平成12年市町村」から、オレンジ色のCSVファイルをダウンロードして使用します。

2. ダウンロードしたファイルの場所を確認する

プログラミングでは、使用するファイルの場所を認識しておくことが重要です。

なぜなら、作成したプログラムから、そのファイルを読む際に、その場所がわからないと読み込むことができないからです。

通常、ダウンロードファイルは "/Users/***/Downloads/" に保存されています。

上の手順でダウンロードしたファイルは、"001_00.csv" という名前になっています。

3. Excelでファイルの内容を確認する

CSVファイルである "/Users/***/Downloads/001_00.csv" は、Excelなどの表計算ソフトで開くことができます。

開くと以下のようになっています。

中身をみると、ファイル上部の9行は、表の説明であり、実質的な表は、10行目以降にあることがわかります。

4. ターミナル上でファイルの文字コードを確認する

特に、日本語を含むようなファイルの場合、プログラムで読み込む場合に「文字化け」を引き起こすことが多いです。

そこで、読み込む前に、あらかじめファイルの文字コードを把握しておくことをお勧めします。

やり方は簡単です。

Macのターミナルを開いて、以下のように入力します。

$ nkf -g /Users/***/Downloads/001_00.csv

すると、"CP932"という結果が出てきます。

5. Rでファイルを読み込む

以前の記事で紹介したように、ターミナルからRを起動します。

$ R -q

データの読み込みは、以下のように実行します。

> data <- read.csv("/Users/***/Downloads/001_00.csv", fileEncoding = "CP932", skip = 9, header = T)

「read.csv( )」というのは、CSVファイルを読み込むための関数です。

4のセクションで確認した文字コードを「fileEncoding = "CP932"」と指定しています。

3のセクションで、ファイルの上部に9行のコメント行があることを確認したので「skip = 9」と指定することで、先頭9行を読み込まないように指定しています。

また、9行をスキップして、次の行は、表の列の名前を示しているので、その行がヘッダー行になるように「header = T」と指定しています。


以上の操作により、データを読み込みは完了です(つづきはこちら)。