[Exlcel]実際のデータをどう集計するか② 茨城県データの残念なところ
集計サンプルとして取り上げた茨城県のデータですが、集計に入る前に、このデータ自体に問題がないか、見てみます。
サンプルデータは、
茨城県ホームページ 「旅館業」 ページの下の方の「7.旅館業法に基づく許可施設一覧」にある 旅館業法に基づく許可施設 です。
以下のファイルは同じものです。
おそらく、このデータは「旅館業法システム」といったものからダウンロード(エクスポート)されたものが元になっていると思われます。
ダウンロードデータを加工してはいるものの、ちょっと残念なところがあります。
1 表頭(ヘッダー)・表側が固定されていない。
初期状態では、スクロールすると、表頭(ヘッダー)・表側が消えてしまいます。
「表あるある」です。
すぐに直せます(Alt → W → F→ F )。
業務でもよく見かけますが、「センスないな」って思われちゃうので、設定しておきたいものです。
2 法人の表記が統一されていない
これも「あるある」です。
中小企業庁から来るデータでさえ、こんな感じ(これよりもっと、いや、かなりひどい。詳細はいつか。)
具体的には
・「株式会社」と「(株)」と「㈱」など(最後は環境依存文字)
・空欄がある(例:「株式会社あいう」と「株式会社 あいう」)
など。
マエ株とアト株はしょうがないとして、表記のばらつきは誤集計の原因になりえます。
ここら辺は、入力時の問題といえます。
マエ株アト株問題含め、入力時の配慮で対応できる部分があります。
これもいずれ。
総定員数・部屋数・日付が文字列
数値であるべき「総客室数」や「総定員」が文字列になっています。
幸い、頭に「’」(アポストロフィ)はついていません(これがあると、ちょっと面倒)。
なので、修正は簡単です(詳細は後日)。
ちなみに、「申請年月日」「許可年月日」も文字列になっています。
これ、「セルの書式設定」を「日付」にしても直らないんですよね。
ちょっと手間が必要です(詳細は後日)。
これらは、システムからのダウンロード(エクスポート)による問題かもしれません。
住所に「茨城県」があるものとないものがある
これも「あるある」。
入力時のフォーマットで統一すべきところです。
対応は、そんなに面倒ではありません。
県名の有無より問題なのが、次です。
市町村名が括り出されていない
この手のデータの住所(所在地)は、大体、市町村名が括り出されていません(別セルになっていない。)。
市町村名が括り出されていれば、市町村別の集計はチョー簡単です。
逆にいうと、そうでなければ、結構面倒です。
対応策は、いずれお示しします。
他にも・・・
名称等に半角のカタカナがある(全角と半角の混在)。
住所の番地が半角と全角が混在。(コンマ入りもある!)
電話番号が空白のところがある(業務上どうかと…)
など。
細かくいえば色々ありますが、でも、私の感覚からすると、
「悪くはない」。
もっとひどいもの、たくさん見ているますから。
そもそも、こういうデータをきちんとWEBに掲載している、ってところが、まず一番です。
また、データ的には
A列に連番が入っている
セルの結合がない(多分)
游ゴシック(見づらい)を使っていない
など、基本的なところはクリアしています。
ということで、次回から具体的な集計に入りたいと思います。
次の記事はこちらです。
[Excel]データ集計をどう行うか? 実際の自治体データをもとに考える③ 下準備