【GAWK】でGROUP BY、カウント/合計、PIVOT【CSV】

GAWKで PIVOT

グーグルスプレッドシートの SQLライクな QUERY関数をいじくり回していたらなんとな~く GROUP BYとか PIVOTとかがイメージできてきた。
GROUP BYは uniqなのね。
PIVOT部はそこに辞書(JSONで言うオブジェクト)が入ってるようなものなのね。
{PIVOT1:集計値1, PIVOT2:集計値2, ...}
なら GAWKの連想配列でできそうな気がしてきた。

サンプルデータとして
東京都 新型コロナウイルス陽性患者発表詳細 - データセット - 東京都オープンデータカタログサイト

↑から
東京都_新型コロナウイルス陽性患者発表詳細(全期間一括版)
130001_tokyo_covid19_patients.csv
の先頭23行を抜き出したものを用意する。

sample.csv↓

No,全国地方公共団体コード,都道府県名,市区町村名,公表_年月日,発症_年月日,確定_年月日,患者_居住地,患者_年代,患者_性別,患者_職業,患者_状態,患者_症状,患者_渡航歴の有無フラグ,患者_接触歴の有無フラグ,備考,退院済フラグ
1,130001,東京都,,2020-01-24,,,湖北省武漢市,40代,男性,,,,,,,1
2,130001,東京都,,2020-01-25,,,湖北省武漢市,30代,女性,,,,,,,1
3,130001,東京都,,2020-01-30,,,湖南省長沙市,30代,女性,,,,,,,1
4,130001,東京都,,2020-02-13,,,都内,70代,男性,,,,,,,1
5,130001,東京都,,2020-02-14,,,都内,50代,女性,,,,,,,1
6,130001,東京都,,2020-02-14,,,都内,70代,男性,,,,,,,1
7,130001,東京都,,2020-02-15,,,都内,80代,男性,,,,,,,1
8,130001,東京都,,2020-02-15,,,都内,50代,女性,,,,,,,1
9,130001,東京都,,2020-02-15,,,都内,50代,男性,,,,,,,1
10,130001,東京都,,2020-02-15,,,都内,70代,男性,,,,,,,1
11,130001,東京都,,2020-02-15,,,都内,70代,男性,,,,,,,1
12,130001,東京都,,2020-02-15,,,都内,40代,男性,,,,,,,1
13,130001,東京都,,2020-02-15,,,都内,60代,女性,,,,,,,1
14,130001,東京都,,2020-02-15,,,都内,40代,男性,,,,,,,1
15,130001,東京都,,2020-02-16,,,都内,60代,男性,,,,,,,1
16,130001,東京都,,2020-02-16,,,都内,30代,男性,,,,,,,1
17,130001,東京都,,2020-02-16,,,都内,60代,男性,,,,,,,1
18,130001,東京都,,2020-02-16,,,都外,60代,男性,,,,,,,1
19,130001,東京都,,2020-02-16,,,都内,30代,男性,,,,,,,1
20,130001,東京都,,2020-02-18,,,都内,80代,男性,,,,,,,1
21,130001,東京都,,2020-02-18,,,都内,20代,男性,,,,,,,1
22,130001,東京都,,2020-02-18,,,都内,50代,男性,,,,,,,1

この CSVに
=QUERY(A1:Q23, "SELECT C, E, COUNT(A) GROUP BY C, E PIVOT J, I", 1)
相当の操作をする GAWKスクリプトを考える。
まず $3 $5 $10 $9 の組み合わせを数えるために group_by[$3, $5][$10 "_" $9]++ していき、
最後に一行毎、group_by[$3, $5]毎に group_by[$3, $5][$10 "_" $9]の値を並べていく。

cat sample.csv | gawk -e '
BEGIN {
  FS = ","
  OFS = ","
  SUBSEP = OFS
  ORS = ""
  #PROCINFO["sorted_in"] = "@ind_num_asc"
}
        #MAIN.
NR==1{print $3, $5}  #ヘッダ前半
NR>1{group_by[$3, $5][$10 "_" $9]++}
NR>1{pivot_headers_dic[$10 "_" $9] = 1}

END{
          #ピボット列名を「配列」に.
  asorti(pivot_headers_dic, pivot_headers, "@ind_str_asc")

          #ヘッダ後半.
  for (idx in pivot_headers){
    pivot = pivot_headers[idx]
    print OFS pivot
  }
  print "\n"

          #グループ部を一行ずつ.
  for (group in group_by){
    line = group
            #その一行にピボット列の値を追加していく.
    for (idx in pivot_headers){
      pivot = pivot_headers[idx]
      line = line OFS sprintf("%3s", group_by[group][pivot])
    }       #→一行完成
    print line "\n" | "sort"
  }
}
' #>outfile.csv

出力は以下のとおり↓

都道府県名,公表_年月日,女性_30代,女性_50代,女性_60代,男性_20代,男性_30代, 男性_40代,男性_50代,男性_60代,男性_70代,男性_80代
東京都,2020-01-24,   ,   ,   ,   ,   ,  1,   ,   ,   ,
東京都,2020-01-25,  1,   ,   ,   ,   ,   ,   ,   ,   ,
東京都,2020-01-30,  1,   ,   ,   ,   ,   ,   ,   ,   ,
東京都,2020-02-13,   ,   ,   ,   ,   ,   ,   ,   ,  1,
東京都,2020-02-14,   ,  1,   ,   ,   ,   ,   ,   ,  1,
東京都,2020-02-15,   ,  1,  1,   ,   ,  2,  1,   ,  2,  1
東京都,2020-02-16,   ,   ,   ,   ,  2,   ,   ,  3,   ,
東京都,2020-02-18,   ,   ,   ,  1,   ,   ,  1,   ,   ,  1

うまくいった(もちろんここまで大変だった^^)のでもう少し汎用性を高めてテンプレートにして作り置き。

CSVデータを GROUP BYしてカウントか合計を PIVOTするテンプレート

        #csv, group and pivot by gawk.

        #パラメタ設定始め.
CSVFILE='sample.csv'
GROUP='$3, $5'  #グループ化するフィールドをカンマ区切りで
#GROUP='""'  #1行になる
PIVOT='$10 "_" $9'  #ピボットしてヘッダになるフィールド(を文字列結合する式)
#PIVOT='""'  #グループ化のみ
CALCULATOR='++'  #カウント
#CALCULATOR='+=$1'  #$1の合計
FORMAT='%3s'  #値の書式
ROWSORT=''    #行ソート、文字順
#ROWSORT='-n'  #行ソート、数字順
#ROWSORT='-nr'  #行ソート、数字逆順
COLSORT='@ind_str_asc'    #ピボット列ソート、文字順
#COLSORT='@ind_str_desc'  #ピボット列ソート、文字逆順
#COLSORT='@ind_num_asc'  #ピボット列ソート、数字順
OUTFILE='/dev/stdout'
#OUTFILE='outfile.csv'
        #パラメタ設定終わり.

cat $CSVFILE | gawk -f <(cat <<__HERE__
BEGIN {
  FS = ","
  OFS = ","
  SUBSEP = OFS
  ORS = ""
  #PROCINFO["sorted_in"] = "@ind_num_asc"
}
        #MAIN.
NR==1{print $GROUP}  #ヘッダ前半
NR>1{group_by[$GROUP][$PIVOT]$CALCULATOR}
NR>1{pivot_headers_dic[$PIVOT] = 1}

END{
          #ピボット列名を「配列」に.
  asorti(pivot_headers_dic, pivot_headers, "$COLSORT")

          #ヘッダ後半.
  for (idx in pivot_headers){
    pivot = pivot_headers[idx]
    print OFS pivot
  }
  print "\n"

          #グループ部を一行ずつ.
  for (group in group_by){
    line = group
            #その一行にピボット列の値を追加していく.
    for (idx in pivot_headers){
      pivot = pivot_headers[idx]
      line = line OFS sprintf("$FORMAT", group_by[group][pivot])
    }       #→一行完成
    print line "\n" | "sort $ROWSORT"
  }
}
__HERE__
) >$OUTFILE

上記のパラメタで実行すると出力はもちろん上と同じになる。
では元サンプルからグループ化列は同じでピボット列を患者_年代=第9列にして
PIVOT = '$9'
として実行すると出力は以下のようになる。
=QUERY(A1:Q23, "SELECT C, E, COUNT(A) GROUP BY C, E PIVOT I", 1) に相当↓

都道府県名,公表_年月日,20代,30代,40代,50代,60代,70代,80代
東京都,2020-01-24,   ,   ,  1,   ,   ,   ,
東京都,2020-01-25,   ,  1,   ,   ,   ,   ,
東京都,2020-01-30,   ,  1,   ,   ,   ,   ,
東京都,2020-02-13,   ,   ,   ,   ,   ,  1,
東京都,2020-02-14,   ,   ,   ,  1,   ,  1,
東京都,2020-02-15,   ,   ,  2,  2,  1,  2,  1
東京都,2020-02-16,   ,  2,   ,   ,  3,   ,
東京都,2020-02-18,  1,   ,   ,  1,   ,   ,  1

ではグループ化列を都道府県名、公表_年月日、患者_性別=第3, 5, 10列にして、ピボット列を患者_年代=第9列にして
GROUP = '$3, $5, $10'
PIVOT = '$9'
として実行すると出力は以下のようになる。
=QUERY(A1:Q23, "SELECT C, E, J, COUNT(A) GROUP BY C, E, J PIVOT I", 1) に相当↓

都道府県名,公表_年月日,患者_性別,20代,30代,40代,50代,60代,70代,80代
東京都,2020-01-24,男性,   ,   ,  1,   ,   ,   ,
東京都,2020-01-25,女性,   ,  1,   ,   ,   ,   ,
東京都,2020-01-30,女性,   ,  1,   ,   ,   ,   ,
東京都,2020-02-13,男性,   ,   ,   ,   ,   ,  1,
東京都,2020-02-14,女性,   ,   ,   ,  1,   ,   ,
東京都,2020-02-14,男性,   ,   ,   ,   ,   ,  1,
東京都,2020-02-15,女性,   ,   ,   ,  1,  1,   ,
東京都,2020-02-15,男性,   ,   ,  2,  1,   ,  2,  1
東京都,2020-02-16,男性,   ,  2,   ,   ,  3,   ,
東京都,2020-02-18,男性,  1,   ,   ,  1,   ,   ,  1

では全く無意味だが No=第1列を加算してみよう。
GROUP = '$5'
PIVOT = '$10'
CALCULATOR = '+=$1'
として実行すると出力は以下のようになる。
=QUERY(A1:Q23, "SELECT E, SUM(A) GROUP BY E PIVOT J", 1) に相当↓

公表_年月日,女性,男性
2020-01-24,   ,  1
2020-01-25,  2,
2020-01-30,  3,
2020-02-13,   ,  4
2020-02-14,  5,  6
2020-02-15, 21, 63
2020-02-16,   , 85
2020-02-18,   , 63

う~ん、無意味だ(笑
では
PIVOT = '""'
CALCULATOR='++'
だと単純に毎日の人数が分かる。
=QUERY(A1:Q23, "SELECT E, COUNT(A) GROUP BY E", 1) に相当↓

公表_年月日,
2020-01-24,  1
2020-01-25,  1
2020-01-30,  1
2020-02-13,  1
2020-02-14,  2
2020-02-15,  8
2020-02-16,  5
2020-02-18,  3

そして
GROUP='$3'
PIVOT='$10 "_" $9'
だと都道府県別小計になる…ってそもそも東京都しかないけど^^
=QUERY(A1:Q23, "SELECT C, COUNT(A) GROUP BY C PIVOT J, I", 1) に相当↓

都道府県名,女性_30代,女性_50代,女性_60代,男性_20代,男性_30代,男性_40代,男 性_50代,男性_60代,男性_70代,男性_80代
東京都,  2,  2,  1,  1,  2,  3,  2,  3,  4,  2

ならば年別月別小計ができそうなものだが惜しいかな、年や月が単独のフィールドになっていない。
もちろん事前に AWKで、

awk '
BEGIN{FS=",";OFS=","}
NR==1{sub("年月日", "年,月,日", $5);print}
NR>1{gsub("-", ",", $5);print}
' sample.csv

ハイフンをカンマにしておけば GROUP='$5' で年別、GROUP='$5, $6' で月別小計が出せるのだが
(後ろのフィールド番号がずれるので注意)。

おわりに

「QUERY関数でできるならスプレッドシートでいいのでは?」

いやあ、17列×100万レコード超え(千万セル超え)で元の東京都の CSVは開けないんですよね。
GAWKなら一瞬…いや、3拍くらいかな^^
まあ、何でも入力が一番たいへんなんですが。
コロナ対応のみな様ご苦労様です。

(おしまい)


主な修正履歴。
2022-04-26: 最後のコードブロックを修正。

いいなと思ったら応援しよう!