Apache Beam の ReadFromText において任意の文字コードを指定する方法(Python3.7)
ストレージなどに置かれたテキストファイルを読み込む際によく使用されるReadFromTextモジュールですが、defaultの文字コードはutf-8となっており調べてみてもbyte型やint型に対応するものはあれど、他の文字コードに対応するモジュールは用意されていないようでした。そこで今回はドキュメントを参考に他の文字コードを指定するクラスを作成します。
# default| "ReadFromText" >> beam.io.ReadFromText([INPUT])