最近の記事

Apache Beam の ReadFromText において任意の文字コードを指定する方法(Python3.7)

ストレージなどに置かれたテキストファイルを読み込む際によく使用されるReadFromTextモジュールですが、defaultの文字コードはutf-8となっており調べてみてもbyte型やint型に対応するものはあれど、他の文字コードに対応するモジュールは用意されていないようでした。そこで今回はドキュメントを参考に他の文字コードを指定するクラスを作成します。 # default| "ReadFromText" >> beam.io.ReadFromText([INPUT])

    • Google Colaboratory と BigQuery の接続

      BigQueryのデータをPythonで扱いたい場面は多くあるかと思います。今回はGoogle Colaboratoryで触りたい場合にBigQueryのデータを直接参照する手順を示します。 前提条件Google Colaboratoryでノートブックが新規作成されている BigQueryにデータが存在する 手順pandas-gbqパッケージを使用します。Google Colaboratoryには予め用意されていますが、ローカル環境で使用する場合にはpandasとは別に