分析に使う SQL を GitHub リポジトリで運用

2022年2月14日 11:06

Zaim の分析チームの濱口です。

分析チームでは各々が書いた SQL をドキュメントにまとめて GitHub リポジトリに貯めて共有しています。この試みを始めてから 1 年ほど経過したので、運用してみて感じたことや気づいたことを紹介しようと思います。

背景

SQL を GitHub リポジトリに貯め始めたのは、以下のような二つの問題意識があったからでした。

SQL を複数人でレビューする確固たる枠組みがなく、タスク管理ツール上で雑にチェックしていたり、そもそもレビューを実施していなかったりしていました。このような状態が続いてしまうと、SQL のミスやデータの誤りにつながってしまい、データの信頼性が損なわれてしまいます。

分析チームのメンバーそれぞれが書いた SQL が、どこにあるのかが分かりづらい状態でした。他の人がやったことがある分析の SQL を参考にしたり再利用したりするのにも一苦労で、とても非効率です。

リポジトリへの蓄積方法は、一般的なコードのレビューと同じく

という手順になります。

マークダウン形式のファイルに作成した SQL の概要、実際に書いた SQL などを記載したプルリクエストを作成します。ディスクリプションには、データ抽出の目的と SQL を実行して抽出したデータを記載し、データの数値についても確認できるようにしています。

チームメンバーからレビューをもらい、SQL やデータに誤りがないかチェックします。

ディスクリプションにレビューのチェック項目を設けており、その項目に沿ってレビューすることで漏れが出ないように対策しています。最低でも一人からは Approve もらい、問題なさそうであればマージします。

といったように、当初、抱えていた問題は解消できました。しかし、運用する上で、また以下のような別の課題が出てきました。

最初のうちは良かったのですが、ファイルがどんどん増えていくうちに参考にしたいファイルを見つけるのが困難になってきました。

解決策として、すべてのファイルを同じ一つのフォルダに貯めていたのを、会社外と会社内の案件別で分割した上で、さらにデータマートごとにクエリを分けるようにしました。

データの抽出内容によってはかなり長い SQL になることもあり、とにかくレビューが大変でした。

レビューが大変だと後回しにされがちで、レビューが滞るという問題が出てきました。この問題に関しては

などを実施しており、現在も改善を続けています。その一部は、別の記事にまとめています。

運用していて出てきた新たな課題についても、さらに改善していきたいと思います。

他のチームと協力しながら働ける Zaim では、一緒に働けるエンジニアを募集しています！

仕事を通じて色々なスキルを得たいという方は、ぜひ一度カジュアルにオンラインでお話しましょう。ご連絡、お待ちしてます。