【第13話】Databricks ReposでのCI/CDワークフロー
みなさん、Databricks Certified Data Engineer Associate試験にチャレンジしている方に向けて、架空のキャラクターの会話形式で、試験の対策に役立つポイントをお伝えします。トピックごとに楽しみながら学べることを目指しました。それでは第13回、Databricks ReposでのCI/CDワークフローについての会話をお楽しみください。
のびデータ: 「Databricks Reposってなに? CI/CDワークフローって聞いたことないな。」
ジョブアン: 「おれのデータはおれのもの、お前のデータもおれのもの・・・! Databricks Reposは、ノートブックやジョブといったアーティファクトを管理するためのバージョン管理システムだぜ。CI/CDとは Continous IntegrationとContinous Deliveryの略称で、ソフトウェア開発の自動化プロセスのことだ。」
のびデータ: 「ふむふむ、それってどういうことなんだろう?」
シズクエリ: 「Databricks Reposでノートブックなどを管理し、CI/CDを使えば、開発から運用までの一貫した自動化ワークフローを構築できるのよ。コードの変更を自動的にビルド、テスト、本番リリースすることが可能なの。」
のびデータ: 「自動化できるのか! すごく便利そうだね。じゃあ具体的にどうすればいいんだろう?」
スキーマオ: 「ぼくなんかさ、ハンサムで頭がよくて金持ちで、きみらにくらべればめぐまれてると思うなぁ。Databricks Reposにコードをプッシュすると、CI/CDパイプラインが自動的にビルドとテストを行う。OKなら本番環境にデプロイされる仕組みだぞ。のびデータ、意味わかるか?」
のびデータ:「もうちょっと丁寧に説明してほしいなぁ」
スキーマオ:「しょうがないなあ!Databricks Reposにコードを入れると、自動でいろいろなことができる仕組みがあるんだ。例えばコードを変更したら、それを自動的にビルドしてテストする。間違いがなければ、本番のシステムに反映することもできる。全部自動でやってくれるから、開発が速くなるんだぞ。」
のびデータ: 「なるほど! CI/CDを活用すれば開発の効率が上がりそうだ。Databricks Reposの使い方をマスターしないとね。」
シズクエリ: 「そうね、継続的インテグレーションと継続的デリバリーは、アジャイル開発に欠かせない技法のひとつなの。」
<補足>
Databricks Reposを使うと、ノートブックやジョブなどのコードをGitベースでバージョン管理できます。コードの変更をDatabricks Reposにプッシュすると、事前に定義したCI/CDパイプラインが自動的にビルド、テスト、デプロイを行うので、開発の自動化が実現できます。
注意書き: キャラクターの会話はイメージをつかみやすくすることを優先しているため、一部正確ではない表現があります。ご了承ください。Databricks Certified Data Engineer Associate試験の合格に向けて役立てていただければ幸いです。