trocco®開発ログ 2022夏「dbt連携、マネージドデータ転送設定、他」
trocco® はデータエンジニアの方々の様々な手間を削減し、より価値ある業務に集中していただくためのプロダクトです。BigQueryなどを中心にした分析基盤構築をサポートします。
今回は trocco® で2022年の7-9月にリリースした機能をいくつか紹介します。
trocco® とは?
https://trocco.io/lp/index.html
trocco® は、MySQL や S3 などのデータを BigQuery を始めとしたデータウェアハウス(DWH)に統合し、分析基盤を構築するためのデータエンジニアリングサービスです。大企業からスタートアップまで様々な企業にご利用いただいており、お客様からは「trocco® 無しでは分析基盤構築は考えられない」など、嬉しいフィードバックを多々頂いてます。
trocco® が解決する課題
BigQuery などを利用して分析基盤を構築する会社は増えていますが、多くの場合、データ統合(MySQL や S3 のデータを BigQuery に転送する)のパイプラインはデータエンジニアの方が自前で開発しています。安定したパイプラインを構築・運用するのは非常に手間がかかり、データエンジニアがより戦略的な業務に時間を割きにくいという課題がありました。
trocco® を利用することで、データ統合部分をまるっと任せることができます。
現在はデータ統合だけでなく、データエンジニアリング周辺の様々な業務までカバー領域を広げていて、分析基盤構築については総合的に trocco® に任せられる状態を目指しています。
リリース機能 1「dbt連携: dbt連携機能がリリース」
dbt連携機能がリリースされました🎉
現在は、OSS版dbtの実行環境とtrocco®ワークフローとの連携とGitHub連携を提供しています。
dbt実行環境
OSS(オープンソースソフトウェア)版のdbtを使用するために必須の「実行環境」を提供します。
trocco®ワークフローとの連携
trocco®で行うデータ統合やdbtで行うデータモデリングをどのような流れで行うか、ワークフローで設定・管理できるようにします。データモデリングやデータ統合といった処理は、単発で終わらず、一連の流れで行う必要があります。ワークフローを通じてこの流れが自動で行われるようにすることで、より素早く、より正確にデータ統合やデータモデリングを行うことを可能にします。
GitHub連携
dbtユーザーがGitHubに保管しているコードやクエリをtrocco®に連携する機能を提供します。また、今後「dbt開発環境」を追加した際には、trocco®で書いたdbtのコードやクエリをGitHubに連携できるようにします。
今後のリリース予定等、詳しくはプレスリリースを参照ください。
リリース機能 2「マネージドデータ転送: マネージドデータ転送機能がリリース」
マネージドデータ転送機能がリリースされました🎉
マネージドデータ転送は、既存の一括登録機能を発展させた機能です。
データソース側のテーブルを一括インポートすることに加え、テーブルの増減を自動検知してSlackに通知したり、ワークフロー機能上でかんたんに転送ジョブの一括実行が行えるようになりました。
マネージドデータ転送の対応コネクタは現在、転送元MySQL、転送先Google BigQueryのみとなります。
リリース機能 3「転送設定:転送先にGoogle Driveが追加」
最後に、trocco® のメイン機能である、データ転送機能の改修を紹介します。
データ転送機能の「転送先」でGoogle Driveが指定可能になりました。
trocco®のデータ転送の多くにおいて、OSS の Embulk を利用しています。
Embulk はプラグインアーキテクチャ構造になっており、転送元/転送先それぞれ Embulk のインターフェースに従って Java や Ruby でプラグインを開発することで、データ転送を行うことができます。(転送先Google DriveではEmbulkを使用しておりません)
trocco®のアプリケーション開発については、サーバーサイドはRails、フロントエンドはReact(TypeScript)で開発されています。ユーザーが実際に触る画面側や API、Embulk をキックする部分などの改修を行うことで、実際にユーザーに対して機能を提供することが可能です。
Data Engineering Study #16 開催
データ分析基盤について学ぶ Data Engineering Studyの最新回が2022年10月19日に公開されます。今回はデータカタログ入門回となります。
primeNumber からは CPO の小林が登壇します。
# 新入社員インタビュー公開🎉
新しく入社した加藤大輝さんとトレンブリード・ブレットさん、田上智恵さんのインタビュー記事が公開されました。primeNumber への転職を決めた理由や普段の仕事内容についてお話しています。
primeNumber: 会社紹介
現在募集中のエンジニア職種
もちろん、カジュアル面談からでもOKです!