ナウキャストの Data Platform Engineering チームの紹介

2024年8月30日 17:16

こんにちは、ナウキャストでデータエンジニア・データプラットフォームエンジニアをしているけびん（@Kevinrobot34）です。

僕は Data Service Platform Unit （以下 DSPU ）というチームのリーダーとして様々な開発をしています。このチームではいわゆる Platform Engineering をデータにフォーカスして推進しています。本記事はこの DSPU がどのようなチームなのか、何をしているのかを様々な角度から紹介します。

ナウキャストについて

ナウキャストはデータの商社のような会社です。パートナーのデータホルダーからPOSデータやクレジットカードデータ、求人情報データといったオルタナティブデータを提供いただいております。それらをナウキャスト内のデータ基盤で適切に加工し、データ利用者の顧客のニーズに合わせ様々なデータプロダクトとして販売しています。
また近年では、このようなデータエンジニアリング、データ基盤構築・運用の経験を踏まえ、様々なお客様のデータ基盤構築や生成AI活用支援も行っています。

詳細は以下の資料をご覧ください。

DSPU とは

僕の所属する Data Service Platform Unit (以下DSPU) は自社データプロダクトのデータ基盤の設計・構築・運用を行いつつ、新しい技術のR&Dなどを推進するチームです。これらの知見を踏まえ Data & AI Solution Business のお客様の課題解決の手伝いもしております。データに関する Platform Engineering をリードし、ナウキャストを技術の力で支えているのが DSPU です。

DSPUは現在僕を含めて４人のチームです。親会社のFinatext HoldingsのCTOである田島はグループ会社全体の開発を支えるプラットフォームチームをリードしておりますが、CTOから定期的にアドバイスを受けつつナウキャストのプラットフォームチームとしてナウキャストの開発環境を良くし生産性を高めるべく、日々開発をしています。

なぜ DSPU ができたのか

DSPUというチームは2022年夏に発足しましたが、その以前ナウキャストにはプラットフォームチームはなく、データソース・プロダクトに応じたストリームアラインドチームが複数存在するような組織体制でした。

各システム・プロダクトに対するオーナーシップが向上しスピード感を持って開発を進めやすい体制になっていたと思います。しかしシステムを長く運用し、組織が大きくなっていくにつれ様々な問題が発生しました。

チームごとに似たようなエンジニアリングの課題があったが、それぞれが独自に対応しており知見の共有がしにくかった
データの種類が増えるにつれ複数のデータを組み合わせた高度な分析をしたいという要望が増えたが、そういった分析がしにくいシステムになっていた（データがサイロ化されていた）
マスターデータや公的統計のデータなどどのチームでも利用したいようなデータも各チームでそれぞれ整備していた
データエンジニアは約30人まで増え、それぞれが0からパイプラインのインフラを構築する工数が勿体無い
…

つまり、各エンジニアがデータパイプラインを立ち上げ・開発・運用するコストを下げ、データのサイロ化を解消し、複数のデータを組み合わせるなど高度な分析をしやすい環境づくりが必要になっていたわけです。これをリードするために発足したのがDSPUです。

DSPUがやってきたこと

上記の課題を解決するため、DSPUでは発足以来新しいデータ基盤の設計・構築・運用・改善を推進してきました。データウェアハウスとして Snowflake を導入し dbt を利用したパイプラインを簡単に立ち上げることができる仕組みを構築しました。技術的な詳細はこちらをご覧ください。

DataOps Night #4「Snowflake x dbt x Terraform マルチデータプロダクト基盤」より

この基盤によりパイプライン開発・データ分析の生産性を高めることができました。2024年に新しくリリースした「HRog賃金Now」というプロダクトはこの基盤上で作成されていますが、以前のシステムで開発すればおそらく半年はかかっていたであろう開発を、２ヶ月ほどで完了できたと担当エンジニアはコメントしています。テックブログにその開発に関する詳細がまとめられていますので、ぜひご覧ください。

社内のデータ基盤に関すること以外にもDSPUでは様々なタスクに取り組んでいます。

データエンジニアリングの新しいツールの検証や各種クラウドの新機能の検証といったR&D
セキュリティ対応や各種クラウドのコスト最適化など CCoE (Cloud Center of Excellence) 的な役割
テックブログ執筆やイベント登壇などの技術広報
他のチームの開発のサポートや壁打ち

具体例としては、Snowflake の Data Cloud Summit に参加して最新の情報を収集したり、 Snowflake のプレビュー中の機能を積極的に検証したりしています。参加したレポートも公開しておりますので、ぜひご覧ください。

DSPUが今後やりたいこと

ここまでDSPU自体の紹介やこれまでにやってきたことを紹介しましたが、まだまだこれからやっていきたいことがたくさんあります。

データ基盤の新機能開発

すでに20種類近くのデータをナウキャストでは取り扱っており、そのうちの多くがDSPUの作成したデータ基盤でパイプライン開発が行われています。しかしこの基盤にはまだまだ追加機能開発をしたいと考えています。

例えば、データカタログツールの構築・運用はその一つです。Snowflake上で開発している弊社のデータ基盤には現在1000以上ものテーブルが存在し、開発・運用されています。複数のデータを組み合わせた高度な分析をやりやすくするためには、データを簡単に見つけたりその詳細を確認したりしやすい環境が必要不可欠です。OpenMetadata といったデータカタログツールを運用しはじめておりますが、まだまだ課題は多くここは今後推進していきたいと考えています。

パイプラインの移行

新規に開発が始まっているデータパイプラインについては新しいデータ基盤上で開発が進んでいますが、元々 AWS 上で動いていたパイプラインを移行する作業は途中のものもあります。このようなパイプラインはAWSとSnowflakeの両方でコストがかかってしまっているため、移行を完了させるべく作業を引き続き進め、コストの最適化についても進めようと考えています。

生成AIに関する技術検証

生成AIに関する新しいツールや機能は日々進化しています。Data & AI Solution Business を中心に生成AIの活用は進んでいるのですが、DSPUとしてもガバナンスを効かせつつコストも管理しやすいような生成AI活用方法を模索したりしていきたいと考えています。

Finatext Holdings のデータ基盤関係の案件の支援

Finatext Holdings では様々な金融系のプロダクトを開発・運用しており、それに伴い様々なデータが溜まってきています。ナウキャストで培ったデータに関する知見をホールディングス内で共有し、社内のデータ活用を推進できるように他の子会社のチームとも連携していければと考えています。

仲間を募集中！

このように現在のナウキャストはただの受託開発の会社ではなく自社データプロダクトを持っているためプラットフォームに投資をしつつ、スタートアップのように技術選定や検証などの裁量がある環境です。ざっくり比較してみると、以下のように大手企業とスタートアップ企業の良いとこどりをしたような環境だと自負しています。

また自社のデータプロダクトもソリューション事業も成長しており、それをプラットフォームチームとして支え、さらに効率化していくという非常に面白いフェーズだと自負しています。

これらを共にリードする仲間として DSPU ではデータプラットフォームエンジニアという職種を募集しております。ぜひご覧ください。

また DSPU 以外でもデータエンジニアやアナリティクスエンジニアなど様々な職種を募集しております。ナウキャストでデータを取り扱うことに興味を持っていただけた方は、ぜひ気軽にどんな職種があるのか見ていただければと思います。

カジュアル面談などでお話しすることも可能なので、XやLinkedInなどで気軽にお声がけください！

X: https://x.com/Kevinrobot34
LinkedIn: https://www.linkedin.com/in/kevinrobot34/

最後まで読んでいただきありがとうございました！