
primeNumberさんの Zero ONE に行きました
イベント概要
primeNumberさんのカンファレンスです。会社のデータエンジニアチームで参加してきました。
東京ミッドタウンでの開催でした。僕は、「東京ミッドタウン」と「ミッドタウン東京 日比谷」を混同しており、降車駅を間違えました 😇
スポンサーブース
各所でSQLをLLMで生成するタスクの話がありました。Gemini in BigQueryが出た当初は使えないなという感想でしたが、認識変えたほうがよさそうだと肌で感じました。
各社次のように課題を解いているようでした。
- 明示的にテーブルを選択
- 対象をSemantic Layerに変更
セッション
一人データエンジニアの過去・現在・未来
データ取り出すのに時間かかっていて辛かったという話がありました。csvはでかいと開くのに時間かかるんですよねw
僕のデータ取り出すのに時間がかかった記録は、出てないログが欲しくてstgでテストできないバッチを組んだ時です。めっちゃかかった。
Q&Aが面白かった。
Q: データ基盤の利用者と距離ができてつかめていたニーズが把握できない
A: 地道な基盤勉強会を開催し広げていく。部署間でダッシュボードを見せ合う会をするなど。共同作業をする(業務をペアで行う)。
Q: (メタデータ)入力者にメリットを感じさせるのは困難だと思う。。てか、無理??
A1: 実現した世界を見せてあげるといいんじゃないかな。
A2: その通りだと思う。必要なのでやる。勤怠と一緒。
聴取者データ分析が変えるコンテンツ戦略の未来
自社が参考にしている指標とKPIの相関を測ったら、無かった。あるあるすぎる。
ラジオ放送局のデータは、プラットフォーマーから生データをもらっているらしい。radikoというラジオのプラットフォームがあるとのこと。どれぐらいで買い取っているのか気になる。(´・ω・`)
データをゲッツしたら、探索的データ分析をして、コンテンツ戦略を学習。知見をためて、成功事例を出す。これをひたすら繰り返していくとお話がありました。
分析環境で面白かったのは、気象庁のデータをTROCCOで持ってくること。CSVを返すAPIが生えているから、自作クローラーとかで取るより楽そうだなーと思いました。
知見:
- radio => 聴取者データが活きやすい、セグメント切れれば上手く使える
- Podcast => 中間
- Youtube => アルゴリズムの理解
データオーケストレーションクラウド構想 〜あらゆるお客様のデータ活用を支えるプロダクト戦略とエンジニアの挑戦〜
Troccoは10万ジョブを安定的に捌くため、Kubernatesを採用しているとのこと。開発初期にKubernatesのジョブをNodeの中で実行しているが、未起動のNodeを立ち上げるときに時間がかかる課題があったようです。(高需要の時にジョブの遅延が起こる)
Troccoの中身であるEmbulkの起動がそもそも時間かかったりするのでNodeの立ち上げまでするとかなり時間かかりそうですよね。
対策として、ジョブの需要予測に基づいたNodeを立ち上げを行っているとのことでした。
最後の方に良さそうなのが出てきた。Change Data Captureが良さそうです。さらにTerraformのProviderが提供される予定とのこと。TerraformにEmbulkの設定を書く世界も近いのかも。
感想など
今回が初めての01参加でしたが、非常に興味深い内容でした。CDC, Self Hosted Runnerのリリースが楽しみです!