primeNumberさんの Zero ONE に行きました

2024年12月10日 18:39

イベント概要

primeNumberさんのカンファレンスです。会社のデータエンジニアチームで参加してきました。

東京ミッドタウンでの開催でした。僕は、「東京ミッドタウン」と「ミッドタウン東京日比谷」を混同しており、降車駅を間違えました 😇

各所でSQLをLLMで生成するタスクの話がありました。Gemini in BigQueryが出た当初は使えないなという感想でしたが、認識変えたほうがよさそうだと肌で感じました。

各社次のように課題を解いているようでした。
- 明示的にテーブルを選択
- 対象をSemantic Layerに変更

データ取り出すのに時間かかっていて辛かったという話がありました。csvはでかいと開くのに時間かかるんですよねw

僕のデータ取り出すのに時間がかかった記録は、出てないログが欲しくてstgでテストできないバッチを組んだ時です。めっちゃかかった。

Q&Aが面白かった。

Q: データ基盤の利用者と距離ができてつかめていたニーズが把握できない
A: 地道な基盤勉強会を開催し広げていく。部署間でダッシュボードを見せ合う会をするなど。共同作業をする（業務をペアで行う）。

Q: （メタデータ）入力者にメリットを感じさせるのは困難だと思う。。てか、無理？？
A1: 実現した世界を見せてあげるといいんじゃないかな。
A2: その通りだと思う。必要なのでやる。勤怠と一緒。

自社が参考にしている指標とKPIの相関を測ったら、無かった。あるあるすぎる。

ラジオ放送局のデータは、プラットフォーマーから生データをもらっているらしい。radikoというラジオのプラットフォームがあるとのこと。どれぐらいで買い取っているのか気になる。(´･ω･｀)

データをゲッツしたら、探索的データ分析をして、コンテンツ戦略を学習。知見をためて、成功事例を出す。これをひたすら繰り返していくとお話がありました。

分析環境で面白かったのは、気象庁のデータをTROCCOで持ってくること。CSVを返すAPIが生えているから、自作クローラーとかで取るより楽そうだなーと思いました。

知見:
- radio => 聴取者データが活きやすい、セグメント切れれば上手く使える
- Podcast => 中間
- Youtube => アルゴリズムの理解

Troccoは10万ジョブを安定的に捌くため、Kubernatesを採用しているとのこと。開発初期にKubernatesのジョブをNodeの中で実行しているが、未起動のNodeを立ち上げるときに時間がかかる課題があったようです。（高需要の時にジョブの遅延が起こる）

Troccoの中身であるEmbulkの起動がそもそも時間かかったりするのでNodeの立ち上げまでするとかなり時間かかりそうですよね。

対策として、ジョブの需要予測に基づいたNodeを立ち上げを行っているとのことでした。

最後の方に良さそうなのが出てきた。Change Data Captureが良さそうです。さらにTerraformのProviderが提供される予定とのこと。TerraformにEmbulkの設定を書く世界も近いのかも。

今回が初めての01参加でしたが、非常に興味深い内容でした。CDC, Self Hosted Runnerのリリースが楽しみです！