見出し画像

dbts2023セッションレポート#4 H12「オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -」

こんにちは。株式会社インサイトテクノロジー マーケティング本部です。

インサイトテクノロジー社員がdb tech showcase2023のセッションを受講した感想レポートの第4弾をお届けします。

db tech showcaseについてはこちらの記事をご覧ください。

H12セッション

報告者

株式会社インサイトテクノロジー
コンサルティング本部第2部
森山

セッション情報

  • セッションID:H12

  • タイトル:オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -

  • 登壇者:Amazon Web Services Japan G.K.
    データ事業本部ポートフォリオスペシャリストソリューション部
    シニアアナリティクススペシャリストソリューションアーキテクト
    下佐粉 昭 氏

セッション概要

企業の中にある各種システムからクラウド上の分析基盤(データレイク)にデータを取り込み、クラウドのパフォーマンスを活かして分析する手法は一般的になりつつあります。企業はオンプレミス上でRDBを多数活用しており、そのデータをクラウド上に効率よく取り込み、活用しやすい形で保存することが、データ活用促進の鍵です。本セッションでは、主にRDB上のデータを取得する際の手法と、取得したデータをどのような形にしてデータレイク上に保存するかという「データ取り込み」部分にフォーカスした説明を行います。環境はAWSを前提にしていますが、他クラウドのオブジェクトストレージへのデータ取り込み方法の一般論としても応用可能です。

db tech showcase2023セッションスケジュールより抜粋

はじめに

こちらのセッションでは、データレイクへのデータの取り込みをテーマに、以下の3つをご説明いただきました。

  • なぜデータレイクを作るのか?

  • データが無いと活用が進まないが、どのようにすればデータソース(RDBMS等)からデータを取り出せるか?

  • RDBMSから取り出したデータはデータレイク上でどのように配置、更新するべきか?どのようにして性能を担保するか?

なぜデータレイクを作るのか?

データレイクとは、データをありのままの形で保存しておくリポジトリのことを言い、データの分析といった処理系とは分離しています。

この「分離」がポイントです。

ライフスパンの異なる、データの蓄積と処理系を分離することで、変化に対応しやすいシステムを構築することができるのです。

例えば

  • データレイクが1つあれば、処理系は自由に切り替えることが可能。これにより新技術に将来的なニーズに対応可能となる。

  • データレイク側で要件の変更があった際、処理系の変更も行う必要が無い。

などのメリットがあります。

AWSにおいては、S3がデータレイクに当たり、様々な製品の中心にあります。そのため、極端な話、S3にデータを保存しておけば、基本何でもつながるという話もされていました。

データが無いと活用が進まないが、どのようにすればデータソース(RDBMS等)からデータを取り出せるか?

データの少ないデータレイクは活用されづらいため、データ量・バリエーションを確保する必要があります。

この時意識することは、データの出し手と受け手が存在し、業務側に当たるデータの出し手は、データ量を増やすための新たな業務の追加や、システムに負荷がかかる処理をしたがらないということです(私は業務側の経験はありませんが、想像はできます…)。

そのため、まずはデータの受け手が、技術で対応することが求められます。

主な方針としては以下が挙げられていました(抜粋)。
・データの出し手に、フォーマット変換や整形を要求せず、「あるがままで」データを受け取る
・フォーマット変換や整形は、データレイク側でクラウドを活用して安く・速く
・AWSサービスを活用してデータレイク側の運用・構築負担を減らす

RDBMSから取り出したデータはデータレイク上でどのように配置、更新するべきか?どのようにして性能を担保するか?

データソースの更新をどのようにデータレイクに反映させるかについて、ポイントはいくつかありますが、セッションでは特に「データのサイズ」が強調されていました。

  • データサイズが小さい

    • 手法の選択肢が多い

      • 例:全部コピーする

  • データサイズが大きい

    • 差分の抽出方法の検討が必要

      • 例:CDC(Change Data Capture)

データの反映方法以外に、更新のタイミングについてもポイントがあります。ここでは、更新頻度の観点でのポイントをまとめます。

  • マスタデータ

    • 一般的にデータサイズが小さく、変更頻度が少ない

      • 更新の反映のために必ずしも差分を取る必要はなく、版管理のイメージでデータを保存する手もある

  • トランザクションデータ

    • 一般的にデータサイズが大きく、更新も多い

      • データソース側がInsert (追記)だけか、Update/Deleteもあるかを確認し、それに応じた対応をとる

聴講した感想

セッション名には「手法の整理」とありましたが、実際にはデータレイクがなぜ必要なのかという基本的な事項からご説明いただきました。まだまだ駆け出しで身である私からすると、学びの多いセッションでした。
スピーカーの方が書いている著書を読んで、さらにデータレイクの知見を深めていきたいと思います。

db tech showcaseについて

db tech showcaseは、データに関わるすべての技術者に「学び」「気づき」「変化」を提供する、国内最大規模のデータ技術カンファレンスです。

国内外の有名テック企業が一堂に会し、国内外の革新的な技術や最新の事例などの多数のセッションを提供しています。

12年目となった2023年は12/6~12/8の3日間、ベルサール六本木グランドコンファレンスセンターにて開催され、データに関わるたくさんの方にご来場いただき大盛況のうちに閉幕しました。

2024年は7月に開催予定ですので、ぜひお見逃しなく!
https://www.db-tech-showcase.com/

アーカイブ配信のご案内

db tech showcaseは、期間限定でアーカイブ動画を配信中です。
このレポートでご紹介したH12セッションをはじめとする約100セッションをオンラインでご視聴いただけるほか、講演資料のダウンロードも可能です。
※一部をのぞく

ご視聴には会員登録(無料)が必要となります。
皆さまのご登録・ご視聴をお待ちしております!
https://www.db-tech-showcase.com/2023/

いいなと思ったら応援しよう!