見出し画像

【動画de勉強】AWS Lake Formation - 安全なデータレイクの構築 〜JAWS PANKRATION 2021 ~Up till Down~ より #jawspankration

今日はひさびさに2021年の11月20日から21日にかけて行われた「JAWS PANKRATION 2021 ~Up till Down~」の動画を見返してみたいと思います。
今回のテーマはデーターレイク。インドのSanchit Dilip Jainさんのセッションです。


JAWS PANKRATION 2021とは?

JAWS PANKRATION 2021はAWS(Amazon Web Service)のユーザーコミュニ的であるJAWS-UG(Japan AWS User Group)の大規模イベントです。JAWS-UGには「JAWS DAYS」という年次のビッグイベントがありますが、それとは別のイベントで前身は昨年オンラインで24時間連続で開催された「JAWS SONIC & Midnight JAWS 2020」です。今年は全世界とのコミュニティイベント「JAWS PANKRATION 2021」とリニューアルし、全世界のスピーカーも参加しての開催となりました。
そうなると問題が「言語の壁」。
それを克服するためにこの「JAWS PANKRATION 2021」では自動翻訳機「ポケトーク」をクラウドの配信システムと連携させています。日本のスピーカーもポケトークにより正しく翻訳してもらうためにゆっくりと正しい日本語で話しをしています。

その様子を見るだけでも価値がありますので、ぜひyoutubeチャンネルに登録して動画を御覧ください。


データレイクって何?


What is data lake?

すべての構造化データと非構造化データを任意の規模で保存できる一元化されたリポジトリ

・図の下の階層のデータソース
 (レガシーデータ、RDB、クリックストリーム・・・)
・上位にメタデータとして役立つデータカタログ
・最上位には消費レイヤー

データレイクが必要な理由
・構造化データと非構造化データの中心的な場所として機能
・テラバイトまでスケールアップ
・分析および機械学習学習ツールのセットをサポート
・データを移動せずにデータを処理
・低コストで構築でき、高い分析機能を得られる

データレイクの課題

・セルフサービスを実現するデータカタログの維持
・データガバナンス(アクセス制御の構成と管理)
・監査ロギング

データレイクの構築にはまだ数か月かかる場合があります

Lake Formationの紹介

・データレイク内のデータを簡単に構築して保護
・AWS Glueとの統合
   データカタログの設定を容易にする
 S3にデータをロードするためのワークフローを構築
・データレイク内のデータに対するゲートキーパーのように機能
・Athena、Quicksight、Redshift Spectrunと統合

どのように機能するか

1.取り込みと整理
 既存のS3バケットの取り込み、新しいS3バケットの作成
2.安全と管理
 データチェックのすべてのルール、特権を定義
3.コラボレーションと使用
 ユーザーがデータレイクに保存されているデータにアクセスする
4.監視と監査
 履歴の取得と継続的な監視

データレイク構築に関する重要な要素

・設計図/データインポーター
ETL、matadata、およびパーティション管理用のテンプレート
強化されたデータカタログ
ユーザーがより多くのメタデータを記録し、データカタログオブジェクトにタグを付けることができるようにします
機械学習変換
ユーザーが独自の機械学習モデルを導入してレコードの重複廃書などの問題を解決
強化されたセキュリティとガバナンス
データカタログレベルのセキュリティおよびガバナンスを提供


データの登録

・Amazon S3はLake Formationのストレージレイヤーを形成
・データを含む既存のS3バケットを登録
・データレイクの構築に必要なS3バケットを作成し、それらにデータをインポート
・データは、直接アクセスできるアカウントに保存されます。ロックインはありません

簡単なデータ取り込み

・取り込みは2種類
・Lake Formationにセキュリティなど様々なソースが用意

セキュリティの保護
・複数のアクセスをセキュリティで保護
・特定のフローがリアルタイムに正確性を判断

・データレイクストアでアクセス制御とデータカタログを定義するデータレイクを準備する
・各データソースにアクセスする要求に対して資格をチェック
・Lake Formation の応答が正の場合、一時的な権限が付与される
・権限がない場合はアクセスが拒否される
・非常に柔軟性があり簡単に操作ができる

さいごに

データレイクの構築にはコストが重要



感想

後半はなかなか英語を聞き取れませんでしたが、データレイク構築で重要なこと、AWS Lake Formationの概要が理解できました。最近仕事でも使いそうなので、ちょうどよい勉強になりました。ありがとうございます。



いいなと思ったら応援しよう!

keita
チップもらったらきっとMidjourneyに課金すると思います