Azure Purviewを使ってみる
Azureで2021年4月現在Preview(プレビュー)段階であるAzure Purview(パービュー)を軽く使ってみました。
Azure Purviewとは
Azure Data Lake StorageやAmazon S3などのデータソースから自動的にデータを検出し、データカタログを簡単に作成できるサービスです。
データカタログを作成することでデータ項目の管理と検索性が向上します。
また、データに対して様々なタグ付けを行うことが可能で、データによっては自動タグ付けも可能です。
アカウント作成
以下のドキュメントを参考にAzure Purviewのアカウントを作成します。
https://docs.microsoft.com/ja-jp/azure/purview/create-catalog-portal
必要な情報を入力してアカウントを作成します。
こんなエラーが出た場合はサブスクリプションの変更が必要です。
「サブスクリプション」→「リソースプロバイダー」からエラーメッセージに表示されてるリソースプロバイダーを登録します。
(↑の画像の場合、StorageとEventHub)
アカウントを作成したらPurview Studioを開きます。
Purview Studioはこんな感じ
これでアカウント作成は完了です。
データソースを登録する
Purviewに登録するデータとしてMicrosoftがスターターキットを用意してくれているのでそれを利用します。
https://docs.microsoft.com/ja-jp/azure/purview/tutorial-scan-data
スクリプトを使ってデータを用意し、必要なリソースを作成します。(手順は割愛)
作成されるリソースはBlob StorageとAzure Data Lake Storage Gen2で、それをPurviewのデータソースとして登録します。
スターターキットのデータは以下のような感じでクレジットカード番号やメールアドレスが入っているTSVファイルです。(値はもちろんダミー)
データソースをスキャンする
データソース内のファイルをデータ資産としてPurviewに登録するため、データソースのスキャンを実施します。
登録したデータソースを選択して「New scan」を選択。
デフォルトのまま「continue」
データソースの中でスキャン対象とする資産を選択します。
今回はすべてを対象としてスキャンを実施
スキャンルールを選択します。
システムデフォルトのスキャンルールに加えて、カスタムでスキャンルールを作成することが可能です。
スキャンルールについては後述
スキャントリガーを設定します。
スケジューリングして定期的にスキャンを実行することも可能ですが、今回は「Once」を選択。
トリガー設定後スキャンが実行されます。
データ資産を閲覧する
スキャンが完了するとデータソース内のファイルがPurviewにデータ資産として登録されるので見ていきます。
トップページから「Browse assets」を選択し、先ほどスキャンしたデータソースを選択します。
Azure Data Lake Storage Gen2内のファイルが登録されていることが確認できました。
ファイルを選択するとファイルの詳細を見ることができます。
「Schema classifications」に「Credit Card Number」というタグが自動でついているのが分かります。このタグを見ることでこのファイルにはクレジットカード番号が含まれているというのが一目でわかります
また、タグで検索をすることも可能なので、データの検索が楽になります。
このタグ付け機能は実施したスキャンルールによってどのタグが付与されるかが決まります。
スキャンルール
システムデフォルトで用意されているスキャンルールは以下の通り。
「Management center」→「Scan rule sets」→「system」タブから確認できます。画像を見てわかる通り「Custom」タブも用意されています。
カスタムのスキャンルールではスキャン対象とするファイルタイプやタグ付けの分類ルールの指定が可能です。
実際に作ってみます。
Customタブから「New」を選択し、名前や説明を入力
スキャン対象とするファイルタイプを選択
対象外にしたいファイルがあればチェックを外す、リストにない場合は「New file type」から新しいファイルタイプを入力します。
次は分類ルールの選択です。
上半分はシステムデフォルトの分類ルールです。これを外すこともできます。
下半分は自由に作成できるカスタム分類ルールです。カスタム分類ルールの作成は後述しますが、自由に分類ができるため、企業内の用語などで分類することも可能です。
スキャンルールの作成は以上です。
作成したスキャンルールは実際にスキャンするときに選択することができます。
分類ルール
まずは「Classifications(分類)」を作成します。
「Management center」→「Classifications」→「New」から作成できます。
入力項目は名前と説明だけです。作成した分類名がデータ資産にタグとして登録されます。
次に「Classifications rules(分類ルール)」分類ルールを作成します。
「Management center」→「Classifications rules」→「New」から作成できます。
入力項目は以下の通りです。
スキャンルールは「Regular Expression(正規表現)」と「Dictionary(辞書)」の2種類から選択することができます。
正規表現の場合は手動でデータパターンを入力するか、分類したいデータファイルをアップロードすると推奨パターンが表示されるため、それを選択することもできます。
複数カラムがあるファイルでもそれぞれのカラムで推奨パターンが表示されます。
辞書タイプでは1カラムのファイルをアップロードすることで、そのカラムに合う正規表現を自動で設定してくれます。
こうして作成した分類ルールをスキャンルールに設定することで、タグ付けをカスタマイズすることができます。
最後に
Purviewにデータを登録すると自動でタグ付けがされ、データサービス関係なく一律で検索をすることができるため、検索性が大幅に向上すると感じました。
ただ、カスタムのタグ付けは数値データのみ対応しているため、画像や音声データをタグ付けはできません。
プレビュー段階ということなので、今後画像や音声データにも自由にタグ付けができるようになる可能性に期待です。
以上、Azure Purviewの紹介でした。
アバナード 清田 涼平
記事内容に関するご指摘や、その他何かございましたら下記に連絡ください
ryohei.kiyota(@)avanade.com