
Snowflakeにおけるオブジェクト(Objects)の種類
1. データベースとスキーマ
データベース(Database)
概要: データベースは、関連するデータをグループ化するためのコンテナです。Snowflake内でデータを整理し、管理する基本単位となります。
用途: 異なるビジネスユニットやプロジェクトごとにデータベースを作成し、データを分離・管理します。
スキーマ(Schema)
概要: スキーマは、データベース内でオブジェクトを整理するための構造です。データベースの中に複数のスキーマを作成できます。
用途: テーブル、ビュー、ストアドプロシージャなどをカテゴリ別に整理します。例えば、「営業」、「人事」、「財務」などのスキーマを設けることで、関連するオブジェクトをまとめることができます。
2. データオブジェクト
テーブル(Table)
概要: データを行と列で構成された形式で保存する基本的なオブジェクトです。
種類:
パーマネントテーブル(Permanent Table): データが永続的に保存されるテーブル。
一時テーブル(Temporary Table): セッションが終了すると自動的に削除されるテーブル。
トランジェントテーブル(Transient Table): 一時テーブルとパーマネントテーブルの中間。データのリテンション期間が短い。
ビュー(View)
概要: 実際のデータを保持せず、クエリ結果を保存する仮想テーブルです。
種類:
スタンダードビュー(Standard View): 基本的なビュー。
セキュアビュー(Secure View): データのセキュリティを強化したビュー。バックグラウンドでのデータ保護が強化されています。
マテリアライズドビュー(Materialized View): クエリ結果を物理的に保存し、パフォーマンスを向上させるビュー。
外部テーブル(External Table)
概要: 外部ストレージ(例:Amazon S3、Azure Blob Storage、Google Cloud Storage)上のデータを参照するテーブル。
用途: 外部データソースからデータを直接クエリする際に使用します。
3. データ操作オブジェクト
ストリーム(Stream)
概要: テーブルの変更データ(挿入、更新、削除)をリアルタイムで追跡するオブジェクト。
種類:
スタンダードストリーム(Standard Stream): すべてのDML操作を追跡。
アペンドオンリーストリーム(Append-only Stream): 挿入操作のみを追跡。
インサートオンリーストリーム(Insert-only Stream): 外部テーブル向けで、挿入操作のみを追跡。
タスク(Task)
概要: スケジュールされたクエリやストアドプロシージャを自動的に実行するオブジェクト。
用途: 定期的なデータ更新、ETLパイプラインの自動化などに利用。
ファイルフォーマット(File Format)
概要: データファイルの形式(例:CSV、JSON、PARQUET)を定義するオブジェクト。
用途: ステージングエリアからデータをロードまたはアンロードする際に使用。
ステージ(Stage)
概要: データの一時保管場所。内部ステージ(Snowflake内)と外部ステージ(クラウドストレージ上)がある。
用途: データのロードやアンロード、コピーコマンドの実行時にデータを一時的に保存。
シーケンス(Sequence)
概要: 自動的に増加する数値を生成するオブジェクト。
用途: 一意なIDの生成や行番号の付与に使用。
4. プログラミングオブジェクト
ユーザー定義関数(UDF: User-Defined Function)
概要: ユーザーが定義する関数で、クエリ内でカスタムロジックを実行できます。
種類:
SQL UDF: SQLで定義する関数。
JavaScript UDF: JavaScriptで定義する関数。
他の言語対応: Snowparkを利用することで、PythonやJavaなど他の言語でもUDFを作成可能。
ストアドプロシージャ(Stored Procedure)
概要: 一連のSQLコマンドやロジックをまとめて実行するためのオブジェクト。
特徴:
実行コンテキスト: 所有者の権限または呼び出し者の権限で実行。
用途: 複雑なデータ操作や自動化されたタスクの実行。
5. セキュリティオブジェクト
ロール(Role)
概要: ユーザーに権限を付与するためのオブジェクト。権限の集合として機能します。
用途: Role-Based Access Control(RBAC)を実現し、ユーザーのアクセス権限を効率的に管理。
ユーザー(User)
概要: Snowflakeにアクセスする個々のユーザーアカウント。
用途: データベースやオブジェクトへのアクセスを制御。
ネットワークポリシー(Network Policy)
概要: IPアドレスやIPレンジに基づいてアクセスを制御するオブジェクト。
用途: 不要なIPからのアクセスをブロックし、セキュリティを強化。
6. その他のオブジェクト
ウェアハウス(Warehouse)
概要: クエリの実行に使用されるコンピューティングリソース。
種類:
バーチャルウェアハウス: 複数のクエリを並行して処理可能。
マテリアライズドウェアハウス: 特定の目的やパフォーマンス要件に応じたカスタマイズが可能。
リソースモニター(Resource Monitor)
概要: ウェアハウスのクレジット使用量を監視・制御するオブジェクト。
用途: クレジットの予算管理や過剰使用の防止。
タグ(Tag)
概要: オブジェクトにメタデータを付与するためのオブジェクト。
用途: データガバナンスやコスト管理、検索性の向上に使用。
まとめ
Snowflakeでは、多種多様なオブジェクトを活用して、データの管理、操作、セキュリティを効率的に行うことができます。以下に主なオブジェクトを整理します:
データベースとスキーマ:データの基本的な整理単位。
データオブジェクト:テーブル、ビュー、外部テーブルなど、データの格納と操作に関するオブジェクト。
データ操作オブジェクト:ストリーム、タスク、ファイルフォーマット、ステージなど、データの変更や自動化に関連するオブジェクト。
プログラミングオブジェクト:UDF、ストアドプロシージャなど、カスタムロジックを実装するオブジェクト。
セキュリティオブジェクト:ロール、ユーザー、ネットワークポリシーなど、アクセス制御とセキュリティ管理に関連するオブジェクト。
その他のオブジェクト:ウェアハウス、リソースモニター、タグなど、システムの運用と管理に必要なオブジェクト。
これらのオブジェクトを適切に活用することで、Snowflakeの強力なデータプラットフォーム機能を最大限に引き出し、効率的で安全なデータ管理が可能となります。