【100問(001-100)】Google Cloud認定資格 Professional Data Engineer試験対策問題


【問題001】
航空会社で働いており、気象データを BigQuery テーブルに保存する必要があります。気象データは、機械学習モデルへの入力として使用されます。モデルは、過去 30 日間の気象データのみを使用します。不要なデータの保存を避け、コストを最小限に抑えたいと考えています。どうすればよいでしょうか。
A. 各レコードに取り込みタイムスタンプがある BigQuery テーブルを作成します。スケジュールされたクエリを実行して、取り込みタイムスタンプが 30 日以上前の行をすべて削除します。
B. 気象日付の日時値でパーティション化された BigQuery テーブルを作成します。パーティションの有効期限を 30 日に設定します。
C. 取り込み時間でパーティション化された BigQuery テーブルを作成します。パーティションの有効期限を 30 日に設定します。
D. 気象データが参照する日付の日時列を持つ BigQuery テーブルを作成します。スケジュールされたクエリを実行して、日時値が 30 日以上前の行を削除します。















正解:B
気象日付の日時値でパーティション化されたBigQueryテーブルを作成

パーティション分割により、不要なデータを自動的に削除でき、ストレージコストを削減できます。
気象日付でパーティション化することで、分析に必要なデータに効率的にアクセスできます。

他の選択肢が不適切な理由:

A, C: 取り込み時間でのパーティション化は、データの分析に必ずしも適していません。
D: スケジュールされたクエリは、手動での管理が必要となり、誤動作のリスクがあります。





【問題002】
チームの共有テーブルを 1 つのデータセットに保存して、さまざまなアナリストがデータに簡単にアクセスできるようにします。このデータはアナリストが読み取り可能で、変更できないようにします。同時に、アナリストに同じプロジェクト内の個別のワークスペースを提供し、他のアナリストがアクセスできないようにしながら、アナリストが独自に使用するテーブルを作成して保存できるようにします。どうすればよいでしょうか?
A. アナリストにプロジェクト レベルで BigQuery データ閲覧者ロールを付与します。別のデータセットを 1 つ作成し、そのデータセットに対する BigQuery データ編集者ロールをアナリストに付与します。
B. アナリストにプロジェクト レベルで BigQuery データ閲覧者ロールを付与します。アナリストごとにデータセットを作成し、各アナリストにプロジェクト レベルで BigQuery データ編集者ロールを付与します。
C. アナリストに共有データセットに対する BigQuery データ閲覧者ロールを付与します。アナリストごとにデータセットを作成し、各アナリストに割り当てられたデータセットに対するデータセット レベルで BigQuery データ編集者ロールを付与します。
D. アナリストに共有データセットの BigQuery データ閲覧者ロールを付与します。別のデータセットを 1 つ作成し、そのデータセットの BigQuery データ編集者ロールをアナリストに付与します。














正解:C
アナリストに共有データセットに対するBigQueryデータ閲覧者ロールを付与します。アナリストごとにデータセットを作成し、各アナリストに割り当てられたデータセットに対するデータセットレベルでBigQueryデータ編集者ロールを付与します。

理由:
共有データセットに対しては閲覧権限のみを付与し、各アナリストに個別のデータセットを作成することで、データの分離とアクセス制御を実現できます。

他の選択肢が不適切な理由:

A, B: プロジェクトレベルでロールを付与すると、すべてのデータセットへのアクセス権が与えられてしまい、セキュリティリスクが高まります。
D: 別のデータセットを作成しても、アナリストが自由にデータを作成できないため、目的を達成できません。





【問題003】
特定のテーブルから BigQuery データを 1 日に複数回確認する必要があります。クエリを実行する基になるテーブルのサイズは数ペタバイトですが、データをフィルタリングして、下流のユーザーに単純な集計を提供したいと考えています。クエリをより速く実行し、最新の分析情報をより早く取得したいと考えています。どうすればよいですか?
A. スケジュールされたクエリを実行して、毎日特定の間隔で必要なデータを取得します。
B. キャッシュされたクエリを使用して、結果までの時間を短縮します。
C. 最終結果で取得されるクエリ列を制限します。
D. 実行中のクエリに基づいてマテリアライズド ビューを作成します。















正解:D
実行中のクエリに基づいてマテリアライズドビューを作成

マテリアライズドビューは、事前に計算結果を保存しておくことで、クエリのパフォーマンスを大幅に改善できます。
実行中のクエリに基づいて作成することで、必要なデータのみを保持できます。

他の選択肢が不適切な理由:

A, B: スケジュールされたクエリやキャッシュされたクエリは、データが更新された場合に最新の情報が反映されない可能性があります。
C: クエリ列を制限しても、基になるテーブルが大きい場合は、クエリの実行時間が長くなる可能性があります。



ここから先は

91,441字

¥ 500

この記事が気に入ったらチップで応援してみませんか?