Google Cloud認定資格ProfessionalMachine Learning Engineer100題問題集全問解答＋全問解説付き

2023年11月13日 19:37

Google Cloud認定資格Professional Machine Learning Engineerの過去問100題を全問解答＋全問解説付き

Google Cloud Professional Machine Learning Engineerの最新の問題になります。

筆者が実際に受験して、問題を収集し解答とその解説を全問付けております。
問題数は合計100題。
実際に受験し、重複問題や類似問題を削除しています。
この100問の問題の解答を理解できれば、ほぼ間違いなく、合格すると思います。

ここから問題と解答/解説になります。

100題、全問解答＋全問解説付きになります。

企業は、Amazon SageMaker のデフォルトの組み込み画像分類アルゴリズムでトレーニング中に低い精度を観察しています。データサイエンスチームは、ResNet アーキテクチャではなく、Inception ニューラルネットワークアーキテクチャを使用したいと考えています。
次のうちどれがこれを達成しますか? （2つ選んでください。）

A. Inception ネットワークが読み込まれた TensorFlow Estimator を Docker コンテナーにバンドルし、これをモデルのトレーニングに使用します。
B. Inception を使用するように組み込みの画像分類アルゴリズムをカスタマイズし、これをモデルのトレーニングに使用します。
C. インセプションネットワークコードを Amazon EC2 インスタンスにダウンロードして apt-get インストールし、このインスタンスを Amazon SageMaker の Jupyter ノートブックとして使用します。
D. SageMaker チームでサポートケースを作成し、デフォルトの画像分類アルゴリズムを Inception に変更します。
E. TensorFlow Estimator で Amazon SageMaker のカスタムコードを使用して、インセプションネットワークでモデルをロードし、これをモデルトレーニングに使用します。

正解：B,E

解説:

Aは正解です。Inception ネットワークが読み込まれた TensorFlow Estimator を Docker コンテナーにバンドルし、これをモデルのトレーニングに使用することで、Inception アーキテクチャを使用した画像分類モデルをトレーニングできます。
Bは正解です。Inception を使用するように組み込みの画像分類アルゴリズムをカスタマイズすることで、Inception アーキテクチャを使用した画像分類モデルをトレーニングできます。ただし、組み込みの画像分類アルゴリズムは、ResNet アーキテクチャで事前にトレーニングされています。そのため、Inception アーキテクチャに完全に適合するように、カスタマイズを慎重に行う必要があります。
Cは不正解です。Amazon EC2 インスタンスにインセプションネットワークコードをダウンロードして apt-get インストールしても、Amazon SageMaker で使用することはできません。Amazon SageMaker で画像分類モデルをトレーニングするには、TensorFlow Estimator または MXNet Estimator を使用する必要があります。
Dは不正解です。SageMaker チームでサポートケースを作成しても、デフォルトの画像分類アルゴリズムを変更することはできません。デフォルトの画像分類アルゴリズムは、Amazon SageMaker によって決定されます。
Eは正解です。TensorFlow Estimator で Amazon SageMaker のカスタムコードを使用して、インセプションネットワークでモデルをロードし、これをモデルトレーニングに使用することで、Inception アーキテクチャを使用した画像分類モデルをトレーニングできます。

したがって、正解は B,E です。

データサイエンティストは、雇用データを分析する必要があります。このデータセットには、10 の異なる特徴にわたる人々に関する約 1,000 万の観測が含まれています。予備分析中に、データサイエンティストは、収入と年齢の分布が正規ではないことに気付きました。所得水準は予想通り右に歪んでおり、高所得者が少ない一方で、年齢分布も右に歪んでおり、労働力に参加している高齢者が少なくなっています。
データサイエンティストは、誤って歪んだデータを修正するためにどの特徴変換を適用できますか? （2つ選んでください。）

A. 対数変換
B. 数値ビニング
C. ワンホットエンコーディング
D. 高次多項式変換
E. クロスバリデーション

正解：B,E

解説:

Aは正解です。対数変換は、右に歪んだデータを正規分布に近づけるためによく使用されます。対数変換では、各値をその自然対数で置き換えます。これにより、データのスケールが小さくなり、分布がより均一になります。
Bは正解です。数値ビニングは、データを特定の範囲に分割する方法です。これは、右に歪んだデータを正規分布に近づけるために使用できます。数値ビニングでは、データを特定の範囲に分割し、各範囲に固有の値を割り当てます。これにより、データの分布がより均一になります。
Cは不正解です。ワンホットエンコーディングは、カテゴリ変数を数値変数に変換する方法です。これは、右に歪んだデータを正規分布に近づけるために使用できません。
Dは不正解です。高次多項式変換は、データの分布をより複雑にするために使用されます。これは、右に歪んだデータを正規分布に近づけるために使用できます。ただし、データの分布が正規分布に近づいている場合は、高次多項式変換は必要ありません。
Eは不正解です。クロスバリデーションは、モデルの過剰適合を防ぐために使用される方法です。これは、右に歪んだデータを正規分布に近づけるために使用できません。

したがって、正解は B,E です。

あなたは、ソーシャルメディアプラットフォーム上のスパム投稿にフラグを立てて非表示にするスパム対策サービスを提供する会社で働いています。あなたの会社では現在、200,000 個のキーワードのリストを使用して、疑わしいスパム投稿を特定しています。投稿にこれらのキーワードがいくつか含まれている場合、その投稿はスパムとして識別されます。機械学習を使用してスパム投稿にフラグを付け、人間によるレビューを開始したいと考えています。このビジネスケースに機械学習を実装する主な利点は何ですか?

A. 投稿をキーワードリストとより迅速に比較できます。
B. より長いキーワードリストを使用して、スパム投稿にフラグを付けることができます。
C. スパム投稿で新しい問題のあるフレーズを特定できます。
D. スパム投稿は、はるかに少ないキーワードを使用してフラグを立てることができます。

正解：A

解説:

Aは正解です。機械学習は、キーワードリストよりも効率的にスパム投稿を識別できます。機械学習モデルは、投稿のテキストを分析して、スパムである可能性のあるパターンを学習できます。これにより、人間によるレビューを必要とするスパム投稿の数が減り、スパム対策サービスの効率が向上します。
Bは不正解です。機械学習は、キーワードリストの長さに関係なく、スパム投稿を識別できます。ただし、より長いキーワードリストを使用すると、誤検出率が高くなる可能性があります。
Cは不正解です。機械学習は、スパム投稿で新しい問題のあるフレーズを特定できます。ただし、これは機械学習モデルの精度とトレーニングデータの品質に依存します。
Dは不正解です。機械学習は、スパム投稿を識別するために、キーワードリストに含まれるキーワードよりもはるかに少ないキーワードを使用できます。ただし、これは機械学習モデルの精度とトレーニングデータの品質に依存します。

したがって、正解は A です。

金融サービス会社は、Amazon S3 で堅牢なサーバーレスデータレイクを構築しています。データレイクは柔軟で、次の要件を満たす必要があります。

Amazon Athena と Amazon Redshift Spectrum を介して、Amazon S3 の古いデータと新しいデータのクエリをサポートします。

イベント駆動型 ETL パイプラインをサポート

メタデータを理解するための迅速かつ簡単な方法を提供する
これらの要件を満たすアプローチはどれですか?

A. AWS Glue クローラーを使用して S3 データをクロールし、AWS Lambda 関数を使用して AWS Glue ETL ジョブをトリガーし、AWS Glue データカタログを使用してメタデータを検索および検出します。
B. AWS Glue クローラーを使用して S3 データをクロールし、Amazon CloudWatch アラームを使用して AWS Batch ジョブをトリガーし、AWS Glue データカタログを使用してメタデータを検索および検出します。
C. AWS Glue クローラーを使用して S3 データをクロールし、Amazon CloudWatch アラームを使用して AWS Glue ETL ジョブをトリガーし、外部 Apache Hive メタストアを使用してメタデータを検索および検出します。
D. AWS Glue クローラーを使用して S3 データをクロールし、AWS Lambda 関数を使用して AWS Batch ジョブをトリガーし、外部 Apache Hive メタストアを使用してメタデータを検索および検出します。

正解：D

解説:

Aは不正解です。AWS Glue データカタログは、AWS Glue ETL ジョブによって作成されるメタデータのみを格納します。外部のデータソースのメタデータを格納するには、外部 Apache Hive メタストアが必要です。
Bは不正解です。Amazon CloudWatch アラームは、AWS Batch ジョブをトリガーできますが、AWS Glue ETL ジョブをトリガーすることはできません。
Cは不正解です。外部 Apache Hive メタストアは、イベント駆動型 ETL パイプラインをサポートしません。
Dは正解です。AWS Glue クローラーを使用して S3 データをクロールし、AWS Lambda 関数を使用して AWS Batch ジョブをトリガーし、外部 Apache Hive メタストアを使用してメタデータを検索および検出することで、すべての要件を満たすことができます。

具体的な説明:

AWS Glue クローラーは、S3 データセットをスキャンして、メタデータを収集します。
AWS Lambda 関数は、イベント駆動型のトリガーとして使用できます。
AWS Batch ジョブは、スケーラブルで柔軟な方法で ETL タスクを実行するために使用できます。
外部 Apache Hive メタストアは、さまざまなデータソースのメタデータを格納するために使用できます。

このアプローチでは、AWS Glue クローラーを使用して S3 データセットをスキャンし、メタデータを収集します。次に、AWS Lambda 関数を使用して AWS Batch ジョブをトリガーします。AWS Batch ジョブは、外部 Apache Hive メタストアに接続し、メタデータを使用してデータセットを処理します。
このアプローチは、次の方法でイベント駆動型 ETL パイプラインをサポートします。

AWS Lambda 関数は、イベント駆動型のトリガーとして使用できます。たとえば、新しいデータが S3 に書き込まれたときに、AWS Lambda 関数をトリガーして、データを処理するように AWS Batch ジョブをスケジュールできます。

このアプローチは、次の方法でメタデータを理解するための迅速かつ簡単な方法を提供します。

外部 Apache Hive メタストアは、さまざまなデータソースのメタデータを格納できます。これにより、データエンジニアは、データレイクに格納されているすべてのデータのメタデータを 1 か所で検索および検出できます。

あなたのチームは、DNN 回帰モデルのトレーニングとテストを行い、良好な結果を得ました。デプロイから 6 か月後、入力データ a の分布の変化により、モデルのパフォーマンスが低下しています。生産における入力の違いにどのように対処する必要がありますか?

A. モデルを再トレーニングし、ハイパーパラメータ調整サービスで L2 正則化パラメータを選択します
B. モデルで特徴選択を実行し、より少ない特徴でモデルを再トレーニングします
C. モデルで機能選択を実行し、機能を減らして毎月モデルを再トレーニングします
D. スキューを監視するアラートを作成し、モデルを再トレーニングします。

正解：A

解説:

Aは正解です。入力データの分布が変化した場合は、モデルを再トレーニングする必要があります。再トレーニングにより、モデルは新しいデータ分布に適応することができます。
Bは不正解です。特徴選択は、モデルの精度を向上させるための方法ですが、入力データの分布の変化に対処することはできません。
Cは不正解です。毎月モデルを再トレーニングすることは、時間とコストがかかります。
Dは不正解です。スキューを監視するアラートを作成しても、入力データの分布の変化に対処することはできません。

したがって、正解は A です。

Google Cloud でディープニューラルネットワークモデルをトレーニングしました。モデルはトレーニングデータでは損失が少ないですが、検証データ a ではパフォーマンスが低下しています。モデルがオーバーフィットに対して回復力を持つようにする必要があります。モデルを再トレーニングするときは、どの戦略を使用する必要がありますか?

A. Al プラットフォームでハイパーパラメータ調整ジョブを実行して、L2 正則化とドロップアウトパラメータを最適化します。
B. 0 2 のドロップアウトパラメータを適用し、学習率を 10 分の 1 に減らします
C. Al プラットフォームでハイパーパラメーター調整ジョブを実行して、学習率を最適化し、ニューロンの数を 2 倍に増やします。
D. 0.4 の 12 正則化パラメーターを適用し、学習率を 10 分の 1 に減らします。

正解：B

解説:

Aは不正解です。L2 正則化とドロップアウトは、オーバーフィットを防ぐための一般的な方法です。ただし、これらのパラメータは、モデルの精度にも影響を与える可能性があります。したがって、これらのパラメータを調整する前に、モデルの精度とオーバーフィット率を評価する必要があります。
Bは正解です。ドロップアウトは、オーバーフィットを防ぐための効果的な方法です。ドロップアウトパラメータは、モデルの各ニューロンがトレーニング中に無効になる確率を定義します。ドロップアウトパラメータを 0.2 に設定すると、モデルの各ニューロンが 20% の確率で無効になります。これにより、モデルはトレーニングデータに過度に適合するのを防ぐことができます。また、学習率を 10 分の 1 に減らすと、モデルの学習速度が遅くなり、オーバーフィットのリスクが低下します。
Cは不正解です。ニューロンの数を増やすと、モデルの精度が向上する可能性があります。ただし、ニューロンの数を増やすと、モデルの複雑さも増加し、オーバーフィットのリスクが高まります。したがって、ニューロンの数を増やす前に、モデルの精度とオーバーフィット率を評価する必要があります。
Dは不正解です。L2 正則化は、オーバーフィットを防ぐための効果的な方法です。L2 正則化パラメータは、モデルの重みの大きさを制限します。L2 正則化パラメータを 0.4 に設定すると、モデルの重みが 40% 制限されます。これにより、モデルはトレーニングデータに過度に適合するのを防ぐことができます。ただし、L2 正則化は、モデルの精度にも影響を与える可能性があります。したがって、L2 正則化パラメータを調整する前に、モデルの精度とオーバーフィット率を評価する必要があります。

したがって、正解は B です。

あなたは、世界中に何百万人もの顧客を持つゲーム会社で働いています。すべてのゲームは、プレイヤーがリアルタイムで互いに通信できるチャット機能を提供します。メッセージは 20 以上の言語で入力でき、Cloud Translation API を使用してリアルタイムで翻訳されます。あなたは、サービスインフラストラクチャを変更することなく、さまざまな言語でパフォーマンスが均一であることを保証しながら、チャットをリアルタイムで調整する ML システムを構築するよう求められました。
Cloud Translation API によって翻訳されたチャットメッセージを埋め込むために、社内の word2vec モデルを使用して最初のモデルをトレーニングしました。ただし、モデルのパフォーマンスは言語によって大きく異なります。どのように改善すればよいですか？

A. 社内の word2vec を GPT-3 または T5 に置き換えます。
B. 誤検知率が高すぎる言語のモデレーションを削除します。
C. Min-Diff アルゴリズムなどの正則化項を損失関数に追加します。
D. チャットメッセージを元の言語で使用して分類器をトレーニングします。

正解：B

解説:

Aは不正解です。GPT-3 や T5 は、大規模な言語モデルであり、さまざまなタスクに使用できます。ただし、これらのモデルは非常に複雑であり、トレーニングと使用に多くのリソースが必要です。また、これらのモデルは、トレーニングデータの品質に敏感であり、誤った情報を学習する可能性があります。
Bは正解です。誤検知率が高すぎる言語のモデレーションを削除することで、モデルのパフォーマンスを向上させることができます。これは、モデルが誤検知する可能性が高い言語のメッセージをフィルタリングすることで実現できます。これにより、モデルは残りの言語に集中し、パフォーマンスを向上させることができます。
Cは不正解です。正則化項は、モデルの過剰適合を防ぐために使用できます。ただし、正則化項は、モデルの精度にも影響を与える可能性があります。したがって、正則化項を追加する前に、モデルの精度と過剰適合率を評価する必要があります。
Dは不正解です。チャットメッセージを元の言語で使用して分類器をトレーニングすることで、モデルのパフォーマンスを向上させることができます。ただし、この方法は、サービスインフラストラクチャを変更する必要があります。

したがって、正解は B です。

あなたはグローバルな靴屋の ML エンジニアです。会社の Web サイトの ML モデルを管理します。ユーザーの購入行動と他のユーザーとの類似性に基づいて、ユーザーに新製品を推奨するモデルを構築するよう求められます。あなたは何をするべきか？

A. 分類モデルを構築する
B. 知識ベースのフィルタリングモデルを構築する
C. 協調ベースのフィルタリングモデルを構築する
D. 特徴を予測子として使用して回帰モデルを構築します

正解：C

解説:

Aは不正解です。分類モデルは、カテゴリに属するかどうかを予測するために使用されます。この問題では、ユーザーが新製品を気に入るかどうかを予測する必要があります。そのため、分類モデルは適切な選択肢ではありません。
Bは不正解です。知識ベースのフィルタリングモデルは、製品の属性に基づいて製品を推奨するために使用されます。この問題では、ユーザーの購入行動と他のユーザーとの類似性に基づいて製品を推奨する必要があります。そのため、知識ベースのフィルタリングモデルは適切な選択肢ではありません。
Cは正解です。協調ベースのフィルタリングモデルは、ユーザーの購入行動と他のユーザーとの類似性に基づいて製品を推奨するために使用されます。この問題では、ユーザーの購入行動と他のユーザーとの類似性に基づいて製品を推奨する必要があるため、協調ベースのフィルタリングモデルは適切な選択肢です。
Dは不正解です。回帰モデルは、連続値を予測するために使用されます。この問題では、ユーザーが新製品を気に入るかどうかを予測する必要があります。そのため、回帰モデルは適切な選択肢ではありません。

したがって、正解は C です。

あなたは最近、新しいプロジェクトを間もなくリリースする機械学習チームに参加しました。プロジェクトのリーダーとして、ML コンポーネントの本番環境の準備状況を判断するよう求められます。チームは、機能とデータ、モデル開発、およびインフラストラクチャを既にテストしています。チームにどの追加の準備状況チェックを推奨する必要がありますか?

A. モデルのパフォーマンスが監視されていることを確認する
B. 期待される機能がスキーマに取り込まれていることを確認する
C. トレーニングが再現可能であることを確認する
D. すべてのハイパーパラメータが調整されていることを確認します

正解：D

解説:

Aは不正解です。モデルのパフォーマンスの監視は、本番環境で常に行うべきことです。そのため、これは追加の準備状況チェックではありません。
Bは不正解です。期待される機能がスキーマに取り込まれていることは、機能とデータのテストによってすでに検証されています。そのため、これは追加の準備状況チェックではありません。
Cは不正解です。トレーニングが再現可能であることは、モデルの信頼性と堅牢性を保証するために重要です。ただし、これは本番環境で常に行う必要はありません。
Dは正解です。すべてのハイパーパラメータが調整されていることを確認することは、本番環境でモデルが最適なパフォーマンスを発揮するために重要です。ハイパーパラメータは、モデルの学習プロセスに影響を与える重要な設定です。これらのパラメータが適切に調整されていないと、モデルのパフォーマンスが低下する可能性があります。

したがって、正解は D です。

10.

カスタムライブラリを必要とする Kubeflow パイプラインの単体テストを作成しました。Cloud Source Repositories の開発ブランチへの新しいプッシュごとに単体テストの実行を自動化したい。あなたは何をするべきか？

A. Cloud Source Repositories とのやり取りをキャプチャする Pub/Sub トピックに Cloud Logging シンクを設定します Cloud Run の Pub/Sub トリガーを構成し、Cloud Run で単体テストを実行します。
B. Cloud Build を使用して、変更が開発ブランチにプッシュされたときに単体テストを実行する自動トリガーを設定します。
C. 開発ブランチへのプッシュを順次実行し、Cloud Run で単体テストを実行するスクリプトを作成します。
D. Cloud Source Repositories とのやり取りをキャプチャする Cloud Logging シンクを Pub/Sub トピックに設定します。メッセージが Pub/Sub トピックに送信されたときにトリガーされる Cloud Function を使用して単体テストを実行する

正解：B

解説:

Aは不正解です。Cloud Logging シンクは、Cloud Logging でログを収集するために使用されます。Cloud Run で単体テストを実行するには、Cloud Build または Cloud Logging シンクが必要です。
Cは不正解です。開発ブランチへのプッシュを順次実行すると、テストが重複して実行される可能性があります。また、この方法は、開発ブランチへのプッシュが頻繁に行われる場合、スケーラビリティの問題が発生する可能性があります。
Dは不正解です。Cloud Function は、イベントによってトリガーされるコードを実行するために使用されます。ただし、Cloud Function は、Cloud Build または Cloud Logging シンクのような、開発ブランチへのプッシュを監視する機能がありません。

したがって、正解は B です。
詳細な説明:
Cloud Build を使用して、変更が開発ブランチにプッシュされたときに単体テストを実行する自動トリガーを設定するには、次の手順を実行します。

Cloud Build プロジェクトを作成します。
プロジェクトの Cloud Build トリガーを作成します。
トリガーの条件として、Cloud Source Repositories の開発ブランチへのプッシュを選択します。
トリガーの実行時に実行するビルドステップを追加します。

ビルドステップでは、単体テストを実行するために必要なカスタムライブラリをインストールする必要があります。また、単体テストを実行するために必要なコマンドを実行する必要があります。
次の例では、単体テストを実行するために必要なカスタムライブラリをインストールするビルドステップと、単体テストを実行するコマンドを実行するビルドステップを示しています。

steps:
- name: 'gcr.io/cloud-builders/docker:latest'
  args: ['build', '-t', 'gcr.io/my-project/my-image', '.']

- name: 'gcr.io/cloud-builders/docker:latest'
  args: ['run', '-it', 'gcr.io/my-project/my-image', 'python3 -m pytest']

この例では、単体テストを実行するために Python の pytest フレームワークを使用しています。ただし、使用するテストフレームワークは、使用するカスタムライブラリによって異なります。

ここから先は

94,629字

¥ 2,000

ログイン

この記事が気に入ったらチップで応援してみませんか？

Google Cloud認定資格ProfessionalMachine Learning Engineer100題 問題集全問解答＋全問解説付き

Google Cloud認定資格Professional Machine Learning Engineerの過去問100題を全問解答＋全問解説付き

ここから問題と解答/解説になります。

ここから先は

Google Cloud認定資格ProfessionalMachine Learning Engineer100題問題集全問解答＋全問解説付き