見出し画像

Google Cloud認定資格ProfessionalMachine Learning Engineer100題 問題集全問解答+全問解説付き

Google Cloud認定資格Professional Machine Learning Engineerの過去問100題を全問解答+全問解説付き

Google Cloud Professional Machine Learning Engineerの最新の問題になります。

筆者が実際に受験して、問題を収集し解答とその解説を全問付けております。
問題数は合計100題。
実際に受験し、重複問題や類似問題を削除しています。
この100問の問題の解答を理解できれば、ほぼ間違いなく、合格すると思います。

ここから問題と解答/解説になります。

100題、全問解答+全問解説付きになります。

1.

企業は、Amazon SageMaker のデフォルトの組み込み画像分類アルゴリズムでトレーニング中に低い精度を観察しています。データ サイエンス チームは、ResNet アーキテクチャではなく、Inception ニューラル ネットワーク アーキテクチャを使用したいと考えています。
次のうちどれがこれを達成しますか? (2つ選んでください。)


A. Inception ネットワークが読み込まれた TensorFlow Estimator を Docker コンテナーにバンドルし、これをモデルのトレーニングに使用します。
B. Inception を使用するように組み込みの画像分類アルゴリズムをカスタマイズし、これをモデルのトレーニングに使用します。
C. インセプション ネットワーク コードを Amazon EC2 インスタンスにダウンロードして apt-get インストールし、このインスタンスを Amazon SageMaker の Jupyter ノートブックとして使用します。
D. SageMaker チームでサポート ケースを作成し、デフォルトの画像分類アルゴリズムを Inception に変更します。
E. TensorFlow Estimator で Amazon SageMaker のカスタム コードを使用して、インセプション ネットワークでモデルをロードし、これをモデル トレーニングに使用します。



正解:B,E


解説:

  • Aは正解です。Inception ネットワークが読み込まれた TensorFlow Estimator を Docker コンテナーにバンドルし、これをモデルのトレーニングに使用することで、Inception アーキテクチャを使用した画像分類モデルをトレーニングできます。

  • Bは正解です。Inception を使用するように組み込みの画像分類アルゴリズムをカスタマイズすることで、Inception アーキテクチャを使用した画像分類モデルをトレーニングできます。ただし、組み込みの画像分類アルゴリズムは、ResNet アーキテクチャで事前にトレーニングされています。そのため、Inception アーキテクチャに完全に適合するように、カスタマイズを慎重に行う必要があります。

  • Cは不正解です。Amazon EC2 インスタンスにインセプション ネットワーク コードをダウンロードして apt-get インストールしても、Amazon SageMaker で使用することはできません。Amazon SageMaker で画像分類モデルをトレーニングするには、TensorFlow Estimator または MXNet Estimator を使用する必要があります。

  • Dは不正解です。SageMaker チームでサポート ケースを作成しても、デフォルトの画像分類アルゴリズムを変更することはできません。デフォルトの画像分類アルゴリズムは、Amazon SageMaker によって決定されます。

  • Eは正解です。TensorFlow Estimator で Amazon SageMaker のカスタム コードを使用して、インセプション ネットワークでモデルをロードし、これをモデル トレーニングに使用することで、Inception アーキテクチャを使用した画像分類モデルをトレーニングできます。

したがって、正解は B,E です。


2.

データ サイエンティストは、雇用データを分析する必要があります。このデータセットには、10 の異なる特徴にわたる人々に関する約 1,000 万の観測が含まれています。予備分析中に、データ サイエンティストは、収入と年齢の分布が正規ではないことに気付きました。所得水準は予想通り右に歪んでおり、高所得者が少ない一方で、年齢分布も右に歪んでおり、労働力に参加している高齢者が少なくなっています。
データ サイエンティストは、誤って歪んだデータを修正するためにどの特徴変換を適用できますか? (2つ選んでください。)


A. 対数変換
B. 数値ビニング
C. ワンホットエンコーディング
D. 高次多項式変換
E. クロスバリデーション



正解:B,E


解説:

  • Aは正解です。対数変換は、右に歪んだデータを正規分布に近づけるためによく使用されます。対数変換では、各値をその自然対数で置き換えます。これにより、データのスケールが小さくなり、分布がより均一になります。

  • Bは正解です。数値ビニングは、データを特定の範囲に分割する方法です。これは、右に歪んだデータを正規分布に近づけるために使用できます。数値ビニングでは、データを特定の範囲に分割し、各範囲に固有の値を割り当てます。これにより、データの分布がより均一になります。

  • Cは不正解です。ワンホットエンコーディングは、カテゴリ変数を数値変数に変換する方法です。これは、右に歪んだデータを正規分布に近づけるために使用できません。

  • Dは不正解です。高次多項式変換は、データの分布をより複雑にするために使用されます。これは、右に歪んだデータを正規分布に近づけるために使用できます。ただし、データの分布が正規分布に近づいている場合は、高次多項式変換は必要ありません。

  • Eは不正解です。クロスバリデーションは、モデルの過剰適合を防ぐために使用される方法です。これは、右に歪んだデータを正規分布に近づけるために使用できません。

したがって、正解は B,E です。


3.

あなたは、ソーシャル メディア プラットフォーム上のスパム投稿にフラグを立てて非表示にするスパム対策サービスを提供する会社で働いています。あなたの会社では現在、200,000 個のキーワードのリストを使用して、疑わしいスパム投稿を特定しています。投稿にこれらのキーワードがいくつか含まれている場合、その投稿はスパムとして識別されます。機械学習を使用してスパム投稿にフラグを付け、人間によるレビューを開始したいと考えています。このビジネス ケースに機械学習を実装する主な利点は何ですか?

A. 投稿をキーワード リストとより迅速に比較できます。
B. より長いキーワード リストを使用して、スパム投稿にフラグを付けることができます。
C. スパム投稿で新しい問題のあるフレーズを特定できます。
D. スパム投稿は、はるかに少ないキーワードを使用してフラグを立てることができます。



正解:A


解説:

  • Aは正解です。機械学習は、キーワード リストよりも効率的にスパム投稿を識別できます。機械学習モデルは、投稿のテキストを分析して、スパムである可能性のあるパターンを学習できます。これにより、人間によるレビューを必要とするスパム投稿の数が減り、スパム対策サービスの効率が向上します。

  • Bは不正解です。機械学習は、キーワード リストの長さに関係なく、スパム投稿を識別できます。ただし、より長いキーワード リストを使用すると、誤検出率が高くなる可能性があります。

  • Cは不正解です。機械学習は、スパム投稿で新しい問題のあるフレーズを特定できます。ただし、これは機械学習モデルの精度とトレーニング データの品質に依存します。

  • Dは不正解です。機械学習は、スパム投稿を識別するために、キーワード リストに含まれるキーワードよりもはるかに少ないキーワードを使用できます。ただし、これは機械学習モデルの精度とトレーニング データの品質に依存します。

したがって、正解は A です。


4.

金融サービス会社は、Amazon S3 で堅牢なサーバーレス データ レイクを構築しています。データ レイクは柔軟で、次の要件を満たす必要があります。

Amazon Athena と Amazon Redshift Spectrum を介して、Amazon S3 の古いデータと新しいデータのクエリをサポートします。

イベント駆動型 ETL パイプラインをサポート

メタデータを理解するための迅速かつ簡単な方法を提供する
これらの要件を満たすアプローチはどれですか?


A. AWS Glue クローラーを使用して S3 データをクロールし、AWS Lambda 関数を使用して AWS Glue ETL ジョブをトリガーし、AWS Glue データ カタログを使用してメタデータを検索および検出します。
B. AWS Glue クローラーを使用して S3 データをクロールし、Amazon CloudWatch アラームを使用して AWS Batch ジョブをトリガーし、AWS Glue データ カタログを使用してメタデータを検索および検出します。
C. AWS Glue クローラーを使用して S3 データをクロールし、Amazon CloudWatch アラームを使用して AWS Glue ETL ジョブをトリガーし、外部 Apache Hive メタストアを使用してメタデータを検索および検出します。
D. AWS Glue クローラーを使用して S3 データをクロールし、AWS Lambda 関数を使用して AWS Batch ジョブをトリガーし、外部 Apache Hive メタストアを使用してメタデータを検索および検出します。



正解:D

解説:

  • Aは不正解です。AWS Glue データ カタログは、AWS Glue ETL ジョブによって作成されるメタデータのみを格納します。外部のデータ ソースのメタデータを格納するには、外部 Apache Hive メタストアが必要です。

  • Bは不正解です。Amazon CloudWatch アラームは、AWS Batch ジョブをトリガーできますが、AWS Glue ETL ジョブをトリガーすることはできません。

  • Cは不正解です。外部 Apache Hive メタストアは、イベント駆動型 ETL パイプラインをサポートしません。

  • Dは正解です。AWS Glue クローラーを使用して S3 データをクロールし、AWS Lambda 関数を使用して AWS Batch ジョブをトリガーし、外部 Apache Hive メタストアを使用してメタデータを検索および検出することで、すべての要件を満たすことができます。

具体的な説明:

  • AWS Glue クローラーは、S3 データセットをスキャンして、メタデータを収集します。

  • AWS Lambda 関数は、イベント駆動型のトリガーとして使用できます。

  • AWS Batch ジョブは、スケーラブルで柔軟な方法で ETL タスクを実行するために使用できます。

  • 外部 Apache Hive メタストアは、さまざまなデータ ソースのメタデータを格納するために使用できます。

このアプローチでは、AWS Glue クローラーを使用して S3 データセットをスキャンし、メタデータを収集します。次に、AWS Lambda 関数を使用して AWS Batch ジョブをトリガーします。AWS Batch ジョブは、外部 Apache Hive メタストアに接続し、メタデータを使用してデータセットを処理します。
このアプローチは、次の方法でイベント駆動型 ETL パイプラインをサポートします。

  • AWS Lambda 関数は、イベント駆動型のトリガーとして使用できます。たとえば、新しいデータが S3 に書き込まれたときに、AWS Lambda 関数をトリガーして、データを処理するように AWS Batch ジョブをスケジュールできます。

このアプローチは、次の方法でメタデータを理解するための迅速かつ簡単な方法を提供します。

  • 外部 Apache Hive メタストアは、さまざまなデータ ソースのメタデータを格納できます。これにより、データ エンジニアは、データ レイクに格納されているすべてのデータのメタデータを 1 か所で検索および検出できます。


5.

あなたのチームは、DNN 回帰モデルのトレーニングとテストを行い、良好な結果を得ました。デプロイから 6 か月後、入力データ a の分布の変化により、モデルのパフォーマンスが低下しています。生産における入力の違いにどのように対処する必要がありますか?


A. モデルを再トレーニングし、ハイパーパラメータ調整サービスで L2 正則化パラメータを選択します
B. モデルで特徴選択を実行し、より少ない特徴でモデルを再トレーニングします
C. モデルで機能選択を実行し、機能を減らして毎月モデルを再トレーニングします
D. スキューを監視するアラートを作成し、モデルを再トレーニングします。



正解:A


解説:

  • Aは正解です。入力データの分布が変化した場合は、モデルを再トレーニングする必要があります。再トレーニングにより、モデルは新しいデータ分布に適応することができます。

  • Bは不正解です。特徴選択は、モデルの精度を向上させるための方法ですが、入力データの分布の変化に対処することはできません。

  • Cは不正解です。毎月モデルを再トレーニングすることは、時間とコストがかかります。

  • Dは不正解です。スキューを監視するアラートを作成しても、入力データの分布の変化に対処することはできません。

したがって、正解は A です。


6.

Google Cloud でディープ ニューラル ネットワーク モデルをトレーニングしました。モデルはトレーニング データでは損失が少ないですが、検証データ a ではパフォーマンスが低下しています。モデルがオーバーフィットに対して回復力を持つようにする必要があります。モデルを再トレーニングするときは、どの戦略を使用する必要がありますか?


A. Al プラットフォームでハイパーパラメータ調整ジョブを実行して、L2 正則化とドロップアウト パラメータを最適化します。
B. 0 2 のドロップアウト パラメータを適用し、学習率を 10 分の 1 に減らします
C. Al プラットフォームでハイパーパラメーター調整ジョブを実行して、学習率を最適化し、ニューロンの数を 2 倍に増やします。
D. 0.4 の 12 正則化パラメーターを適用し、学習率を 10 分の 1 に減らします。



正解:B


解説:

  • Aは不正解です。L2 正則化とドロップアウトは、オーバーフィットを防ぐための一般的な方法です。ただし、これらのパラメータは、モデルの精度にも影響を与える可能性があります。したがって、これらのパラメータを調整する前に、モデルの精度とオーバーフィット率を評価する必要があります。

  • Bは正解です。ドロップアウトは、オーバーフィットを防ぐための効果的な方法です。ドロップアウト パラメータは、モデルの各ニューロンがトレーニング中に無効になる確率を定義します。ドロップアウト パラメータを 0.2 に設定すると、モデルの各ニューロンが 20% の確率で無効になります。これにより、モデルはトレーニング データに過度に適合するのを防ぐことができます。また、学習率を 10 分の 1 に減らすと、モデルの学習速度が遅くなり、オーバーフィットのリスクが低下します。

  • Cは不正解です。ニューロンの数を増やすと、モデルの精度が向上する可能性があります。ただし、ニューロンの数を増やすと、モデルの複雑さも増加し、オーバーフィットのリスクが高まります。したがって、ニューロンの数を増やす前に、モデルの精度とオーバーフィット率を評価する必要があります。

  • Dは不正解です。L2 正則化は、オーバーフィットを防ぐための効果的な方法です。L2 正則化パラメータは、モデルの重みの大きさを制限します。L2 正則化パラメータを 0.4 に設定すると、モデルの重みが 40% 制限されます。これにより、モデルはトレーニング データに過度に適合するのを防ぐことができます。ただし、L2 正則化は、モデルの精度にも影響を与える可能性があります。したがって、L2 正則化パラメータを調整する前に、モデルの精度とオーバーフィット率を評価する必要があります。

したがって、正解は B です。


7.

あなたは、世界中に何百万人もの顧客を持つゲーム会社で働いています。すべてのゲームは、プレイヤーがリアルタイムで互いに通信できるチャット機能を提供します。メッセージは 20 以上の言語で入力でき、Cloud Translation API を使用してリアルタイムで翻訳されます。あなたは、サービス インフラストラクチャを変更することなく、さまざまな言語でパフォーマンスが均一であることを保証しながら、チャットをリアルタイムで調整する ML システムを構築するよう求められました。
Cloud Translation API によって翻訳されたチャット メッセージを埋め込むために、社内の word2vec モデルを使用して最初のモデルをトレーニングしました。ただし、モデルのパフォーマンスは言語によって大きく異なります。どのように改善すればよいですか?


A. 社内の word2vec を GPT-3 または T5 に置き換えます。
B. 誤検知率が高すぎる言語のモデレーションを削除します。
C. Min-Diff アルゴリズムなどの正則化項を損失関数に追加します。
D. チャット メッセージを元の言語で使用して分類器をトレーニングします。



正解:B


解説:

  • Aは不正解です。GPT-3 や T5 は、大規模な言語モデルであり、さまざまなタスクに使用できます。ただし、これらのモデルは非常に複雑であり、トレーニングと使用に多くのリソースが必要です。また、これらのモデルは、トレーニング データの品質に敏感であり、誤った情報を学習する可能性があります。

  • Bは正解です。誤検知率が高すぎる言語のモデレーションを削除することで、モデルのパフォーマンスを向上させることができます。これは、モデルが誤検知する可能性が高い言語のメッセージをフィルタリングすることで実現できます。これにより、モデルは残りの言語に集中し、パフォーマンスを向上させることができます。

  • Cは不正解です。正則化項は、モデルの過剰適合を防ぐために使用できます。ただし、正則化項は、モデルの精度にも影響を与える可能性があります。したがって、正則化項を追加する前に、モデルの精度と過剰適合率を評価する必要があります。

  • Dは不正解です。チャット メッセージを元の言語で使用して分類器をトレーニングすることで、モデルのパフォーマンスを向上させることができます。ただし、この方法は、サービス インフラストラクチャを変更する必要があります。

したがって、正解は B です。


8.

あなたはグローバルな靴屋の ML エンジニアです。会社の Web サイトの ML モデルを管理します。ユーザーの購入行動と他のユーザーとの類似性に基づいて、ユーザーに新製品を推奨するモデルを構築するよう求められます。あなたは何をするべきか?


A. 分類モデルを構築する
B. 知識ベースのフィルタリング モデルを構築する
C. 協調ベースのフィルタリング モデルを構築する
D. 特徴を予測子として使用して回帰モデルを構築します



正解:C


解説:

  • Aは不正解です。分類モデルは、カテゴリに属するかどうかを予測するために使用されます。この問題では、ユーザーが新製品を気に入るかどうかを予測する必要があります。そのため、分類モデルは適切な選択肢ではありません。

  • Bは不正解です。知識ベースのフィルタリング モデルは、製品の属性に基づいて製品を推奨するために使用されます。この問題では、ユーザーの購入行動と他のユーザーとの類似性に基づいて製品を推奨する必要があります。そのため、知識ベースのフィルタリング モデルは適切な選択肢ではありません。

  • Cは正解です。協調ベースのフィルタリング モデルは、ユーザーの購入行動と他のユーザーとの類似性に基づいて製品を推奨するために使用されます。この問題では、ユーザーの購入行動と他のユーザーとの類似性に基づいて製品を推奨する必要があるため、協調ベースのフィルタリング モデルは適切な選択肢です。

  • Dは不正解です。回帰モデルは、連続値を予測するために使用されます。この問題では、ユーザーが新製品を気に入るかどうかを予測する必要があります。そのため、回帰モデルは適切な選択肢ではありません。

したがって、正解は C です。


9.

あなたは最近、新しいプロジェクトを間もなくリリースする機械学習チームに参加しました。プロジェクトのリーダーとして、ML コンポーネントの本番環境の準備状況を判断するよう求められます。チームは、機能とデータ、モデル開発、およびインフラストラクチャを既にテストしています。チームにどの追加の準備状況チェックを推奨する必要がありますか?

A. モデルのパフォーマンスが監視されていることを確認する
B. 期待される機能がスキーマに取り込まれていることを確認する
C. トレーニングが再現可能であることを確認する
D. すべてのハイパーパラメータが調整されていることを確認します



正解:D


解説:

  • Aは不正解です。モデルのパフォーマンスの監視は、本番環境で常に行うべきことです。そのため、これは追加の準備状況チェックではありません。

  • Bは不正解です。期待される機能がスキーマに取り込まれていることは、機能とデータのテストによってすでに検証されています。そのため、これは追加の準備状況チェックではありません。

  • Cは不正解です。トレーニングが再現可能であることは、モデルの信頼性と堅牢性を保証するために重要です。ただし、これは本番環境で常に行う必要はありません。

  • Dは正解です。すべてのハイパーパラメータが調整されていることを確認することは、本番環境でモデルが最適なパフォーマンスを発揮するために重要です。ハイパーパラメータは、モデルの学習プロセスに影響を与える重要な設定です。これらのパラメータが適切に調整されていないと、モデルのパフォーマンスが低下する可能性があります。

したがって、正解は D です。


10.

カスタム ライブラリを必要とする Kubeflow パイプラインの単体テストを作成しました。Cloud Source Repositories の開発ブランチへの新しいプッシュごとに単体テストの実行を自動化したい。あなたは何をするべきか?


A. Cloud Source Repositories とのやり取りをキャプチャする Pub/Sub トピックに Cloud Logging シンクを設定します Cloud Run の Pub/Sub トリガーを構成し、Cloud Run で単体テストを実行します。
B. Cloud Build を使用して、変更が開発ブランチにプッシュされたときに単体テストを実行する自動トリガーを設定します。
C. 開発ブランチへのプッシュを順次実行し、Cloud Run で単体テストを実行するスクリプトを作成します。
D. Cloud Source Repositories とのやり取りをキャプチャする Cloud Logging シンクを Pub/Sub トピックに設定します。メッセージが Pub/Sub トピックに送信されたときにトリガーされる Cloud Function を使用して単体テストを実行する



正解:B


解説:

  • Aは不正解です。Cloud Logging シンクは、Cloud Logging でログを収集するために使用されます。Cloud Run で単体テストを実行するには、Cloud Build または Cloud Logging シンクが必要です。

  • Cは不正解です。開発ブランチへのプッシュを順次実行すると、テストが重複して実行される可能性があります。また、この方法は、開発ブランチへのプッシュが頻繁に行われる場合、スケーラビリティの問題が発生する可能性があります。

  • Dは不正解です。Cloud Function は、イベントによってトリガーされるコードを実行するために使用されます。ただし、Cloud Function は、Cloud Build または Cloud Logging シンクのような、開発ブランチへのプッシュを監視する機能がありません。

したがって、正解は B です。
詳細な説明:
Cloud Build を使用して、変更が開発ブランチにプッシュされたときに単体テストを実行する自動トリガーを設定するには、次の手順を実行します。

  1. Cloud Build プロジェクトを作成します。

  2. プロジェクトの Cloud Build トリガーを作成します。

  3. トリガーの条件として、Cloud Source Repositories の開発ブランチへのプッシュを選択します。

  4. トリガーの実行時に実行するビルドステップを追加します。

ビルドステップでは、単体テストを実行するために必要なカスタム ライブラリをインストールする必要があります。また、単体テストを実行するために必要なコマンドを実行する必要があります。
次の例では、単体テストを実行するために必要なカスタム ライブラリをインストールするビルドステップと、単体テストを実行するコマンドを実行するビルドステップを示しています。

steps:
- name: 'gcr.io/cloud-builders/docker:latest'
  args: ['build', '-t', 'gcr.io/my-project/my-image', '.']

- name: 'gcr.io/cloud-builders/docker:latest'
  args: ['run', '-it', 'gcr.io/my-project/my-image', 'python3 -m pytest']

この例では、単体テストを実行するために Python の pytest フレームワークを使用しています。ただし、使用するテスト フレームワークは、使用するカスタム ライブラリによって異なります。

ここから先は

94,629字

¥ 2,000

この記事が気に入ったらチップで応援してみませんか?