マガジンのカバー画像

OPTEMOエンジニアブログ

47
エンジニアメンバーのブログをまとめています。
運営しているクリエイター

#SageMaker

トレーニング環境をAWS SageMakerからGCP Vertex AIへ移行したよ

こんにちは、すずきです。 以前、モデルのトレーニングにAWSのSageMaker Studioをつかっていたのですが、期間限定で$100,000(1500万円..!)のGCPクレジットをいただいたので(Google Cloud for Startupsによるスタートアップ支援)、トレーニング環境をVertex AI Workbenchに移行しました。 SageMakerとVertex AIで使い勝手がところどころ違ったので、移行プロセスを共有します。 こちらは以前書いた

SageMaker TrainingのDockerイメージとConda環境を最適化したよ

こんにちは、すずきです。 以前、以下の記事でDockerコンテナ内にConda環境を設定し、Amazon SageMakerでのトレーニングを実行する手順を書きました。 また、以下の記事では、デバッグ環境(EC2/Deep Learning AMI)とトレーニング環境(SageMaker)で環境を一致させるために、condaの設定ファイルenvironment.ymlをデバッグ環境から書き出して、それを使ってトレーニング環境のDockerイメージを構築しました。 Doc

PyTorchモデルをTorchServeのネイティブサポートでデプロイしてみた

こんにちは、エンジニアのすずきです。 以前の記事で、SageMaker Training JobsによるTabBERTモデルのFine-Tuningを行いました。 Fine-Tuning済モデルをS3にアップロードすることができたので、今回はSageMakerでモデルのデプロイをしてみました。 TorchServe作成した機械学習モデルを推論システムとして使うためには以下の要素が必要となります。 学習済みの機械学習モデル 学習済みモデルに入力する特徴量作成の処理(特徴

SageMaker Training JobsでFine-Tuningを行う際にmodel.tar.gzをS3から読み込む

こんにちは、エンジニアのすずきです。 以前の記事で、SageMaker Training JobsによるTabBERTモデルの事前学習を行ったので、今回は事前学習の結果model.tar.gzを元にFine-Tuningを実行するJobを作成しました。 基本的には事前学習と同じようなJobなのですが、以下の部分で工夫が必要だったのでメモとしてまとめました。 tarファイルの展開 環境変数によるローカルとSageMaker間での引数の切替 なお、Fine-Tuning

SageMaker Training JobsでBERTの応用モデルの事前学習をためしてみる

こんにちは、エンジニアのすずきです。 以前の記事で、TabBERTモデル(IBM論文の付属コード)の環境構築と学習(事前学習、Fine-Tuning)をEC2上で行いました。 動作確認くらいであればこれで問題なかったのですが、いざ本番運用を考えてみると、以下のような問題がありそうでした。 学習中以外の時間にかかるEC2のコスト 推論環境を別途たてることになったときの環境再構築コスト 入出力データの管理の手間 調べてみたところ、Amazon SageMakerというAW