AutoMLで誰でも機械学習 - 便利だけど少し寂しい

2024年7月27日 19:46

AutoMLを勉強中。訓練データとテストデータをそのままAutoMLツールにインプットすれば、前処理、モデル選定、学習、予測といった一連の処理を自動的に行ってくれる。まだ精度は十分ではない場合もあるし、データ量が多いと膨大な時間がかかるけど、これからもっと進化していくんだろう。

Kaggleなどのコンペティションや実務で機械学習する人にはとても便利でありがたいツールではあるものの、こうした技術が一般化すると、我々人間が考える領域が少なくなるようで、未来への一抹の寂しさも感じてしまう。

AutoMLとは？

AutoML（Automated Machine Learning）は、機械学習のプロセスを自動化する技術です。従来、機械学習モデルの作成には、データ前処理、特徴量エンジニアリング、モデル選択、ハイパーパラメータチューニングなど、多くの専門的な知識と時間が必要でした。AutoMLを利用することで、これらの作業を自動化し、初心者でも高性能なモデルを作成することが可能になります。

メリット

時間の節約: モデル作成にかかる時間を大幅に短縮します。
高い精度: 自動化されたチューニングにより、高精度なモデルを作成できます。
使いやすさ: 専門知識がなくても利用できるインターフェースを提供します。

デメリット

ブラックボックス問題: 自動化されたプロセスのため、モデルの内部動作が理解しにくくなることがあります。
計算コスト: トレーニングに多くの計算資源が必要です。
制約: 特定のユースケースやデータセットにはカスタムモデルが必要な場合があります。

ここでは、代表的なAutoMLツールとして、Google AutoML、H2O.ai、TPOTの3つを紹介し、それぞれのコード例を示します。

代表的なAutoMLのサンプルコード

以下のコードは、次の前提で書かれています。
・train_dfとtest_dfにデータが既に読み込まれている。
・データの前処理が適切に行われている。（例えば、欠損値の処理、カテゴリ変数のエンコーディングなど）
・必要な前処理はツールごとに異なる場合があります。

1. Google AutoML

Google AutoMLは、Google Cloudの一部として提供されているAutoMLツールです。特に画像認識、自然言語処理、構造化データの分析など、多様なタスクに対応しています。

Google Cloud Storageにアップロードし、モデルをトレーニングし、予測を行います。Google AutoMLではモデルの作成時に分類か回帰かを明示的に指定する必要があります。

import pandas as pd
from google.cloud import storage, automl_v1beta1 as automl

# 変数train_dfとtest_dfにデータが読み込まれている前提
train_df.to_csv('train.csv', index=False)
test_df.to_csv('test.csv', index=False)

# Google Cloud Storageにファイルをアップロード
client = storage.Client()
bucket = client.bucket('YOUR_BUCKET_NAME')
blob_train = bucket.blob('train.csv')
blob_test = bucket.blob('test.csv')
blob_train.upload_from_filename('train.csv')
blob_test.upload_from_filename('test.csv')

# AutoML Tablesクライアントの初期化
client = automl.TablesClient(project='YOUR_PROJECT_ID', region='YOUR_REGION')

# モデルのトレーニング
response = client.create_model(
    display_name='your_model_name',
    dataset_id='your_dataset_id',
    train_budget_milli_node_hours=1000,  # 予算時間の設定
    model_type='classification'  # 'classification'または'regression'を指定
)

# 予測の実行
response = client.batch_predict(
    model_display_name='your_model_name',
    gcs_input_uris=['gs://YOUR_BUCKET_NAME/test.csv'],
    gcs_output_uri_prefix='gs://YOUR_BUCKET_NAME/output'
)

# 予測結果のダウンロードと表示
output_blob = bucket.blob('output/predictions.csv')
output_blob.download_to_filename('predictions.csv')
predictions = pd.read_csv('predictions.csv')
print(predictions)

2. H2O.ai

H2O.aiは、オープンソースの機械学習プラットフォームで、大規模なデータセットの処理に優れています。幅広いアルゴリズムを自動的に試行し、最適なモデルを選定します。

import h2o
from h2o.automl import H2OAutoML
import pandas as pd

# H2Oを初期化
h2o.init()

# 変数train_dfとtest_dfにデータが読み込まれている前提
train_h2o = h2o.H2OFrame(train_df)
test_h2o = h2o.H2OFrame(test_df)

# 目的変数の設定
y = 'target'  # ここは実際の目的変数名に変更してください
x = train_h2o.columns
x.remove(y)

# AutoMLの設定とトレーニング
aml = H2OAutoML(max_models=20, seed=1)
aml.train(x=x, y=y, training_frame=train_h2o)

# 予測
preds = aml.predict(test_h2o)
predictions = preds.as_data_frame()
print(predictions)

3. TPOT

TPOTは、遺伝的アルゴリズムを使用して最適な機械学習パイプラインを自動的に探索するPythonライブラリです。Scikit-Learnと統合されており、使いやすさと強力な最適化機能を兼ね備えています。

TPOTでは、タスクの種類に応じてTPOTClassifierとTPOTRegressorを使い分ける必要があります。

from tpot import TPOTClassifier, TPOTRegressor

# 変数train_dfとtest_dfにデータが読み込まれている前提
X_train = train_df.drop('target', axis=1)
y_train = train_df['target']
X_test = test_df.drop('target', axis=1)

# 回帰または分類を選択
task_type = 'classification'  # 'classification'または'regression'を指定

if task_type == 'classification':
    tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2, random_state=42)
elif task_type == 'regression':
    tpot = TPOTRegressor(generations=5, population_size=20, verbosity=2, random_state=42)

# TPOTの設定とトレーニング
tpot.fit(X_train, y_train)

# 予測
predictions = tpot.predict(X_test)
print(predictions)

# 最適なパイプラインの表示
tpot.export('best_pipeline.py')

まとめ

AutoMLツールを利用することで、機械学習の専門知識がなくても高性能なモデルを作成することができます。Google AutoML、H2O.ai、TPOTの3つのツールは、それぞれ異なる特長を持ち、さまざまなニーズに対応できます。データの準備が整っていれば、これらのツールを使って簡単にモデルをトレーニングし、予測を行うことが可能です。ぜひ、これらのツールを試してみてください。