🧠機械学習で弱い学習器という言い方がありますが、具体的に何と比較して何が弱いんですか?
機械学習における「弱い学習器」(Weak Learner)とは、ランダムな推測よりもわずかに良い程度の予測精度しか持たない学習モデルのことを指します。具体的には、分類問題において50%の正解率(ランダムな推測)よりも少し良い程度の正解率を持つ学習モデルです。この「弱い」という表現は、個々の学習機が単独で高い予測性能を持つ「強い学習器」(Strong Learner)と比較して用いられます。
弱い学習器の特徴は、単純で学習が速いが、単独では予測精度がそれほど高くないという点です。しかし、複数の弱い学習機を組み合わせることで、強い学習機と同等またはそれ以上の予測性能を達成することができます。このアプローチはアンサンブル学習と呼ばれ、ブースティングやバギングなどの手法がこのカテゴリに含まれます。
ブースティングは、複数の弱い学習器を順番に学習させ、各ステップで前の学習器が間違えた例により多くの重みを置いて学習を進める方法です。これにより、全体としては非常に正確な予測が可能な「強い」モデルを構築できます。バギングは、トレーニングデータのランダムなサブセットを使用して複数のモデルを並行して訓練し、その予測の平均を取ることで全体の予測を行う手法です。
要するに、「弱い」というのは単独での予測性能の低さを意味し、これを「強い」学習器、つまり単独で高い予測性能を持つモデルと比較しています。アンサンブル手法を用いることで、これら弱い学習機の組み合わせが高い予測性能を達成できるのです。
予測精度を測る方法は、問題の種類(分類問題か回帰問題かなど)や具体的な目的に応じて様々です。以下に一般的な方法をいくつか紹介します。
分類問題の場合
分類問題では、モデルが入力データを正しいカテゴリにどれだけうまく分類できるかを評価します。
正解率(Accuracy):
正解数を総試行数で割った値。最も直感的な指標ですが、クラスの分布が不均衡な場合には誤解を招くことがあります。
適合率(Precision):
あるクラスと予測されたデータのうち、実際にそのクラスに属するデータの割合。偽陽性(誤って正と判断されるケース)を低減したい場合に重視されます。
再現率(Recall)または感度(Sensitivity):
実際にあるクラスに属するデータのうち、正しくそのクラスと予測されたデータの割合。偽陰性(誤って負と判断されるケース)を低減したい場合に重視されます。
F1スコア:
適合率と再現率の調和平均。適合率と再現率のバランスを考慮した指標です。
ROC曲線とAUC(Area Under the Curve):
受信者操作特性(ROC)曲線は、偽陽性率と真陽性率(再現率)の関係をプロットしたものです。AUCはROC曲線下の面積で、分類器の性能を測る指標として用いられます。
回帰問題の場合
回帰問題では、モデルが連続値や順序値をどれだけ正確に予測できるかを評価します。
平均絶対誤差(Mean Absolute Error, MAE):
実際の値と予測値の差の絶対値の平均。予測誤差の平均的な大きさを表します。
平均二乗誤差(Mean Squared Error, MSE):
実際の値と予測値の差の二乗の平均。大きな誤差を重く罰する特性があります。
平均二乗誤差の平方根(Root Mean Squared Error, RMSE):
MSEの平方根。誤差の大きさを元のデータのスケールで表します。
R2スコア(決定係数):
モデルがデータの変動をどれだけ説明できているかを示す指標。1に近いほど良い予測性能を表します。
これらの指標は、モデルの予測性能を定量的に評価し、改善点を見つけるために用いられます。適用する問題や目的に応じて、最も適切な指標を選択することが重要です。