
Photo by
agehachou50
機械学習システムへのデータの渡し方~数値コードを含むデータの学習について
学習に使用するデータに、数値コード列が入っている場合には、そのままニューラルネットワークの入力とすると、大小関係を持つ数値フィールドとして処理されてしまいます。
しかしながら、本来数値コードは属性や分類などの質的データとしての意味を持つので、その観点でカテゴリー変数として改めてダミー変数化などの前処理が必要となります。
モデル構築上よくある注意すべき点としては、カテゴリー種別が非常に細かくて、個々のカテゴリー値に対して十分なレコードが確保できない場合です。そのような場合には、意味的に近いカテゴリー同士は合成を行なって、十分な学習パターンを確保することも検討ください。
さて、ニューラルワークスPredictを使用する場合には、手間となるダミー変数化(カテゴリー種別数に対応する入力ニューロン数の動的拡張)は、ユーザー側で明示的に行なわずとも、例えば数値コードに対して単に数値以外の文字を追加加工を一括して行なえば(例:123-->_123)、Predictは数値列以外のデータはカテゴリー変数とみなしてダミー変数化を内部的に行いますので大変便利です。
※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。社内セミナーの企画等、お気軽にご相談いただければ幸いです。
製品カタログ