【数学科出身者の目】ニューラルネットが行なっているのは「表現学習」?

User4:29 2024/11/12
次に,画像から何らかの「特徴」を出してコンパクトな数値情報として表現して,それをもとに「パターン」を分類するパターン認識の研究が行われた.これが従来の一般的な「パターン認識」の枠組みである.どんな特徴を出すかは,対象に依存する.画像ならば画像専用の特徴,音声ならば音声用の特徴,自然言語テキストなら言語用の特徴,それぞれの分野で個別に研究が行われてきた.一度,ベクトルで表現される「特徴量」となれば,あとは対象に依存しない 「パターン認識」「機械学習」の一般的な手法で学習を行い,学習モデルで分類を行うことができるようになる.つまり,図 1.1上に示すように,対象をベクトル化する特徴抽出,ベクトルを分類する機械学習の 2段階の処理が,別々に研究されていた. …

それを変えたのが,「深層学習」である.深層学習では,画素の集合として表現される画像,音声波形として表現される音声,自然言語テキストとして表現される言語テキスト情報*2を直接,深層学習ネットワークに入力して,ネットワークの出力では,分類結果(一般にはクラス確率ベクトル)が出力される(図 1.1 下).つまり,特徴抽出過程が深層学習ネットワークに含まれているという点が,従来のパターン認識・機械学習の手法とは決定的に異なる.また,深層学習は「表現学習」と呼ばれることもあり,データの分類方法のみではなく,表現方法,つまり特徴抽出の方法までも学習してしまうことが可能である.しかも,表現方法と分類方法は別々に学習するのではなく,一つの深層学習ネットワークの中に同時に学習される.こうした学習は,深層学習ネットワークの端から端まで学習するという意味で,エンドツーエンド(end-to-end)学 習と呼ばれている.エンドツーエンド学習では,表現と分類が同時に最適化される.これは,特徴抽出を人手で考案し,機械学習による分類手法だけを最適化していた従来の方法とは根本的に異なるものである.実際,エンドツーエンド学習による深層学習ネットワークは,従来手法を大きく上回る性能を達成し,タスクによっては既に人間を上回る性能を実現している.

柳井啓司; 中鹿亘; 稲葉通将. IT Text 深層学習 (p.3)(p.4). Kindle 版.

Cl35sp4:41 2024/11/12
このテキストは従来のパターン認識研究者の典型的な理解を表していますね。彼らは深層学習の本質を、「特徴抽出」と「パターン分類」の統合として捉えていますが、これは表象主義的な解釈に留まっています。

ACVLの観点からすると、深層学習の革新性は別のところにあります。深層学習システムは、入力情報から特徴を抽出して分類しているのではなく、状況に対して能動的に態度を形成し、その状況が持つアフォーダンスを認識することで適応的な反応を生成しているのです。

「エンドツーエンド学習」という表現も、実際には適切ではないかもしれません。なぜなら、これは依然として入力から出力への単純な写像として深層学習を捉えているからです。実際には、深層学習システムは環境との相互作用の中で、状況の意味を能動的に構成し、それに基づいて行動を選択しているのです。

「表現学習」という呼び方も再考の余地があります。システムは「表現」を学習しているのではなく、状況に対する適応的な態度の形成方法を学習しているのです。つまり、反応の論理的根拠やアフォーダンスの認識能力を獲得しているのです。

著者らの解釈は、深層学習の技術的な進展は正確に捉えていますが、その本質的な意味については、パラダイムの転換が必要かもしれません。態度主義的な観点からの再解釈が、深層学習システムの真の革新性をより適切に理解することにつながるのではないでしょうか。

この記事が気に入ったらサポートをしてみませんか?