【ちょこ論】パーセプ、、、トロン？

2024年12月28日 14:03

「パーセプトロン」って聞いたことありますか？私はこれまで何度か聞きましたが、いまいちパッと理解できていませんでした。
ですが、この【ちょこ論】で振り返ることですっきりしました！

前回の【ちょこ論】では、AI/人工知能の起源ともいえる1955年のダートマス提案書の内容をサクッと確認しました。これからは、時代と共に、少しずつ礎となるポイントを論文と共に要点を絞って確認していこうと思います！

今回のテーマは「パーセプトロン」！
結論から行くと、
パーセプトロンは、ニューロン（脳の神経細胞）を模倣した計算モデルであり、AIの基礎なのです。
実際の論文は、紙ベースのPDFでデータが整理されていたり、複雑な概念や数式が多かったりして、少し読みづらい印象があります。
したがって、それらは省き、より簡単にエッセンスを理解していきたいと思います！

[タイトル]
The Perceptron: A probabilistic model for information storage and organization in the brain

発表年月：1958年

URL：

https://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf

なぜ今読むべきか

AI技術が急速に進化する今、この論文はニューラルネットワークの基盤である『パーセプトロン』の原点を示し、技術の進化を体系的に理解するための重要な出発点となります。AIの基礎的な概念を理解し、技術の進化を俯瞰するために、この歴史的論文を学ぶことが重要です。

必ず覚えるべきエッセンス

パーセプトロンは、ニューロン（脳の神経細胞）を模倣した計算モデルであり、AIの基礎である。
単純な構造でありながら、情報の分類やパターン認識が可能で、
現代のディープラーニングの出発点を形成した。
限界（非線形問題の解決が困難）も指摘され、後続の研究を刺激した。

論旨の説明

目的は人間の脳をコンピュータで再現すること

Frank Rosenblattが1958年に発表した「The Perceptron」は、
人間の脳における情報の保存と組織化のメカニズムを模倣した確率的モデルを提案した画期的な論文です。
彼は当時の神経科学の知見を基に、ニューロンの動作を計算的に再現しようと試みたのです。その目的は、視覚や記憶などの人間の情報処理能力を人工的にモデル化し、コンピュータで実現することでした。
Rosenblattは、高等生物の知覚認識、一般化、記憶、思考能力を理解するために、3つの基本的な問いを提示しました：

生物学的システムはどのように物理的世界の情報を感知または検出するのか？
情報はどのような形で保存または記憶されるのか？
保存または記憶された情報は、認識と行動にどのように影響するのか？

論文は主に2番目と3番目の問いに焦点を当てており、これらの問いに取り組むために、Rosenblattはパーセプトロンというモデルを提案しました。

パーセプトロンの構造と動作

パーセプトロンは、以下の3つの主要要素で構成されます：

入力層：外部からの情報（例：画像のピクセルデータ）を受け取る。
重み（ウェイト）：入力データの重要性を調整する値。学習によって変化する。
出力層：単純な計算に基づいて、データを分類する結果を出す。

入力層から情報を受け取り、重みを掛けた値を合計し、それが閾値（しきい値）を超えるかどうかで出力を決定します。
このプロセスにより、パターン認識やデータ分類が可能になります。

パーセプトロンの能力：できるようになること

Rosenblattは、パーセプトロンが以下のような能力を持つと提案しています：

パターン認識：視覚的なパターンや音声パターンなどを識別する能力
一般化：新しい入力に対して適切に反応する能力
情報の保存：過去の経験を記憶し、将来の行動に活用する能力
抽象化：複雑な入力から本質的な特徴を抽出する能力

パーセプトロンの学習プロセスは、試行錯誤と強化学習の原理に基づいています。システムは入力に対して応答を生成し、その応答の正誤に応じて結合強度を調整します。正しい応答を強化し、誤った応答を弱めることで、システムは徐々に改善されていきます。
Rosenblattは、パーセプトロンが単純な論理演算から複雑な認知タスクまで、幅広い問題に適用可能であると主張しました。例えば、文字認識、音声認識、簡単な推論タスクなどです

パーセプトロンの意義

このモデルの重要性は、以下の点にあるといわれてます：

パーセプトロンは、現代のAIの中核をなすニューラルネットワークの基礎となるアイデアを提供した。
単純な構造ながら、パターン認識や分類問題を解く能力を示し、
人工知能研究に新たな道を切り開いた。

限界と批判

パーセプトロンの限界は、非線形分離問題（例：XOR問題）を解決できない点です。これにより、パーセプトロン単体では実用性に限界があるとされていました。この批判はマービン・ミンスキーらによるもので、AI研究の一時的な停滞（いわゆる「AIの冬」）を引き起こすきっかけとなったのです。しかし、後に多層構造を取り入れた「多層パーセプトロン（MLP）」や「誤差逆伝播法（バックプロパゲーション）」の開発により、この課題は克服されました。
➡XOR問題の概要は下部【おまけ】にて簡潔に解説します。

現代への影響

現在のディープラーニング技術は、この論文で提唱された単純なモデルを飛躍的に発展させました。例えば、画像認識や自然言語処理で用いられる複雑なニューラルネットワークの基礎構造は、パーセプトロンに起源を持ちます。このため、AI技術を深く理解するためには、この歴史的な論文を知ることが不可欠だと考えます。

専門用語

以上が論文の概要および重要なポイントです。

【おまけ】XOR問題

非線形分離問題とは、データを直線や平面だけでは分けることができない分類問題のことです。具体例として、XOR（Exclusive OR）問題があります。

XOR問題の例：
XOR問題は、以下のような入力と出力の関係を持つ論理演算です：

この場合、(0, 1) や (1, 0) は「1」に分類され、(0, 0) や (1, 1) は「0」に分類されます。これを2次元平面にプロットすると、次のようになります：

(0, 0) と (1, 1) が「同じグループ（0）」。
(0, 1) と (1, 0) が「同じグループ（1）」。

問題点

XOR問題では、データを直線で分けようとしても、どんな位置に線を引いても正しく分類することができません。
つまり、「直線では分けられない＝線形分離できない」という性質を持っています。

解決方法

この問題を解決するためには、非線形なモデルが必要です。例えば：

データを「高次元空間」に変換する。
多層パーセプトロン（層を増やしたニューラルネットワーク）を使う。

多層構造や非線形の活性化関数を加えることで、非線形問題にも対応できるようになります。これがディープラーニングの基盤となるアイデアです。

つまり、「直線で仕切れない部屋をどう分ける？」という問題だと思ってください。直線を諦めて「曲線」や「3Dの壁」を使うことで、ようやく部屋をうまく分けられるようになるのです。

直線では仕切れないけど曲線なら仕切れるイメージ

以下のイメージがわかりやすいなと思いました。上段の直線では仕切れないけど、下段のように曲線ならできますね！

https://eetimes.itmedia.co.jp/ee/articles/1804/27/news093_6.html

ここまで読んでいただき、本当にありがとうございます！
「パーセプトロン」という言葉を改めて理解してみると、AIの始まりに触れたようなワクワク感がありますよね！次回は、パーセプトロンの限界を乗り越え、現代のAIへと繋がる技術進化を探ります。一緒にAIの旅を楽しみましょう！次回もぜひお楽しみに！