mambaって何なんですか?
前回は、chatGPTをはじめとするLLMのベース技術「transformer」について、簡単に説明しましたが、
今回は新たなベース技術として注目を浴び始めた「mamba」について、ポイント部分を説明します。
mambaは状態空間モデルという物理学の理論を用いています。
状態空間モデルとは、状態と観測の2つがあり、現在の状態は過去の状態から逐次的に予想し、
観測値から、予想された現在の状態が最適化されます。
たとえば、状態を体調、観測を体温計の測定値としたら、過去の体調から現在の体調を予想した上で、
測った体温により、現在の体調が更新されます。
mambaでは、状態がモデルのパラメータ、つまり重みに相当し、観測が現れる単語ということになります。
これでは、ちょっとイメージしづらいかと思いますので、例文を上げて説明します。
「昨日の夜、私は友達と一緒に映画館に行きました。私たちはコメディ映画を観て、とても楽しい時間を過ごしました。」
という文章をmambaに理解させる場合、各単語を順に観測し、状態を更新していきます。
最終的な状態は、「映画館でコメディ映画を観て楽しい時間を過ごした」という状況を全体的に理解している状態になります。
つまり、transformerとの違いとしては、transformerは厳密に単語間の類似度を計算して文章の理解や生成を行っているのに対し、
mambaは要点のみを覚えるという点です。そのほうが人間らしいですし、計算量が少なくて済みます。
次は計算量に関する話でもしましょうかね。
ちなみに、先ほどmambaは状態空間モデルという物理学の理論を使っていると述べましたが、実はtransformerも、宇宙物理学の「N体問題」という理論に似ています。
詳しくはLINEにて。
#状態空間モデル #mamba #transformer #自然言語処理 #N体問題 #物理学 #計算量 #テクノロジーの進化 #言語モデル #人間らしい理解 #eduai #roboken