LSTMモデルのスクラッチ実装：基礎から応用まで(勉強メモ)

aomame

2023年12月1日 19:27

導入

0.1 本記事のターゲット読者

この記事は、LSTMモデルを使った予測モデルに興味がある方、LSTMモデルの基本概念に不慣れな初心者、そしてRNNについての基礎知識を身につけたい方を対象としています。

1.LSTMモデルの概要

1.1 LSTMとは

LSTM（Long Short-Term Memory）モデルは、ニューラルネットワークの一種で、特に時系列データの分析や予測に適しています。このモデルの特徴は、データの「長期的な依存関係」を捉える能力にあります。

1.2 LSTMの利点

長期依存性の問題の解決
LSTMの最大の利点は、長期依存性の問題を克服できることです。これは、過去の入力が現在の出力に与える影響を長期間保持する能力を意味します。例えば、文章を読む際、序盤で得た情報が結末を理解するのに重要であるように、LSTMはこのような情報を効果的に扱います。

実世界の問題への応用例
LSTMはその特性から、さまざまな実世界の問題に応用されています。例えば、株価の予測、気象データの分析、言語翻訳、音声認識など、多岐にわたる領域でその力を発揮しています。これらの分野では、長期的なデータの流れやパターンを捉えることが成功の鍵となります。

2.LSTMのスクラッチ実

2.0 実装の前提知識

LSTM(Long Short-Term Memory)のスクラッチ実装を行う前に、以下の前提知識が必要です：

ニューラルネットワークの基礎:
基本的なニューラルネットワークの概念、特にRNN(Recurrent Neural Networks)の理解が重要です。

バックプロパゲーション:
ニューラルネットワークを学習させるための基本的なアルゴリズムであるバックプロパゲーションの理解が必要です。

行列演算:
LSTMの実装には多数の行列演算が含まれるため、行列の基本的な演算（積、和、転置など）に慣れていることが重要です。

勾配消失問題と勾配爆発:
RNNにおいて頻繁に発生するこれらの問題の理解と、LSTMがこれらの問題にどのように対処するかの理解が必要です。

活性化関数:
シグモイド関数やハイパボリックタンジェント関数など、LSTMで使用される活性化関数についての知識が求められます。

2.1 クラス構造の理解

クラスは以下の3つのメソッドで構成されます

・初期化 (__init__メソッド)
・順伝播 (forwardメソッド)
・逆伝播 (backwardメソッド)

初期化 (__init__メソッド): このメソッドでは、LSTM層に必要なパラメータ（入力用の重みWx、隠れ状態用の重みWh、バイアスb）を初期化します。これらのパラメータはLSTMの動作に必須で、後続の順伝播と逆伝播で使用されます。

順伝播 (forwardメソッド): このメソッドは、入力x、前の隠れ状態h_prev、前のセル状態c_prevを受け取り、新しい隠れ状態h_nextと新しいセル状態c_nextを計算します。LSTMの特徴である4つのゲート（忘却ゲート、入力ゲート、セルゲート、出力ゲート）の動作を実装します。

逆伝播 (backwardメソッド): このメソッドでは、次のタイムステップからの隠れ状態とセル状態の勾配を受け取り、現在のタイムステップの勾配を計算します。これにより、重みとバイアスの勾配を更新し、学習を可能にします。

2.2 実際のクラス実装例

2.2.1 LSTM層の初期化メソッド

LSTM層の初期化メソッドでは、LSTM層の重みとバイアスを初期化し、後の学習プロセスで使用される勾配の配列も同様に初期化します。また、順伝播時に計算された中間データを保存するためのキャッシュ変数も定義しています。

import numpy as np

class LSTM:
    def __init__(self, Wx, Wh, b):
        '''
        LSTM層の初期化メソッド
        - Wx: 入力`x`に対する重み。形状は(D, 4*H)。Dは入力の特徴量の数、Hは隠れ状態のサイズ。
        - Wh: 隠れ状態`h`に対する重み。形状は(H, 4*H)。Hは隠れ状態のサイズ。
        - b: バイアス。形状は(4*H,)。4*HはLSTMの4つのゲート（忘却ゲート、入力ゲート、セルゲート、出力ゲート）用のサイズ。

        ここでは、これらの重みとバイアスを初期化し、勾配を格納するための配列も同様に初期化します。
        '''
        self.params = [Wx, Wh, b]
        self.grads = [np.zeros_like(Wx), np.zeros_like(Wh), np.zeros_like(b)]
        self.cache = None  # 順伝播時の中間データを保存するための変数

2.2.2 LSTM層の順伝播メソッド

このメソッドでは、入力xと前のタイムステップの隠れ状態h_prev、セル状態c_prevを受け取り、現在のタイムステップでの新しい隠れ状態h_nextとセル状態c_nextを計算します。

def forward(self, x, h_prev, c_prev):
    '''
    LSTM層の順伝播メソッド
    - x: 現在のタイムステップの入力。形状は(N, D)。Nはバッチサイズ、Dは入力の特徴量の数。
    - h_prev: 前のタイムステップの隠れ状態。形状は(N, H)。Hは隠れ状態のサイズ。
    - c_prev: 前のタイムステップのセル状態。形状は(N, H)。

    このメソッドでは、LSTMの4つのゲート（忘却ゲート、入力ゲート、セルゲート、出力ゲート）を計算し、
    新しいセル状態と隠れ状態を更新します。
    '''
    Wx, Wh, b = self.params
    N, H = h_prev.shape

    # 入力と重みの積とバイアスの和を計算
    A = np.dot(x, Wx) + np.dot(h_prev, Wh) + b

    # 各ゲートとセル状態候補の計算
    f = sigmoid(A[:, :H])       # 忘却ゲート
    g = np.tanh(A[:, H:2*H])    # 新しい情報
    i = sigmoid(A[:, 2*H:3*H])  # 入力ゲート
    o = sigmoid(A[:, 3*H:])     # 出力ゲート

    # セル状態の更新
    c_next = f * c_prev + g * i

    # 隠れ状態の更新
    h_next = o * np.tanh(c_next)

    self.cache = (x, h_prev, c_prev, i, f, g, o, c_next)
    return h_next, c_next

ここで、sigmoid関数とnp.tanh関数はそれぞれシグモイド関数とハイパボリックタンジェント関数を表します。これらの関数は、ゲートのアクティベーションとセル状態の更新に使用されます。また、このメソッドは新しい隠れ状態h_nextとセル状態c_nextを返します。これらは次のタイムステップの計算に使用されます。

2.2.3 LSTM層の逆伝播メソッド

LSTMクラスのbackwardメソッドは、逆伝播を通じて勾配を計算するために使用されます。このメソッドは、次のタイムステップからの隠れ状態とセル状態の勾配を受け取り、それらに基づいて現在のタイムステップの勾配を計算します。

def backward(self, dh_next, dc_next):
    '''
    LSTM層の逆伝播メソッド
    - dh_next: 次のタイムステップの隠れ状態の勾配。形状は(N, H)。
    - dc_next: 次のタイムステップのセル状態の勾配。形状は(N, H)。

    このメソッドでは、各ゲートとセル状態に関連する勾配を計算し、
    重みとバイアスの勾配を更新します。
    '''
    Wx, Wh, b = self.params
    x, h_prev, c_prev, i, f, g, o, c_next = self.cache

    # 各ゲートの勾配計算
    do = dh_next * np.tanh(c_next)
    dc = dc_next + (dh_next * o) * (1 - np.tanh(c_next) ** 2)
    di = dc * g
    df = dc * c_prev
    dg = dc * i

    # ゲートの逆伝播
    di *= i * (1 - i)
    df *= f * (1 - f)
    do *= o * (1 - o)
    dg *= (1 - g ** 2)

    # 全てのゲートを結合
    dA = np.hstack((df, dg, di, do))

    # 重みとバイアスの勾配計算
    dWh = np.dot(h_prev.T, dA)
    dWx = np.dot(x.T, dA)
    db = dA.sum(axis=0)

    # 入力に対する勾配計算
    dx = np.dot(dA, Wx.T)
    dh_prev = np.dot(dA, Wh.T)
    dc_prev = df * f

    # 勾配を保存
    self.grads[0][...] = dWx
    self.grads[1][...] = dWh
    self.grads[2][...] = db

    return dx, dh_prev, dc_prev

このメソッドでは、LSTMの各ゲートとセル状態の勾配が計算されます。これらの勾配は、LSTM層の重みとバイアスを更新するために使用されます。また、このメソッドは入力x、前の隠れ状態h_prev、前のセル状態c_prevに関する勾配も返します。これらは前のタイムステップの逆伝播計算に使用されます。

3.まとめ

この記事では、LSTMモデルの基本概念、利点、及びスクラッチ実装について詳しく解説しました。LSTMは、時系列データの長期依存性を捉えることに特化したニューラルネットワークであり、多くの実世界の問題に応用されています。

記事では、実装に必要な前提知識としてニューラルネットワークの基礎、バックプロパゲーション、行列演算、勾配の問題、活性化関数について説明し、LSTMクラスの構造と具体的な実装方法について詳細に解説しました。これにより、LSTMの理論的背景と実践的な応用の両方に対する理解が深まります。