時系列分析とARIMAモデル
時系列分析ってよく聞きますよね。聞きますか?
データ分析の一つのジャンルです。難しいとよく言われる分野の一つです。そのきっかけみたいなところをまとめてみたいと思います。
時系列分析とその重要性
時系列分析は、時間の順序で収集されたデータ、例えば株価、気温、月ごとの売上などを分析する方法です。これは、データのトレンドや季節性などのパターンを明らかにするため、また未来のデータを予測するために行われます。
対比として、例えば参加者50人の分析をしようと思うと、その50人のデータはどの順番に並べて分析しても問題ないのですが、50か月分のデータを分析する場合には、9月の後に7月のデータを見ると逆に問題がおき時間の経過順に並べて分析しないとおかしな結論を招くようにデータに流れがあるデータを分析するものです。
時系列データの主要な成分
トレンド: データの長期的な変動を示します。例えば、企業の売上が毎年2%増加している場合、これは上昇トレンドとして捉えられます。
季節性: 一年を通じての月ごとや、一日を通じての時間ごとなどの周期的な変動を示します。例えば、クリスマスシーズンの売上増加などがこれに該当します。
サイクル: 通常、季節性よりも長い期間での変動を示します。経済のブームと不況の周期などが例として挙げられます。
誤差: 上記三つの成分で説明できない、ランダムな変動を示します。
自己相関(自己共分散)の概念
自己相関とは、時系列データ内のある時点と、その前後の時点との間の相関を示すものです。自己共分散をそれぞれの標準偏差で割ったものなので、ほぼ同じもので、これは、過去のデータがどれくらい未来のデータに影響を与えるかを示しており、時系列分析の鍵となる概念の一つです。
定常性
多くの時系列分析の手法は、データが「定常性」という性質を持つことを前提としています。定常性は弱と強があり、一般的には弱定常性が成り立つ状態にデータを加工して時系列分析をするというのが基本方針となります。
(この前、時系列分析をサラッと実行して、このあたり忘れていました。)
弱定常性のあるデータとは、期間中の期待値が一定になり、自己共分散が期間の差だけで決まる状態のデータを指します。
ローデータがこの条件を成り立たせない場合も、前期間との差をとったり、対数化したりすることで定常的になることがあります。
この二つ。自己相関と定常性がベースとなる考え方でありまして、やっとこの前使用したARIMAモデルの話になります。
ARIMAモデルの導入
ARIMA(自己回帰統合移動平均)モデルは、時系列分析で非常に一般的に用いられるモデルの一つです。ARIMAモデルは、AR(自己回帰)、I(差分)、MA(移動平均)の三つの成分に基づいています。
AR(自己回帰): データの自己相関をモデリングします。過去のデータがどれくらい現在のデータに影響を与えるかを考慮する部分です。
MA(移動平均): データの誤差(ランダムな変動)をモデリングします。これにより、モデルの予測が実際のデータにどれくらいフィットしているかを調整することができます。
I(差分): データを定常にするための成分。非ステーショナリデータに差分を取ることで、ステーショナリデータを得ることができます。
ARIMAモデルを使用する際の主な課題は、最適なAR、I、MAのパラメータをどのように選択するかです(何世代前までを影響範囲とみなすのか)。これは、ACF(自己相関関数)やPACF(偏自己相関関数)のプロットを使用して、適切なパラメータを見つけることができるのですが、、、これはまた今度。。もう少し勉強して書きたいと思います。