Twitterのテキストから株価を86.7%の精度で予測する研究(論文紹介)
僕が研究を始めるきっかけとなった論文です。投資を勉強する方なら一度は見ておいた方がいいです。
論文名「Twitter mood predicts the stock market」
https://arxiv.org/abs/1010.3003 こちらから論文見れます。
2011年と古い論文になります。株価の予測にtwitterから取得した人々の感情分析データが役立つのかを検証している論文です。
凄いところ
SNSやウェブ上の金融市場に関係のあるテキストデータから市場を予測する研究は以前からあったのですが市場と関係ないtwitter上の人の感情から予測しようという試みに感動しました。Johan Bollen, Huina Mao, Xiao-Jun Zengらはこの手法で過去の価格データのみで予測した精度より13%以上精度を改善させました。その精度はなんと86.7% これは驚愕ですね。
近年の企業の投資はこういった方法でなされてるのかもしれませんね。僕もこうゆう発想で相場に効く神ロジックを考えて見たいものです。
抽出するTweet
英文テキストデータを対象とします。
人々の感情を取得するので
"i feel", "i am feeling", "i'm feeling", "i dont feel", "I'm", "Im", "I am", " and "makes me"
の語句を含む明確に感情が表現されているもののみを取得する。
(2008/2/28から2008/12/19の間に約2.7M ユーザにより投稿された 9,853,498ツイート)
Tweetからの特徴量抽出方法
Opinion Finder(OF) ・・・ポジティブかネガティブかを判定する。ツイートのポジティブ/ネガティヴ比を計測する。OF辞書は過去の研究から最も実績のあるものを使用。
GPOMS・・・テキストを平穏、確信、警戒、活気、善意、幸福の6つの次元で気分を計測するツール。google社のツール。
OFは2値表現の簡略化された一次元モデルであるため人間の複雑な感情を表すためにGPOMSを用います。
これら二つのツールによる解析は同じ次元で比較、検討を加えるためz-scoreにより正規化する。
z=(x-xの平均)/xの標準偏差 (平均0 分散1のデータ)
twitterのテキスト情報の分析
期間中の各特徴量をプロットしました。day after selectionは大統領選挙の次の日です。この時期は株価も不安定ですがグラフを見るとtwitterの気分データにも変化がありますね。
thanksgivingは感謝祭です。ここも気分データに変化があります。このことからも気分データが社会的イベントを説明する情報を持つのが分かります。
Twitterの気分データとダウ平均株価の因果関係
因果関係の推定はGranjer 因果検定により行います。
granjer因果検定について説明します。
xとyという二つの変数が与えられた時yの未来の値を過去のyの値でのみ予測する自己回帰モデルと過去のyの値とxという新しい指標により予測するモデルの精度を比べてxとyにより予測した方が精度が高い場合、xはyに対してgranjer因果関係があるといいます。
下がダウ平均株価とtwitterの気分データとのgranjer因果関係の結果です。
各数値は気分データが株価に対してgranjer因果性を持たないという帰無仮説のもとp値を測定してます。この場合、黒字のp値が有意水準5%以下で帰無仮説が棄却されCalm(平穏)の指標が株価に対して説明力を持つことが示されてます。
最もp値が低く市場説明力を持ちそうなのがCalm(平穏)の指標ですね。以下のグラフに関係性を示します。
青いグラフがダウ平均株価、赤いグラフがCalmの値、一番上の図が両者を重ねた指標です。
かねがね一致しているが10/3のダウ平均株価の急増はFRBが銀行救済のため7000億円融資するという不測のニュースです。
この時X1の値は変化していないことから社会的気分によって不測のニュースを予測することは難しく、株式市場をモデリングするための重要な未知のファクタが別にあるということを示してます。次に実際にニューラルネットワークで予測して行きます。
自己組織化ファジーニューラルネットワーク(SOFNN)による予測
グレンジャー因果検定は線形回帰に基づいておるが気分データとDJIAの関係は非線形であるので非線形効果及び、DJIAの予測モデルに社会的な気分が寄与するかどうかを検証するために、自己組織化ファジィニューラルネットワーク(SOFNN)モデルを使います。
SOFNN : 学習過程において自分自身のニューロンを自己組織化できる、5層のニューラルネットワーク。
入力:過去3日分の[DJIA終値、気分データ]
出力:DJIAの予測値
GPOMSの平穏のみが有効であるが他のパラメータも組み合わせることで精度が上がる可能性があるため入力データは以下のようにします。
I0はDJIAのみを使って予測するもので他のモデルの評価に使用します。(ベースライン指標)
X1-7はGPOMSの気分データで順に「平穏、確信、警戒、活気、善意、幸福」を表す。
XOFはOFによるポジネガデータ
とします。
結果
となりました。
DJIAの過去データのみを使って予測したI0をI1が上まわっていることからX1、つまりGPOMSの「平穏」の値がDJIAの予測に役立つことが証明された。またMAPEが最も少なく相対誤差が少ない。このことからも市場説明力のある指標ということが分かります。
最後に
皆さんもSNSの指標を使って市場を予測してはいかがでしょうか。長尾教授のSNSの投資ツイートをするユーザーに絞って株価を予測する研究も面白いです。よければ見てください。
僕も仮想通貨の価格情報とTwitterのテキストデータ、RT、いいね、tweet数の観点から分析して見ましたのでそちらのnoteも見てもらえると幸いです。
この記事が気に入ったらサポートをしてみませんか?