伝統的統計手法を用いた株式分析（ＧＡＦＡＭの例）とAIを用いた株価予測の「今の」限界と可能性について

2021年12月31日 21:07

大学院の授業で教わったことの学びを振り返り、特にこれからMBAに行くことを検討されている方にとって、統計やデータ分析についてこんな感じの学びがありますよという参考になればと。

伝統的統計手法を用いたGAFAM株式投資とAIによる株価予測の今、そしてこれからの自分の探求についてちょこっと書きます。

どんだけGAFAMが好きなんだよ～　という話はおいておいて。私の勉強材料でこんなことしてました程度でご笑覧ください。

１　はじめに

近年、AI（人口知能）を用いた市場予測に多くの関心が集まっている。その背景としてはビッグデータとして分析を可能とするデータが保存され活用されるようになってきたこと。またコンピュータの計算速度の向上と値段の低下により多くの人にとってパソコンレベルでビッグデータを用いた分析が可能となったことが考えられる。

特にAIの領域における、機械学習そして深層学習の世界の発展により人々の興味の関心であるお金にまつわる分野にも応用が始まり企業個人問わずに様々な成果が伝えられるようになった。

一方で、流行のバロメーターともいえるＧｏｏｇｌｅ検索において「株式/予測」が521０万件に対して、ＡＩを加えると　８９２万件、　機械学習では２７７万件程度と株式の予測に対してＡＩで１７％程、機械学習についてはわずか５％程のネット情報量であることからも予測の世界においてＡＩの活用はまだ発展途上かもしれない。

しかしながら技術革新が進む中でAIが今後様々な場所で活用されていくことに疑いを持つ人は少ないであろう。そしてこのまだ少ない株式の予測においても中心的な役割となっていくんだろうなとなんとなーく信じているではないだろうか。

今回「株価予測」をテーマとして個別銘柄の選択について大学や大学院の授業で一般的に用いられる、平均、分散、正規分布、四分位範囲という基本的な統計手法を用いて個別銘柄の戦略を立て、その後にAIに置き換わる未来について話をつなげてみることで今時点における限界と可能性について考えてみたい。

２　一般的な統計アプローチによる株式予測

GAFAMへの投資を考えるとき、統計的アプローチを用いた銘柄選択と人間的思考法での予測の一例を示す。データはGAFAMとNASDAQ総合の５年分の月次株価データを使用した（～2020/12）する。なお今回利用したチャートと計算はExploratoty、図表はエクセルを用いた。

２．１　検討対象銘柄の全体感の把握

対象となるGAFAM銘柄の月次の株価変化率を求め、ヒストグラムと箱ひげ図を図表１に示した。この二つの図から言えることは、全銘柄正規分布しているように見える。つまり、繰り返しある収益率を中心にして上下に動いているということである。またその中心がプラスの収益率であることから株価が全体としては上昇している銘柄であるともいえる。

ラインチャートでも認識は可能であるがヒストグラムと箱ひげ図による把握でリスクとなる変動幅が同時に確認できるため利便性は高い。またアップル（オレンジ色）が比較的高い収益率が中央値となっており次にアマゾン（青色）が続く。一歩で変化の幅がアマゾンは上下に大きくリスクが高い。最も興味が出たのはマイクロソフト（紫色）である。中央値がプラスでありかつ変化幅が小さく（つまりリスクが小さい）、インデクスとしてベンチマークとなるNASDAQ総合（茶色）よりもリスクがさらに低く収益率も高いようである。この段階で、５つの選択可能銘柄から２銘柄マイクロソフト、アップルが投資対象に入ってくる。

図表１：GAFAMのヒストグラムと箱ひげ図

２．２　実際の数値で仮説検証

リスクの小ささ、収益率の全体感を実際に確認する。これらの変化率が一時的なものでなく将来にもある程度つかえることを判断するためには、この収益率データが正規分布であることを確認する。正規分布であれば、大数の法則でもあきらかな通り長期的には母集団の平均つまりここでいう中央値付近に限りなく近づくことが考えられるからである。
銘柄の正規性を確認するため、各銘柄別に正規性の分析を行ったその結果は図表２の通り。

この時の帰無仮説は「この変数は正規分布をしている」である。有意確率であるP値が有意水準である0.05を下回る銘柄がないためこの変数は帰無仮説を棄却できない。よっていずれの銘柄も正規分布であるといえる。

図表２：正規性の分析結果

正規分布であることが確認できたので、次に四分位範囲を確認する。データはほとんど発生しないであろう範囲として５％と９５％範囲まで計算して図表３に示した。

特にマイクロソフト（MS）の中央値は、月次で２．６％なので年率に１２倍で単利換算すると３１．２％となり高い成績が期待できそうである。されに魅力的なことは四分位の２５％まで下がっても▲0.5%程度であり年率に換算すると▲６％程度までのリスクとなり対象銘柄でもっとも低い。　

一方でアップル社（AP）の中央値は４．８％ともっとも高く、収益性は魅力ではある。リスクの観点からは２５％四分位で▲２．２％となり幅が大きい。さらに可能性は低いとはいえ５％四分位範囲では▲１１．７％の落ち込みが示唆されておりリスクを回避したい場合にはあまり多くの投資はしにくい。そのためリスク回避を前提とするのであればナスダックより高い利益率と下方リスクが低いマイクロソフト（MS）の個別銘柄での購入がGAFAMの中ではより良いと考えられる。

そして投資の実行後においては、リスクの許容範囲としてこの四分位範囲を意識し月次で２．６%の上昇を目指しつつ▲０．５％までは通常起こりえる下方リスク範囲として容認し▲６．８％以上になる場合においてはめったに発生しない状況が発生したと考え売却を行う。

図表３：四分位範囲

　
特にこの低下局面で行う「損切り」については、プロスペクト理論やサンクコストの考え方をもって行うことが重要である。ここでいうサンクコストとは、株価が６．８％下がってしまったときに発生する。往々に投資家は下がってしまった同一株で取り返すことを考えてしまいズルズルと低下し塩漬けとなってしまう。

特にプロスペクト理論で表現すると▲２００万円の損から▲１００万円の損に「上昇」することの価値は、１００万円から２００万円に「上昇」することの心理的価値を上回ることによりとどまるからである。同じ１００万円の上昇価値であるならば、その時点で先の再計算結果からみた最良の銘柄にシフトすることが統計的には考えられる投資手法であるといえる。

３．AIの発展と株式予測への応用について

ここまで見てきた伝統的な統計手法での投資をAIで行うっていくとどうなるのか？

AIってなんかすごいよな、でもよくわからないよな。文系頭脳ながらAIを活用すれば株で儲けていけるんじゃないのかなとか思っていたりする人も私と同様に多いのではないでしょうか。

ウェルスナビさんのようにAIによる資産運用のアドバイスと運用をされている事例も出てきているのでもうAIで活用して儲ける世界がすぐそこまできている感じはする。

AIと聞くと、なんでも出来てしまいそうですが、まずはこのAIっていったいどんな発展の過程をたどったのかについて、時系列的な流れがわかりやすいため半導体メーカーNVIDIA社のサイトから年表を入手してみた。

AI（Artificial Intelligence:人口知能）という言葉は広く使われるようになったが大きくみると人口知能は、機械学習、そして深層学習と進化を遂げている。なかでも機械学習は１９８０年代に入ってから使われるようになってきたことがわかり２０１０年代にはいってから深層学習が活発になってきた。これは、半導体の処理が高速化され、画像認識のエンジン開発が進みより精度の高い処理が行えるようになったからであろう。そうか私ももう少し早く勉強しておけば機械学習（ML）や深層学習（DL）のエキスパートになれたのかも！とか思ってしまって。これら最近よくみるMLとDLもようはAIの一種だということは覚えておきたい。

さて、同サイトによると、「機械学習」とは、“世の中の特定の事象についてデータを解析し、その結果から学習して、判断や予測を行うためのアルゴリズムを使用する手法”だと述べられている。

つまり、機械学習では、特定のタスクを完了するための明確な手順に沿って手作業でルーチンワークをプログラムするのではなく、大量のデータとタスクを実行する方法を学習する能力を提供するアルゴリズムに基づいて、モデル作成の「トレーニング」が行われる。

これを株価予測という観点で考えてみると、AIによる予測（単純に買いなのか売りなのかを予測に基づく判断）を示すため、先に示したような基本的な統計作業をひとつずつプログラムするのではなく、大量の株価あるいはそれに関連するデータを使ってアルゴリズムを当てはめてもっとも確からしい結果を出すモデル作成のトレーニング（学習）を行うことといえる。つまり機械学習によるAIの株価予測の定義を簡単にすると次の手順と言い表せる。

手順１、「株式・株価の特徴」をつかみ「法則化」する
手順２、「法則」を「自動化」して繰り返し実行する

すなわち大量のデータから反復学習を繰り返し学習した結果を法則化（モデル化）して、新たな事象からこの先に起こりうる特徴をこの法則から見つけ出すのが最大のポイントである。これを株に置き換えると過去の株価やその他のデータから反復学習を繰り返しモデルを見つけ出して、今の状況から今後株価が上がるのか下がるのかを予測して先んじて投資実行すると言い換えることができる。

手順１については、先の統計的アプローチで示した全体感の把握の箇所においてAIはあるアルゴリズムで特徴の自動抽出を行いモデル化すると考えれば想像しやすいであろう。

また、手順２については、株式が下がるとなれば人間であればためらう損切を躊躇なく行い、再度このモデルを最新のデータに沿って学習し結果を返すことが行われる。

このことからも機械学習を株式市場での予測に応用し、コンピュータを活用することで証券市場全体にまで対象を拡張して行うことが容易に行うことが期待できそうである。

４．ＡＩによる株式市場への応用の課題

なんとなく成果が期待できそうなＡＩを活用した株価予測であるが、現在においてもまだまだ一部を除いて身近なところまで利用が進んでいるようには感じないのはなぜだろうか。

そもそも機械学習を行う好ましい前提はなんであろうか。私が愛用する統計ソフトExploratory社の代表を務める西田氏は、「AIが株式市場を打ち負かす日はまだやってこない」の中で株価予測の難しさの一つにサンプルデータの数について指摘する。（西田氏が非常にわかりやすくこの点をまとめてくれているのでリンクを貼るので読んでみてもらいたい。）

株式予測をするには株価データはあまりにも少ないという指摘である。機械学習のアルゴリズムにてトレーニングを行う際この特徴を判断するための大量のデータが必要となる。つまりデータのサンプルサイズが大きいことが求められる。

例えばこのGAFAMの５年間の株価分析でおこなったマイクロソフトの株価という観点では、５年間ｘ１２か月でデータ数は６０個程度となる。６０個の動きを今回正規分布であるという前提をおき今後発生する事象もその母集団の中にある前提で将来を予測していた。

しかしながらこの６０個というサンプル数で機械学習AIとしてアプローチするにはあまりにもサンプルが少なくないだろうか。仮にその時間軸を大きくしたとして１０年分でも１２０個程度である。９０年代に生まれたGAFAはまだ３０年にも満たない企業群であり歴史あるマイクロソフトであっても爆発的なヒットで今の基盤を作ったWindows９５から見ればまだ２５年程度である。つまり株価データというのはあまりにもサンプルサイズが少ない。

そのため特に過去の少ないサンプルから将来を見通したときに起こる変化を予測することは非常に困難でありそうだ。

５．AIはブラックボックスでの判断

もう一つの課題が、モデルのブラックボックス化である。先のnoteで示した統計的なアプローチによるマイクロソフト株への投資について、投資判断に至るまでの考えを流れに沿ってプログラムを行う。

するとそのプログラムの実行によりコンピュータは流れにそった答えであるマイクロソフト株への売り・買いの提案ないしは実行をしてくれる。

一方でＡＩについてはあるアルゴリズムで大量のデータから銘柄を選択してくる。つまり「AIはなぜこの銘柄を今選んだのだろう？」という疑問がわくのだ。高度なAIになればなるほど、分析などの過程が複雑になって、もはや人間には理解が難しくなる」と東京大学の和泉潔教授は言う。

AIを揶揄してこう呼ぶ人もいます。「今のＡＩはよく当たる占いみたいなもの」と手順を明確にプログラムされた旧来のコンピュータと異なり機械学習は自律的に学習し判断をします。

本noteの２章で伝統的な統計手法を用いたのは、投資の判断に至るまでの過程を論理的に説明できる人間の思考をあらわすためだったのです。（表現未熟でわかりにくかったらすみません！）こういった方法は優れているとまでは言わないが、検討の流れが客観的に理解できることには疑いはないであろう。

仮にこれがＡＩであったとしたらどうなるか、例えば今モデルの実行を行うと買いシグナルが発せられる。そして▲６．８％ほど動いた時に通知され自動的に損切を行うということだ。そしてこの運用に失敗した場合に問題とある。相場は常に動き歴史的には正規分布に近いとは言えコイントスと同じように「裏目、裏目、裏目、裏目」と連続して裏、つまり下落が続くこともあるのだ。

AIがこの上昇と下落の確率は理解しているだろう。しかしながら次の行動は何に戻づいて行われるのか理解ができないままとなる。これが個人レベルではなく企業レベルでの運用損をおこすとなれば”説明責任”を求められる経営環境においては厳しい結果となる。

”すみません、AIが決めたので”

サンプル数のみならずこの過程が見えないブラックボックス化によりAIで市場を予測することができてもその予測に対する信頼性がまだ担保されていないのが現在におけるAI予測の難しい点となっている。だってこの言い訳されてもこまってしまいますよね。

６．AI予測のカギは「因果関係」そしてXAIへ

与えた課題に対して、特徴を自動で抽出するのがAIの強みであることは納得がいく、一方で論理的な過程がブラックボックス化されそのマイクロソフト株をなぜ選んだのかを説明できない問題があることを明らかにした。AIのような賢いものが判断したから従えば良いという声もあるかもしれませんが、AIが自動運転における引き起こした交通事故があったとしたらどうなるでしょうか？突如ブレーキを解除して加速した。旧ブレーキをかけて後方から追突されたなどが起こる場合「なぜこのような事故がおきたのか」についての原因究明が難しくなる。このようにAIを実用化するための越えなければいけない課題は、この因果関係を明らかにすることにあるように思う。

７．説明可能なAI（XAI）の登場

今この因果関係を明らかにできるAI、すなわちXＡＩ（Explainable AI：ＸＡＩ）の議論が進められています。XAIによる因果関係が明確にされることでAIの活用がもう一段上のステージに上がり、この投資の予測のみなずビジネス分野でも活発に用いられることになると考えられる。

AIを活用する著名な運用会社Bridgewater のRay Dalio氏は「SYSTEMIZED AND COMPUTERIZED DECISION MAKING（２０１８/１１）」の中で因果関係の大切さについて次のように言う。

（単にAIで示されたものより）私自身は因果関係を深いレベルで理解することのほうが、理解できないAIのアルゴリズムに頼ることよりも、よりエキサイティングでリスクが低く、教育的な価値もあると思っているので、こちら側にひかれてしまっているということは否定できません。

この人間が意思決定において大切にしている「因果関係」を克服するためにAIそして、XAIへと続く進化は間違いなく進むように思う。

そしてこの因果関係をもとにAIの結果を語れるようになった時には多くの投資運用会社においても知的好奇心を満たしさらなるAIの本格的な株価予測に昇華されていくのではないでしょうか。

ちょうどこの書籍を購入したのでもう少しXAIの知見を高めてからこの続編を書いてみたい。

８．　さいごに

株価予測をAIで行う点について将来への期待を認めつつも、まだいくつかの課題があることを示した。将棋界ではAIを用いた勝率のシミュレーションが行われ、また将棋の藤井聡太氏がAIでの６億手の計算結果から最善手を見つけ出した結果を２３分で示したことが話題となった。

一方で羽生氏がAIで９４％での勝利を示しているときに投了し会場が驚く場面が出るなどAIと将棋での研究は非常に興味をもってみている。将棋の手を読むことは指数関数的に増えるパターンを把握する必要があり、６億手は将棋の世界ではおよそ２８手先のことのようだが藤井氏の神がかりな一手は認めるものの、このパターンで選び出された勝ち手をみつけられなかった羽生氏を責めることができるのであろうか。

ここがまさにブラックボックスの一例であり人間が見つけることが困難な手をAIは数億通りの中から短い時間で見つけることができるということ。

一方でそれはなぜそうなるのかを理解するのは困難なほど膨大な数からの抽出であるという点だ。藤井氏が天才的であることは疑いがないがコンピュータはこれを飽きることなく朝から晩まで繰り返し行えることは魅力的でありこの経験値がさらにＡＩ技術とその応用の機会を私たちに与えてくれるだろう。

コンピュータは損切りの例で述べたような人間のもつ弱さであるプロスペクト理論で説明されるような心理的な側面に左右されず判断を行い、人間の感情介入による思考低下や過度のリスクテイクを避けることが可能なことからＡＩで投資の勝率を高めてくれることを期待しているし、今後様々なところでAI活用が進むことが現実的なのだと考えるべきには疑いはないであろう。

先に述べたいくつかの限界の存在によりAIを否定するよりことよりも、より良く使う側にたって行動をおこすことがより現実的な最善手なのだとおもう。

本noteでの投稿を通じて、私自身は機械学習の中でも時系列予測に関心があることを確認できた。また投資家心理として行動経済学についても学習をするとさらに面白い考察ができそうである。

さてさて、２０２２年はアウトプットをnoteで行うことによるインプット量を増やしていきますよ！

長文お付き合いいただきありがとうございます。

この記事が気に入ったらサポートをしてみませんか？