見出し画像

【#2】卒業研究の進捗報告

おはようございます。
データサイエンスを学んでいる、大学4年生のUKIです。

今日は、『卒業研究の進捗報告』というテーマでお話ししたいと思います。


ビットコインの価格を予測する

卒業研究の話を取り上げるのは今回が初めてなので、どんな研究をするのかを少しお話しさせてください。

僕は、「時系列データ解析研究室」という研究室に所属しています。そこで、ビットコインの価格という時系列データを用いて、卒業研究を行っていく予定です。ビットコインの価格に影響している要因を洗い出して、それぞれがどれだけ影響しているのかを明らかにしていきます。

このテーマを選んだ経緯などは、今回の本題ではないので、また後日改めてお話しします。
簡単に言うと、「ビットコイン周りの勉強をしたかった」といったところです。

行き詰まりながらも、順調です

そんなこんなで昨日、研究室の教授と卒業研究の相談をしてきました。

相談の内容は、現時点で気になっていることや行き詰まっていることについてです。具体的には、定常化の手順だったり、欠損値補完の話、研究全体を通しての工程の確認などです。

時系列データを解析する上で、時間の変化によって平均や分散が変化してしまう(非定常である)と、上手く予測モデルが構築できないことから、解析をする前に定常化(非定常のデータを定常にする処理)をする必要があります。

現時点で、最低限のデータ収集は終わっていて、これから解析の段階に移るところなのですが、この定常化の手順で少しつまづいていました。

今回、教授に相談したこととその回答を、簡単にまとめておきます。

・「トレンド」「季節性」「分散」をどの順番で処理していけばよいのか
→特に順番は決まっていない

・「トレンド」と「季節性」は言葉的には似ているが、どのような違いがあるのか
→「トレンド」は全体的な傾向(上昇傾向や下降傾向など)のことで、「季節性」は周期性のことである

・多変量の時系列データを用いる場合、説明変数も定常化しなければいけないのか
→その時点で未知の変数(予測したい日のデータなど)を説明変数として使う場合は、何かしら考慮する必要があるけど、既知のデータしか使わないのであれば、特に考慮する必要はない。

・定常性を確認する指標として、「ADF検定」「KPSS検定」「PP検定」などがあるが、どれを使えばよいか
→それぞれに大きな違いはないため、どれを使っても良い

ということでした。

このほかにも、欠損値補完の処理についてや学習に用いる区間と予測する区間をどうするかといった議論をしてきました。このあたりは今後も引き続き検討していくことなので、まだ答えは出ていません。

まだまだ分からないことだらけですが、この時期に研究テーマが決まっていて、必要なデータの収集がある程度終わっているのは相当速いらしく、今のところ順調に進んでいます。

これからやること

ここまでは、昨日、教授に相談したことを共有してきたので、今後やっていくことを共有したいと思います。

・定常化
・欠損値の補完
・変数の選択
・モデルの選択・構築
・モデルの評価
・結果の解釈

これが分析の大まかな流れになります。毎週火曜日に教授と話すことになったので、来週の火曜日(4/16)までにまた手を進めて、分からないところを洗い出して、教授との時間を有効活用しようと思います。

まとめ

最後まで読んでいただき、ありがとうございました。
今日は、卒業研究の進捗報告をさせていただきました。今後も活動や学び、考えていることを発信していくので、よろしくお願い致します。

また、X(旧:Twitter)でも発信していくので、フォローお願いします。

この記事が気に入ったらサポートをしてみませんか?