滋賀大学大学院データサイエンス研究科合格後に行った事
こんにちは。Think / Luminです。
滋賀大学大学院データサイエンス研究科の早期入試で合格し、そこからもう入学直前になってきたので、合格後からやってきたことの内、データサイエンスに関係しそうなことをまとめておきます。
滋賀大の受験を目指されている方で、受験が終わったら、この資料を見返してもらえると良いかもしれません。
受験の際に行った取組や準備については、以下の記事に記載しております。滋賀大学大学院 DS研究科、ビジネスマンでも入りやすい学習プランで入学ができるので、オススメです。何か有ればTwitter(@Fetalia_lumin or @Lumin_VR)とかに連絡ください。
言いたいこと
長々と書いていますが、要点は以下の3つだと思っています。
高校数学、大学数学を学習するべき
Python、R、SQLをそれなりに使えるようになっておくべき
実践できる教材や取組、講座に参加するべき
トピック別学習
統計学のための数学に関する学習
特に自分自身、高校までは某全国模試で数学は毎度全国1位を取得していたりしていたので、非常に得意な分野でしたが、今触ってみるとヤバい。一般的な式以外の微積は忘れているし、微分方程式を解けない自分がいる。
と言うわけで、大学院の先輩方からオススメしていただいた本で再学習を進めております。先輩方からは「とにかく数学をもう一度学習しておいた方が良い」と強くオススメされました。
線形代数
なんやかんや学習を進めていると、線形代数の知識が圧倒的に不足していることが明らかに。大学でもやったはずですが、日常では全く使わないですからなぁ。懐かしのマセマと線形代数ノート術を使って勉強しています。
線形代数ノート術は手書きして解く流れを説明しているので結構オススメ。
数学ガールの秘密ノートは、行列自体が何をあらわすのか、何に使えるのかがわかりやすく説明されているので、学習する意味を再確認しやすかった。
同じような題材で、プログラミングのための線形代数(とはいえプログラミングと言うよりも「使うための線形代数」感)も直感でつかみ取るには良い本だと思いました。
統計モデリングに関する学習
そしてDSの必須スキル。モデルの選定とそれを利用してどのように課題を解決するかのあたりをつけられるか、そこから課題解決に持って行けるか。
復読本はアイシアさんのマスター本のシリーズ。いつもお世話になっています。
因果推論に関する学習
個人的には一番、データサイエンスを学習する上で、実証志向かつ実務に関わりがありそうで、地に足着けた知識・手段にしたい分野です。
なぜなら説明可能な形式で推論を展開しやすい所から、ビジネスとしてデータサイエンスを使いこなすには必須のスキルだと思っているからです。
一通り書籍を読み進めていますが、なかなか調査段階から考えられるプロジェクトは少ないため、座学から実践にどうやって移して昇華させるか悩ましい所。
プログラミング系
プログラミングに関しては、DSに必要となる最低限の事をまずは抑えておこうと学習を進めて行きました。そのため、基本的にはPythonが中心になります。
Python
Pythonの学習は大学院の先輩方から、演習を行うのではなく、実際のデータを用いて分析し、その流れで覚えていくことが近道を教わったため、ちょこちょことコンテストに参加したり、PBLや実際の業務で使いながら、学ぶ事にしました。
ライブラリとしては、以下のものはだいたい使えるようになった気がします。(もちろん分からない事は調べながらですが。)
DLフレームワークでは、tensorflowとどちらを学習しようかなーと悩んでいましたが、研究用ではPyTorchが多いので、こちらを学んでおきました。
R
Rについては正直まだまだ学習が足りなさすぎているなと感じています。しかしPythonと比べて、Stanも用いたベイズ統計モデリングができたり、統計処理を手軽に始めることができたりと、統計を主体とする研究には必須だと感じる限りです。
在学中に身につけるためにも、Pythonの学習と同じく、題材を引っ張って学習することを目指して、身につけて行こうと思います。
あとはtidyverseがデファクトスタンダートになっているらしいので、書籍も頂いた事ですし、使いこなせるようにしたいです。
SQL
SQLは昔PHPを書いていた名残で、ちょこちょこ触っていたので、記憶を呼び起こしながら学習を進めました。一応、実務的には自分が欲しい金融データのDBを構築してみたりとかはしました。
しかし、それほど大きなプロジェクトなどを動かしている分けでもなければ、個人的な利用などにとどまっているため、時間管理や効率性を意識した書き方などはできていない気がしています。
これからも、研究ベースではどうしても利用機会は正直少なそうですが、世の中のデータエンジニアリングには必須のスキルなのに、ローカルDBしか使ったことないため、BigQueryとか使えるようにならんとなぁ……
Signate Cloud(マナビDXクエストのおまけ)
マナビDXクエストのおまけでついてきたのですが、実はそれなりに高い講座だったらしいので、時間があるときにぼちぼち進めていました。
それこそ大学院入試が終わってすぐにこれに取組初め、Pythonの実際のユースケースに従った利用方法を習得することができたので、非常に良かった。
一方でローカルでの動作環境と違った所や、当て子になっている部分がわかりにくかったりして、Python写経を行う事と比べるとどちらが良いのかは悩ましい。
タダで使えるなら良いねと言うコンテンツでした。
資格試験・受講系
経産省 マナビDXクエスト 第一ターム PBL03
(2022年8月~11月)
旧AIQuestです。今年から幅を広げて、DXをテーマに行いました。第一タームでは、AIではなくDXをコンセプトとしたテーマを選択して、参加しました。
内容としては、自分自身がこれまで行ってきたコンサルティングに近い内容で、「データを使ってどのように業務改善を行うか、データアナリストとして事業をサポートする」を行う内容でした。
昨年度までに行われた実際の事業をベースにしたケーススタディだったため、非常に学習になりました。結果としては、データ分析・プレゼン共に上位 20%には入賞。プレゼンでは優秀賞(上位5%)を頂きました。
実装などは無く、PythonによるEDAが主体でしたが、ビジネスマンとしてデータサイエンスを使う上で非常にためになる学習機会を得ることができました。
経産省 マナビDXクエスト 第二ターム PBL05
(2022年11月~1月)
第二タームでは、テーブルデータに対するAI導入で、機械の稼働時間予測を行う話に挑戦。
基本的には頂いたテーブルデータとヒアリング内容を基に、データクレンジング、特徴量エンジニアリング、勾配ブースティング決定木でのモデル作成、アンサンブル学習と一連のAI開発のお手本のような流れで、学習を行う事ができました。
今回の取組の中で、プログラムは結構普通にできるのですが、それをどのように説明可能な形式に落とし込むか。Predの値が良いのは分かっているが、それが現時点での当てはまりに対してどのように影響するのか、実稼働における課題は何かなど、ビジネス上での不安を解決するための手法がまだまだ学習する必要がある事を実感しました。
結果としては、プレゼンは上位 20%には入賞。コードとプレゼン合わせた総合優秀賞(上位5%)を頂きました。
このタームは下記現場研修プログラムと一緒に受けていたため、半分手抜きのような形でもありましたが、AIプロジェクトの大まかな流れをつかみ取ることができ、非常に勉強になりました。
経産省 マナビDXクエスト 第二ターム 現場研修
(2022年11月~1月)
こちらは第一タームをGold修了した場合に参加できる、企業とともに現場でのAI導入などを学習するプログラムです。こちらも第二タームに実施されました。
マナビDXクエストは非常に知識として身につく部分が多い一方、座学によるAI研修だけでは、ビジネスの現場で活躍できるAI人材を育成できないことも分かりました。解くべき課題を作成しているのは主催者側で、ビジネス課題を発掘する能力はコンテストやユースケースのみで磨けていないのです。
そのため、ユースケースの学習もしつつ、実際の企業の課題も考える本プログラムにも参加することを決めました。内容は以下のような形式。
実際に活動を行った結果としては、企業が考えるAIの導入フェーズは、ユースケースに示されたような綺麗な形式ではなく、いびつかつ、従業員の利害関係が大前提にくるため、bestな方法を取ることが難しいと言うことを知ることができました。また、実際にAI導入の段階にいるかどうかなど、企業自体の現状把握を行わねばならないポイントも知ることができました。
人によっては、面白くないと思われる部分も多いかと思いますが、「できない事をもがき苦しむ社員」としてではなく、責任がない外部人材と言う特殊な目線で、できない事・理由を実感できる機会は、このプログラムの他はほとんど無いと言っても良いでしょう。
受講者も企業も、学習する立場として「教師に頼らない教育の手法を見いだす」ことができている非常に面白い取組でした。
Google データアナリティクス プロフェッショナル
(2022年12月~1月)
こちらは日本リスキリングコンソーシアムが提供していた無償のcousera講座。内容としてはデータアナリストとしての考え方や、リテラシー、事業プロセスなどの事業に直結する講座でした。
テクニカルな話では、SQLとR、Tableauの話が出てきましたが、総じて初級レベルでしたのでスムーズに乗り越えることができました。意外とBigQueryとかを学べたのはよかったです。
これらの内容は受講当時まで私がほとんど触ってこなかった内容でしたので、さわりをつかめて非常に良かったです。
統計調査士・専門統計調査士(2023年2月)
こちらについては趣味でとったといっても過言ではないです。まあせっかく時間あるんだからと、CBTでちゃちゃっと取ってきました。
詳しくは以下のリンクより。
実務系
某教育機関の教育データ分析(2022年9月~)
EDAがベースでしたが、点数評価されていない教育効果を測定するために、生徒自身の考える評定をどのように利用するかは非常に難しかったです。
調査票の設定と評価点の抽出については、十分に既出論文で示されているため、それを用いて検証を行うことなどは可能。しかし、各個人の基礎能力の向上故に上昇しているケースと、団体としての向上故に個人が相対的にできないように見えているケースなど、どのポジションから評価を決定するかが難しかったです(と言うかまだ検証途中)
こういうときこそ因果推論の回帰不連続デザインとかを使って、ある教育手法による効果測定を行えれば良いのですが、母数が少ない故、サンプルの偏りを排除仕切れなかったり、優秀だからその教育を受けているなど、そもそもの集団の性質の違いがあったりと、Uhmm。
どうやれば良いか、ご知見ある方教えて下さい。
株式データ分析・JQuants(2022年11月~)
また、自分の趣味でもある株式投資に関するデータ分析にも11月ごろから取り組んでました。これまでもそれなりに、金融データをPinescriptとかMQL4とかで分析していましたが、PythonやAIを用いて、実際にトレードに活かすために学習を進めたことはこれが初。
まだまだ学習途中ですが、エッジがちょっとでもでるような戦略を実装できる段階には来れたかなぁと思っています。ですが結局CVしても、一時期だったりしか勝てないので、根本的な考え方の変化は必要そうです。そんなにうまくは行きませんが楽しいです。
本番リリースでは、プランによってはこれまで取得ができなかったようなデータも取得できるとのことで、非常に楽しみです。
また現在(2023/03/07現在)マケデコ 若手の会にて「データ駆動型ファイナンス」と言う書籍の輪読会を行っているので、もしもご興味がある方は是非ご参加下さい。
バーチャル学会2022(2022年10月~)
所属団体、及び立命館大学の研究ユニットで検証を行っている題材から、「初等中等教育におけるVRSNS活用の保護者意識調査と課題検討」という名目で発表を行わせていただきました。
発表の詳細は下記Youtubeリンクから、閲覧いただく事ができます。
プレマスター教育・メンター教員決定(2022年12月~)
12月ごろにこちらの情報が共有されました。
学校特有のe-learning教材が有るのかなーと思っていたのですが、以下のサイトのURLを渡された感じです。これならもったいぶらず、合格したタイミングで添付してくれたらいいのに。
私自身は先輩方からプレマスターがどのようなものか聞いていたので、特に影響はありませんでしたが、普通に不親切だと思いました。内容は初級レベルですが、網羅的ですので自分が学習したいことを明確化されている方には良いコンテンツだと思いました。
私はとりあえず前半の
社会におけるデータ・AI利活用
データリテラシー
データ・AI利活用における留意事項
はすべて行って「4.オプション」については、気になる単元を終わらせたイメージです。
メンター教員については、気軽に相談できる方で良かったです。一番の問題である研究テーマを決めることが大変なポイントですので、頑張って行きたいです。
今年度の目標
こうやって見ると、以外と半年ですが盛りだくさんでしたね。
今年度の目標ですが、データサイエンスではコンペティションに参加して楽しむこと(numerai忘れてた)と、シストレを上達させる事です。がんばっていきたいです。
この記事が気に入ったらサポートをしてみませんか?