![見出し画像](https://assets.st-note.com/production/uploads/images/92559477/rectangle_large_type_2_7a7bab414635566f460c7f09acb67404.jpeg?width=1200)
2022年に統計学や機械学習について学習したことまとめ
突然、仕事でデータ分析がしたい!と目覚めて学習したことまとめです。
2022年4月から10月まで集中して学習した時系列のお話となります。
なお、この記事は「🎄GMOペパボエンジニア Advent Calendar 2022 」の4日目の記事です。私のこの一年はSRE+マネージメント+採用が流動的と変わった立場でした。その前提でお読みいただければと思います。
なぜ、統計学や機械学習の学習が必要なのか
去年から今年にかけて、チーム成長(ビルディング)を担当しました。
その成果や学習内容をこのnoteにまとめています。例えば、エンゲージメントサーベイやDevOpsの科学、チームトポロジーの学術視点をまとめる中で、自然と統計学の話を目にする日々でした。
また、弊社のデータ基盤チームとSREチームの連携に、データエンジニアが求められる基礎知識が必要と感じました。そもそも、ログ解析にデータ基盤の活用が必要不可欠ですし、BigQueryを筆頭に選択肢の幅が増えています。
DevOps同様にMLOpsなる言葉も出現したこの2,3年の流れもあり、データエンジニアの領域にソフトウェアエンジニアとの絡みを目にします。そのやりとりがわかる用語レベルの知識は当然必要です。
加えて、私はマネージメントや採用の立場も求められています。日々、数字を意識することが多く、今まで以上にデータ分析の力が判断軸に求めらました。この解釈の妥当性を得るには、機械学習の力も活用したい状態です。
その背景より、統計学だ機械学習だAIだ深層学習だと流行り言葉に追われる人状態でした。そこで、一度しっかりとした知識を身につけようと2022年の4月から10月の半年間集中したことを今回まとめます。
書籍から入る(4-6月)
まず、2016年に人工知能は人間を超えられるかを読んでおりディープラーニングの潮流だけは感じていました。あとは統計学が最強の学問であるや、統計学と名のつく書籍にRだのに手を出す程度までが学習前の状態です。
そこで、改めて初学者として仕切り直しです。まず、弊社のデータ基盤チームのオススメ書籍が社内で共有されており、その選書を参考にしました。
そのうちの一冊がAI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]。これを読みました。2020年12月発行の書籍。今時のデータドリブンの世界をざっくり知ることができます。
網羅系なので、何が起きていて何を始めればいいのか。また、どんな人材が必要で何が流行っているのかをざっくり知るには最適でした。業界を知ることができ、関連書籍の充実から他の書籍に手を出しやすかったです。
次に、同選書よりダメな統計学。統計学の抱える現実をユーモアたっぷりに知ることができました。科学者であっても間違えるから再現性がより求めれ時代なのだなと。この分野の大前提を知ることができました(P値!)。
3冊目にデータ解析の実務プロセス入門で実務を意識した体系的知識を吸収。キーワードを頭にインプット。本書は数学の話を抑えて統計における情報やデータに事実の捉え方を実務面視点で解説しているのが魅力的です。
あとは、以下のとおりです。このあたりは5,6月に集中して読み切りました。
仕上げに定番書籍。こちらは、何度も読み直す前提で手元においてます。このように、網羅的に似たような本を読むことで初学者として大事なキーワードがわかるようになり、全体感を学ぶことで俯瞰の視点を手に入れました。
なお、基礎学習の総復習にこちらの書籍「大学4年間の統計学が10時間でざっと学べる」がよくて、この内容がわかるようになっていました。
Pythonの機械学習ライブラリより学ぶ(4,5月)
同時期にPythonでスクレイピングすることにはまっていました。
作ったものは、勤怠管理システムに自動ログインして出欠を確認する単純なものです。マネジメント視点だと労務管理することもあり、この手のスキルも必要だなと感じます(なお、API使えなかったパターン)。
ちなみにこのモジュールが便利で大変助けられました。そしてPythonを使っていると、機械学習の話を自然と目にします。そこで、Python+機械学習ライブラリの相性の良さより、書籍学習と合わせて学びを深めていきました。
最短距離でゼロからしっかり学ぶ Python入門 必修編 〜プログラミングの基礎からエラー処理、テストコードの書き方まで。これで基礎固め。他にもシリーズありますが、これで十分でした。
次にPythonで機械学習をする環境となりますが、手元で試す程度なら、Jupyter Notebookでなくても今はGoogle Colaboratoryでもよさそうです。GitHub上でも拡張子ipynbで動いてるものを探してもってきやすいです。
この時に書籍やネット情報を元にnumpyやscikit-learn(サイキットラーン)を中心にコードをコピペしたり打ち込んだりするのですが、ちょうど機械学習の社内読書会がスタートしたので参加してみることにしました。
「仕事ではじめる機械学習 第2版」社内読書会に参加(6-8月)
一言で言うと、めちゃくちゃ難しかったです(理解にあと1年必要そう)。
この本のレベルのことを自然とわかるようになると、仕事で機械学習を活用しているレベルになるのだなと、データエンジニア・データサイエンティストの方の仕事っぷりを知ることができました。
読書会の方法は割愛(毎週一章。3ヶ月かけて抜粋。)しますが、この本のおかげで、Colabを活用してから読書会に参加したり、私が担当してまとめた章の理解を深めることができました。
「スケーラブルデータサイエンス」社内読書会に参加(8-11月)
次にこちらの本の社内読書会に参加。GCPよりの話になって、実務のイメージがより湧きました。BigQureyだけじゃなくてDataprocの話にVertexAIと最近の活用方法を知れてびっくりするばかりです(もちろんまだ難しい!)。
書籍の原本はすでに第二版が出ており、本書も読みながらサービスが変化していく様を体験することで、5年ほどの時代の流れと実務での活用方法の違いがわかって勉強になりました。
読書会はどちらも7割ほど参加することができました。なにより、データ基盤チームのメンバーとたくさんお話することができたのがうれしかったです。ビジネスサイドとして連携せねばの思いがより高まりました。
PDEの勉強をする(10月集中)
この流れで資格試験を取るぞ!と頑張りました。
GCP周りの活用にPDEことProfessional Data Engineerの知識が役立つと思いチャレンジ。1ヶ月集中して挑んだ結果は不合格(Apache Beam…)でしたが、実務でも使っているサービスの知識が得られた点は大きかったです。
特に実務で活かせる学びを得た試験範囲該当項目は以下のとおりです。
勉強時間は50時間ほど(10月はずっとこの勉強をしていた)で、実際にサービスを使いながらこの書籍の範囲は抑えることができました。特にVertexAIはお気に入りで最近関連書籍を購入していよいよ実務に活かしたいところ。
このとき、BIgQueryの演習が必要でしたので、スッキリわかるSQL入門 第3版 ドリル256問付き! をやりきって(環境用意せず簡単)、SQL 第2版 ゼロからはじめるデータベース操作を手にして演習。
これで、実務でもっとBigQueryを元にクエリを打ちたいなと思える状態にはなりました。
なお、6,7月ごろは他の資格試験をベースに基礎固めを継続。特に最近のトレンドがわかる深層学習教科書 ディープラーニング G検定は、英単語学習のようなつめこみができて辞書的に現在も用いています。
最終的に受けたい資格試験は統計検定2級です。こうなると、数学の知識がいよいよ必要なので、高校数学からやりなおすかと新たに学習し直すところです。特に機械学習モデルの書籍を読むと痛感します。
数理モデルの書籍をなんとなく読む(7,8月)
モデルの考えは分析において、必要な知識に思うので正面から挑んでいきたい課題です。モデルって何?って思いながら参考になった書籍は以下のとおりです。
天気予報や味見の例え話が上記の書籍に出てきて、イメージは掴めるのですが、実際の数式を理解しなければいけないなと感じる内容です。これは来年の課題。AutoMLが登場している時代だからこそ、知っておきたい範囲です。
この7,8月の夏には書籍と資格試験に触れていくのですが、学習効率においてYoutubeの充実さを目の当たりにするのでした。
初学者としてYoutubeを使う時代(7,8月)
今はびっくりするぐらいYoutubeの時代ですね。
ググれではなく動画という時代をこの一年は感じました。書籍の勉強よりYoutubeで検索すれば見つかるという状態でしたので、以下参考になったYoutubeチャンネルや動画を紹介します(やりきれたもの中心)。
【ベイズ統計その①】条件付き確率と Bayes の定理【時間の流れを意識せよ!】 #VRアカデミア #014 - YouTube
動画のいいところは、だめだ頭に入らないって時に、講義を探すことができるので活用していました。モチベーション維持にも有効で、動画ならぼーっとしても寝転んでもみれるとながら勉強に役立ちましたね。
今回はちゃんと見たやつの紹介ですが、全部やるんだじゃなくて、気になったわかってないところを見るのがベター。その上でヨビノリさんは数学モチベーションをあげてくれるので楽しいですね。
初学者から教科書を読めるように
半年ぐらいのんびり続けていると、全然わからないという状態から、ある程度教科書となる書籍が読めるようになってきました。
定番シリーズの上記あたりが頭に入るようになってきました。これよりレベルの高いものはいくつか読んでみましたが、高校数学の知識が必要というものばかりで次のステップはやっぱり数学の復習と再認識しています。
社会人のためのデータサイエンス入門をやりきれた(9,10月)
gaccoと総務省統計局がここ2,3年毎年無料で講座を開催。
それが、社会人のためのデータサイエンス演習。動画+スライド資料+テストが毎週のカリキュラムに組み込まれており、期限設定もあって継続と達成感を得やすかったです。
![](https://assets.st-note.com/img/1668308334299-UQZI4kZskg.png?width=1200)
エクセル前提。でも、Googleスプレッドシートでも似た関数表現を探したところサンプルデータより分析することができました。講座のテスト問題は、ヒストグラム作成や回帰分析ができないと解けない内容でした。
![](https://assets.st-note.com/img/1668308389301-7hlb5gBmpQ.png?width=1200)
![](https://assets.st-note.com/img/1671178365223-ew16fxI6Le.png?width=1200)
ちゃんと講座は満了。スプレッドシートでデータ解析やグラフ化(散布図やヒストグラム)は簡単にできるので、これは実務で積極的に活かしたいです。データ駆動思考のスタート地点には立てたかなと思いました。
なお、テキストはパワーポイント印刷っぽいですがこちらで販売中です。購入したので、表紙を今回のnoteの画像に使ってみました。復習用に活用しています。
まとめ
半年間集中して統計学や機械学習について勉強したことをまとめました。
初学者向けの書籍を複数読むことで、以前よりかは知識を体系的に学ぶことに成功。教科書が頭に入るようになり、次のステップとなる数学の勉強で数理モデルの活用や分析のイメージを実務ように固めたいです。
また、データ基盤チームの方がいるおかげで、学習方法のステップが踏みやすかったです。タイミング良くデータエンジニア周りの社内勉強会に2回も参加できたのは幸運でした。
この際にSQLやPythonの機械学習ライブラリに触れることができました。
資格試験勉強をすることで、GCPのサービス郡より実務のイメージが湧きました。実際に手を動かしましたし、チーム連携に必要な知識も身について、実際に実務に活かすことができています。
加えて、副次的効果ですがエンジニア採用担当にも手を挙げたので、結果、データサイエンティストの職種のイメージが具体的にわかるようになりました。マネジメントとして必要なデータ分析も実践できそうです。
これからも会社の外れ値として日々興味を持ったことと実務を結びつけて結果を残していきたいと思います。