botter記(22-04-28) 目指せ脱・統計初心者
今月はボットの実装にあまり時間を割けなかったのですが、手持ちのボットが全滅したときのことを考えてレンディングやFRボット系のスマートな構成などを考えていました。
分散化と自動化に注力して、手堅そうなところをなるべくたくさん見つけておきたいところです。なお手堅いというのはセキュリティというよりはバックにどこがついているかという点が大事なのではないかと思っています。世知辛い。
デスクに向かう時間はあまり取れませんでしたが、書籍を読み進めることはできたので、統計の初心者向けの本をいくつかあたっていました。本稿ではそのまとめをしておきたいと思います。
狙いとしてはある程度数学的な背景を抑えて、基本的なトピックを理解しておきたいというものでした。何かを作るにあたり、基礎の理論背景を把握しておくことでより強固な構造を追求できるのではないかと思うからです。
カテゴライズ
これまで数式を用いた理論的な書籍を集中的に読んだ経験があまりなかったのですが、今回脱初心者向けの書籍を読むにあたって一つのカテゴリ体系ができました。
あくまでどの傾向が強いかということなのですが、簡易的にマトリクスにしました。
見た通りのまとめなのですが、説明の細かさと、取り扱う話題の範囲に沿って区切ってあります。これらを簡単に説明します。
まずAですが、これはブルーバックスの高校数学でわかる--シリーズなどに代表される、話題を絞りじっくりと解説してくれる書籍となります。
Bは初心者が把握すべきトピックを一望できるタイプの書籍です。大学のテキストで扱われるような、やや硬派で網羅的な書籍を念頭に置いています。
CはA、Bとは一線を画し、論文のように狭い話題を深く掘り下げる内容のドキュメントとなります。
Dですが、これは問題集のようなものを想像していただけると良いのではないかと思います。解説は端的ですが広い範囲を扱うもので、O'ReillyのCookbookなども当てはまるかと思います。
さて、個人的な意見ですが、独学を志す初心者はまずAをたくさん読んでみることが大事なのではないか、というのが私なりの結論となります。Bのタイプに名著が多いようなのですが、いざ独学前提であたってみると思いのほかハードルが高いのではないかと思ったからです。
Bのような書籍は誰か相談できる人がいたり、一通りの知識がついた後に復習として読んでいくといった使い方が効率的なのではないかと考えています。
Dを利用して手を動かしたり知識を補完できると理想的で、最終的にはCのような書籍や論文から自分が利用できる情報を得られるようになることを目標としています。
読んだ本
① 経済数学の直観的方法 確率・統計編 (ブルーバックス)
これは完全にAに当てはまる本で、あまり統計の背景がない人には初手として大変おすすめです。特に正規分布についてとランダムウォークについての解説は非常にわかりやすく、数字を伴った理解を助けてくれます。
コラム的な話もいくらかあるので時には肩の力を抜きながら一読すると良いかと思います。また、内容に直接関わることではありませんが、著者の方はかなり文章の音感を気にされる方なのか、句読点の位置が心地よく非常にすらすらと読み進めることができます。
② 高校数学でわかる統計学 本格的に理解するために (ブルーバックス)
二冊目もブルーバックスから。こちらはややB寄りのAという感じで扱う話題は広く、ブルーバックスとしては数式が多い方かと思います。実は以前途中で挫折してしまったことがあるのですが、今回は①を読み終えた後で思考が整理されていたこと、そして単純にやる気があったので最後まで読み通すことができました。
とても味わいのある本で、今回数学的な背景を抑えて…という私個人の目的には最も適していた本だったかと思います。いくつか理解が及んでいない部分もあるので再読することになるでしょう。
①とは異なり、この本は数式を追うために項を行ったり来たりしなくてはならないので少し骨が折れますが、易しい文章で有名なコンセプトを解説してくださっており、とても勉強になりました。
③ プログラミングのための確率統計
これは文体は軽妙ですがBです。かなり広い話題を扱っています。どことなくベイズの香りが漂い、前半は確立統計の理論、後半は検定の話になります。
②と同じく数式が多めですが、独特な表現で直感的な理解を促してくださいます。そういった比喩や語りがはまる人にはとてもわかり易いのではないかと思います。カバーする範囲だけで言えば②と③はかなり重なっていますので、どちらか手に馴染む一方だけで良いかもしれません。
なおプログラミングのための…と銘打たれてはいますが基本的にはプログラミングはほぼ関係なく、章末の簡単な検算に使われている程度です。
④ 統計学入門 (基礎統計学Ⅰ)
これはBの本です。実はきっちりとは読了していません。というのもここまででだいぶトピックが重なっており、歯ごたえのある本でしたのでいったんお休みとさせていただいた次第です…。
中盤まで読み進めた感想としては、この本だけで独習の形で統計の基礎部分を攻略するのはそれなりに難易度が高いのではないかと思います。しかしたとえば統計検定を狙うような方や、元々学部レベルの知識があり、おさらいとして俯瞰したいのなら手に取るべき書籍なのではないかと思います。
⑤ 現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識
これは確立統計の本ではないのでおまけ的な扱いですが、検定について多く項が割かれているので合わせて本稿に残しておくことにしました。
この本はトピックは絞られているもののDです。数式の代わりにRのコードが掲載されているイメージです。プログラマで統計の細かい計算式まで別に知らなくても良い、という方は何を出来るかを追うためにはとても効率が良い本なのではないかと思います。Rなんて触ったことがないという方も、Rであるということは気にせずとも直感的に何をしているかわかるかと思いますので、ハウツー本のような意味合いで読むことができます。
著者の方が金融系専門ということで、扱う話題もbotterに取って馴染みやすいものですし、モデリング(たぶんこの本の中で一番難しい部分かと思います)などデータサイエンスへの橋渡しとして一読する価値があるのではないかと思います。
おわりに
私は初中級の間は同じようなレベルの本を何冊か集めてほぼ並行して読むタイプなのですが、今回は四冊ほど重ね合う形で読んでいました。最後の⑤だけは以前読んだもので、今回書き残すために駆け足で見直しました。
今回は①と②が私のレベルに適しており、ひとまず全くの初心者状態からは抜け出る事ができたのではないかと思います。また折を見て他の本も読み返したり、良さそうな書籍を見つけたらおさらいを兼ねて目を通してみたいと思います。