FIREを機械学習的に考える
こんにちは。Junです。
最近の世界的なトレンドとしてFIREというものがあります。
FIREとは、Financial Independence, Retire Earlyの略で、日本語では経済的自立・早期リタイアなどと訳されたりします。
要するに、仕事をしなくても一生暮らせるような資産形成をして早めに引退するということです。
これについて、大学で機械学習を専攻する者として、機械学習的な視点で考えてみたいと思います。
(完全にネタです。ガバガバなロジック展開します。)
「機械学習的に考える」とは
一言に機械学習といってもいろいろな手法がありますが、その中には人間や動物の習性や仕組みに由来するものが数多く存在します。
例えば、遺伝的アルゴリズムは動物の進化の仕組みを再現した手法ですし、ディープラーニングは人間の脳を模した手法です。
今回は、このような人間の行動から生まれた機械学習手法を逆に利用して、人間の行動を機械学習で評価してやろうと思います。
今回はお金や時間という多くの人間が欲しがるものについて扱うので、"報酬"という概念が登場する強化学習を取り上げて考えたいと思います。
強化学習とは
Wikipediaによると、強化学習は次のように説明されています。(一部抜粋)
強化学習(きょうかがくしゅう、英: reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。
ざっくり言うと、強化学習では行動と報酬が定義され、より報酬が高くなるような行動を選択するように学習していくというものです。
具体的な例を説明します。
例えば、赤い扉の部屋か青い扉の部屋かの2択を何度も選ばなければならない状況を考えます。
最初のうちは何も分からないので適当に選ぶかと思いますが、繰り返すうちに赤い扉の部屋には美味しい食べ物が置いてあることが多いということに気づきます。
すると、多くの人がだんだんと赤い扉の部屋を選ぶようになるのではないでしょうか。
これが強化学習です。
割引
強化学習的に考えるうえでもう一つ知っておくべきことがあります。
それは割引という概念です。
強化学習では、行動を繰り返すほど報酬の価値が割り引かれます。
先程の例で考えると、食べられるものが同じなら扉を開ける回数は少ない方がいいよねってことです。
これも直感的に理解できますね。
FIREについて考える
それではFIREについて考えてみます。
FIREは早めにリタイアしてそれ以降を自由に生きようという考え方でした。
これを実現するために、貯金・投資・副業・起業などを若いうちから頑張るというのが今のトレンドです。
つまり多くの場合、FIREを目指す人はそうでない人と比較して若い頃は忙しいということです。
これは時間や浪費で得られる満足感などの若い頃の報酬が少ないと言い換えてもよさそうです。
これは強化学習における序盤のエージェントにはありえない考え方です。
FIREは人類が先祖の知恵を受け継いできて得た人生の最適解なのでしょうか…
機会があれば実際に学習させてみたいですね。
補足
冒頭に述べましたが、以上はガバガバなロジックです。どのあたりがガバガバか一応補足しておきます。
報酬の定義
まず、報酬の定義が曖昧です。
価値を感じるのが、自由なのか、興奮するような体験なのか、資産の大きさなのか…
実際にはこれらを複合的に考える必要がありそうです。
報酬の価値の時間変動
同じ報酬の場合、時間が経つほど(行動を繰り返すほど)価値が割り引かれるという話をしました。
しかし、実際には時間が経っても同じ報酬というのは少々無理があります。
例えば、20代のハワイ旅行と80代のハワイ旅行は同じでしょうか。
体力や気力を考慮すると同じとは言えそうにありません。
また、20代の頃に使う100万円と80代の頃に使う100万円は同じでしょうか。
金利や余命などのことを考えると明らかに前者の方が痛い出費です。
おわりに
通勤中あまりに暇だったのでノリで書きました。
最後まで読んでいただいた方、ありがとうございました。
この記事が気に入ったらサポートをしてみませんか?