最近の記事
[Python]医療費データで新型コロナウイルス感染症の影響を可視化してみた:PCAの主成分座標平面上にコロナ禍の2020年度のデータを追加プロット
はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、協会けんぽの過去10年間、47都道府県別の医療費データを使って主成分分析(PCA)をしてみました。このときは、新型コロナウイルス感染症の影響が強く出ていると思われる2020年度(令和2年度)以降のデータをあえて除いて、2010年度(平成22年度)~2019年度(令和元年度)までの10年間のデータを使用しました。 今回は、そのときに除いたコロナ禍の2020年度のデータをPCAの主成分座標平面上に追加でプロットする
[Python]医療費データを160次元から2次元に圧縮してみた:PCA, MDS, t-SNE, UMAPによる次元削減
はじめにこんにちは、機械学習勉強中のあおじるです。 前回の記事では、医療費データ(160次元)を主成分分析(PCA)してみました。今回は、他の次元削減(次元圧縮)の手法を使って、160次元を2次元に圧縮してみました。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、前回の記事で作成した、全国健康保険協会(協会けんぽ)の加入者基本情報、医療費基本情報から作成した、10年間×47都道府県ごとの医療費の160次元のデータ