あおじる

社会人です。趣味で機械学習を勉強しています。

あおじる

社会人です。趣味で機械学習を勉強しています。

最近の記事

[Python]健診データから時間と地域を同時に予測するモデルを作成してみた:Kerasによる深層学習モデルの作成

はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、160次元の医療費データを使って、時間(年度)と地域(都道府県)を予測するモデルを、深層学習ライブラリKerasによる深層学習(ディープラーニング)で作ってみました。 今回は、240次元の健診データで同様のことを試してみます。 言語はPython、環境はGoogle Colaboratoryを使用しました。 予測モデルの作成データ 以前の記事で作成したデータを用います。 # データimport pan

    • [Python]健診データを240次元から2次元に圧縮してみた:PCA, MDS, t-SNE, UMAPによる次元削減

      はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事では、次元削減(次元圧縮)の手法を使って医療費データ(160次元)を2次元に圧縮してみました。今回は、健診データ(240次元)について、同様に2次元に圧縮してみます。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、前回の記事で、全国健康保険協会(協会けんぽ)の生活習慣病予防健診の時系列データ「健診結果基本情報」から作成した、10年度×47都道府県別の健

      • [Python]健診データ240次元を主成分分析してみた

        はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、医療費データ(160次元)を主成分分析(PCA)してみました。今回は、健診データ(240次元)を主成分分析してみます。 言語はPython、環境はGoogle Colaboratoryを使用しました。 健診データの主成分分析1.データ データは、前回の記事で使用した、全国健康保険協会(協会けんぽ)の生活習慣病予防健診の結果の年度、都道府県、性、年齢階級別の時系列データ「健診結果基本情報」を用います。データ

        • [Python]過去11年分47都道府県別の健診結果データから地域差を可視化してみた:協会けんぽの「健診結果基本情報」

          はじめにこんにちは、機械学習勉強中のあおじるです。 以前、全国健康保険協会(協会けんぽ)の健診データを使った記事を書きましたが、もう少し詳細な健診結果の時系列データが掲載されていましたので使ってみました。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、全国健康保険協会(協会けんぽ)の生活習慣病予防健診の結果の年度、都道府県、性、年齢階級別の時系列データ「健診結果基本情報」を用います。データレイアウトはこちらです。

        • [Python]健診データから時間と地域を同時に予測するモデルを作成してみた:Kerasによる深層学習モデルの作成

        • [Python]健診データを240次元から2次元に圧縮してみた:PCA, MDS, t-SNE, UMAPによる次元削減

        • [Python]健診データ240次元を主成分分析してみた

        • [Python]過去11年分47都道府県別の健診結果データから地域差を可視化してみた:協会けんぽの「健診結果基本情報」

          [Python]医療費データ160次元をクラスター分析してみた:階層的クラスタリング

          はじめにこんにちは、機械学習勉強中のあおじるです。 今回は、以前の記事で使った医療費データ(160次元)を使ってクラスター分析をしてみます。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、以前の記事で作成した、全国健康保険協会(協会けんぽ)の加入者基本情報、医療費基本情報から作成した、10年間×47都道府県ごとの医療費の160次元のデータ(性別、年齢階級別の診療種別ごとの「医療費の3要素」)df_yt_C10_s

          [Python]医療費データ160次元をクラスター分析してみた:階層的クラスタリング

          [Python]医療費データ160次元を画像として表示して可視化してみた:10×16セルの画像表示

          はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、医療費データ(160次元)を次元削減の手法を使って2次元に圧縮してみました。 今回は、160次元のデータをそのまま(10×16セルの)画像として表示することで可視化してみたいと思います。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、以前の記事で作成した、全国健康保険協会(協会けんぽ)の加入者基本情報、医療費基本情報から作成した、10年間×47都道

          [Python]医療費データ160次元を画像として表示して可視化してみた:10×16セルの画像表示

          [Python]疾病分類別の医療費データを1904次元から2次元に圧縮してみた:PCA, UMAPによる次元削減

          はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、性別・年齢階級別の診療種別ごとの160次元の医療費データを次元削減(次元圧縮)の手法を使って2次元に圧縮してみました。 今回は、疾病分類も加えてさらに次元を上げた医療費データを2次元に圧縮してみます。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、前回の記事でも利用した全国健康保険協会(協会けんぽ)の加入者基本情報、医療費基本情報を使用します。

          [Python]疾病分類別の医療費データを1904次元から2次元に圧縮してみた:PCA, UMAPによる次元削減

          [Python]都道府県別の医療費と健康保険の保険料率の関係を可視化してみた

          はじめにこんにちは、機械学習勉強中のあおじるです。 医療費データを使っていくつか記事を書いてきました。 今回は、都道府県別の医療費が健康保険の都道府県単位保険料率にどう影響しているのか確認してみます。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータ医療費のデータ 医療費データとしては、これまでも使用してきた全国健康保険協会(協会けんぽ)の加入者基本情報、医療費基本情報を使います。 以前の記事で年度単位に集計したデータ d

          [Python]都道府県別の医療費と健康保険の保険料率の関係を可視化してみた

          [Python]健診データを次元削減してみた:PCAとUMAPによる次元削減

          はじめにこんにちは、機械学習勉強中のあおじるです。 これまで、全国健康保険協会(協会けんぽ)の医療費データを使っていくつか記事を書きました。 今回は、別のデータとして健診のデータを使ってみました。 データの取得全国健康保険協会(協会けんぽ)のホームページから健診データを取得します。 場所は、「統計情報」の「医療費分析」というページの中に年度ごとのデータがあります(年度によって資料の様式が違っていて探しにくいですが。)。 令和元年度~平成29年度(2019~2017年度)

          [Python]健診データを次元削減してみた:PCAとUMAPによる次元削減

          [Python]医療費データを160次元から2次元に圧縮してみた:UMAPによる次元削減(続き)

          はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事 で、医療費データ(160次元)をPCA, MDS, t-SNE, UMAPによって160次元から2次元に次元削減してみました。このときは年度集計したデータを使ったのですが、今回は月別データでUMAPによる次元削減をしてみました。医療費には季節変動があることが知られていますので、それが見られることを期待して行いました。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用する

          [Python]医療費データを160次元から2次元に圧縮してみた:UMAPによる次元削減(続き)

          [Python]医療費データで新型コロナウイルス感染症の影響を可視化してみた:PCAの主成分座標平面上にコロナ禍の2020年度のデータを追加プロット

          はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、協会けんぽの過去10年間、47都道府県別の医療費データを使って主成分分析(PCA)をしてみました。このときは、新型コロナウイルス感染症の影響が強く出ていると思われる2020年度(令和2年度)以降のデータをあえて除いて、2010年度(平成22年度)~2019年度(令和元年度)までの10年間のデータを使用しました。 今回は、そのときに除いたコロナ禍の2020年度のデータをPCAの主成分座標平面上に追加でプロットする

          [Python]医療費データで新型コロナウイルス感染症の影響を可視化してみた:PCAの主成分座標平面上にコロナ禍の2020年度のデータを追加プロット

          [Python]医療費データから時間と地域を同時に予測するモデルを作成してみた:Kerasによる深層学習モデルの作成

          はじめにこんにちは、機械学習勉強中のあおじるです。 以前の記事で、160次元の医療費データから次元削減の手法を使って特徴量抽出をしてみたところ、時間軸と地域性を表す成分がかなりきれいに抽出できました。この医療費データには地域差を表す情報がかなり含まれているようでした。 そこで今回は、同じデータを使って、時間(年度)と地域(都道府県)を予測するモデルを、深層学習ライブラリKerasによる深層学習(ディープラーニング)で作ってみました。 言語はPython、環境はGoogle

          [Python]医療費データから時間と地域を同時に予測するモデルを作成してみた:Kerasによる深層学習モデルの作成

          [Python]医療費データを主成分分析してみた(続き2)

          こんにちは。機械学習勉強中のあおじるです。 前回の記事で、協会けんぽの過去10年間、47都道府県別の医療費データの主成分分析(PCA)の結果を3次元プロットしました。 今回は3次元プロットを(あまり意味はないですが)アニメーションにして角度を変えながら見てみます。 今回も、Python、Google Colaboratoryを使用します。 主成分分析の結果を3Dアニメーション表示データは前回と同じで前々回に作成したデータを用います。 # データimport pandas

          [Python]医療費データを主成分分析してみた(続き2)

          [Python]医療費データを160次元から2次元に圧縮してみた:PCA, MDS, t-SNE, UMAPによる次元削減

          はじめにこんにちは、機械学習勉強中のあおじるです。 前回の記事では、医療費データ(160次元)を主成分分析(PCA)してみました。今回は、他の次元削減(次元圧縮)の手法を使って、160次元を2次元に圧縮してみました。 言語はPython、環境はGoogle Colaboratoryを使用しました。 使用するデータデータは、前回の記事で作成した、全国健康保険協会(協会けんぽ)の加入者基本情報、医療費基本情報から作成した、10年間×47都道府県ごとの医療費の160次元のデータ

          [Python]医療費データを160次元から2次元に圧縮してみた:PCA, MDS, t-SNE, UMAPによる次元削減

          [Python]医療費データを主成分分析してみた(続き)

          こんにちは。機械学習勉強中のあおじるです。 前回の記事で、協会けんぽの過去10年間、47都道府県別の医療費データを主成分分析(PCA)しました。今回はその続きです。 1.全国平均を主成分座標平面上にプロット 2.主成分分析の結果を3次元プロット してみます。 前回と同じく、Python、Google Colaboratoryを使用します。 1.全国平均を主成分座標平面上にプロット前回は、47都道府県別のデータを主成分分析(PCA)し、結果を主成分の座標平面上にプロットして

          [Python]医療費データを主成分分析してみた(続き)

          [Python]医療費データを主成分分析してみた

          はじめにこんにちは、機械学習を勉強中の社会人です。初めて投稿します。 医療費の地域間格差に関心があり、機械学習を利用して要因を探りたいと思っています。 今回は、医療費のデータをPCA(主成分分析)してみました。 医療費データの主成分分析手順 1.データの取得 2.データの加工 3.PCAの実行 4.結果の図示 5.年度単位でPCAの再実行 言語はPython、環境はGoogle Colaboratoryを使用しました。 1.データの取得 データ 医療費に関する手ごろな

          [Python]医療費データを主成分分析してみた