田中

大学院生、普段はゲノム解析、趣味で野球のデータ分析

田中

大学院生、普段はゲノム解析、趣味で野球のデータ分析

最近の記事

2022年のプロ野球野手データをクラスタリングしたよ。

概要2022年度のプロ野球データから規定打席到達者の主成分分析およびクラスタリングを行ったよ。 データ 主成分分析 クラスタリング の流れで紹介します。 1. データいつものごとくNPB公式からシーズン成績を拝借しました。 2. 主成分分析データを見る 上のデータを使って主成分分析行います。 まずデータのインポート import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltim

    • 比例尺度を順序尺度に変換、色々な統計量をみる

      年齢のデータを20代、30代という風に分けたいとき 価格のデータを安い、普通、高いという風に分けたい時に使える #ageのヒストグラムを表示sns.distplot(titanic["Age"]) これを~20歳、20~40歳、40~60、60~というふうに分ける #レベル分けした関数を作るdef convert(i): a=0 if i<20: a="young" elif i>=20 and i<40: a="adult"

      • 散布図、箱ひげ図、ヒストグラムを用いて外れ値を見る

        外れ値は平均などの統計量に影響を与えてしまう。 外れ値を見るために散布図を見る #必要なライブラリのインポートimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinesns.set(style="darkgrid") 最後はseabornの図のスタイル #散布図sns.scatterplot(data=df,x="Age",y="Fare") 外

        • Kaggleの流れ2(欠損値の多いデータの扱い)

          データ(列)の欠損値が多いとseabornでヒストグラムを扱えない。 また、上位者は約20%の欠損値のある列は列ごと消している。 #データの読み込みtitanic=pd.read_csv("titanic_train.csv) #欠損値をカウント、%を表示する関数def null_count(df,v): total=df[v].isnull().sum() percent=total/len(df[v])*100 return pd.DataFram

        • 2022年のプロ野球野手データをクラスタリングしたよ。

        • 比例尺度を順序尺度に変換、色々な統計量をみる

        • 散布図、箱ひげ図、ヒストグラムを用いて外れ値を見る

        • Kaggleの流れ2(欠損値の多いデータの扱い)

          Kaggleの流れ(ヒートマップの作り方)

          1 データの概要をチェック コンペの目的、データの概要をチェック 2 各データの意味や値をチェック データは目的変数と関係あるか?しっかり分析する必要あるか?意味がわからないところは調べる データが多い場合ヒートマップを用いる ヒートマップの作り方(例としてKaggleのhome priceのtrain dataを用いた) #必要なライブラリのインポートimport pandas as pdimport seaborn as snsimport numpy as

          Kaggleの流れ(ヒートマップの作り方)

          MacBook Airのキーボード割り当てを変更した。

          こんにちは田中です。 僕は大学入った最初によく分からず生協パソコンを買ってしまった身ですが、長らく問題がなかったため「生協パソコンは情弱が買うもの」という言葉は間に受けていません。 しかし使用して4年も経つとボロが出てしまうもの。_(ろ)のキーが反応しなくなりました。 この無事だった期間が短いのか長いのかはわかりませんがこれを機にいろいろ調べたのでその備忘録として残したいと思います。 1  本当にキーボードが反応しているのかチェックまずこのキーは押されてる状態なの?と

          MacBook Airのキーボード割り当てを変更した。