最近の記事

kaggle:住宅価格の予測 ~ autoMLに挑戦

前回、重回帰分析を行った結果を kaggle に submit したら RMSE score が0.16338で、3530位でした。 で、世の中には、auto Machine Learning (autoML) という、魔法のようなツールがあるらしいんですよ。 なんでも、特徴量の選択や、重回帰分析やランダムフォレストといった回帰問題を解くための方法、更には特徴量の次元圧縮などと言った前処理を、自動的にやってくれる(時間はかかるけど)とのこと。 TPOTというツールがある

    • kaggle:住宅価格の予測(scikit-learn に突っ込む )~ Final

      前回の失敗を踏まえ、地域名を整理する。 Neighbors = df_train['Neighborhood'].value_counts()n_agg = 0n_total = len(df_train)for i in range(len(Neighbors)): n_agg += Neighbors[i] print('{} : {} : {} : {}: {:.2f}'.format(i, Neighbors.index[i], Neighbors[i],

      • kaggle:住宅価格の予測(scikit-learn に突っ込む )

        やっとこさ、Scikit Learn を用いた予測モデルの構築に入ります。 まずは、これから使うものを読み込んで、っと。 from sklearn.linear_model import LinearRegressionfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.ensemble import RandomForestRegressorfrom sklearn

        • kaggle:住宅価格の予測(Feature Engineering 3/3 )

          前回までの勉強で、以下の特徴量を予測に使うことになった。 機械学習に用いる特徴量 数値データ: LotArea: Lot size in square feet (対数) TotalBsmtSF: Total square feet of basement area (対数) GrLivArea: Above grade (ground) living area square feet(対数) YearBuilt: Original construction date Yr

        kaggle:住宅価格の予測 ~ autoMLに挑戦

          kaggle:住宅価格の予測(Feature Engineering 2/3 (予定))

          前回の記事に引き続き、特徴量(Feature)の中身を確認。 BedroomAbvGr : 地上階にある寝室の数。0-8のデータがあった。 寝室は3つというのが、一番のボリュームゾーンらしい。 counts = []for i in range(9): counts.append(len(df_train[df_train['BedroomAbvGr']==i]))plt.bar(range(9),counts, align='center')plt.xticks(r

          kaggle:住宅価格の予測(Feature Engineering 2/3 (予定))

          kaggle:住宅価格の予測(Feature Engineering 1/3 (予定))

          しばらく、データサイエンスの勉強から遠ざかっていたので、kaggleの人のnotebookを見ながら、写経&勉強。 備忘録を兼ねて、noteにしてみます。 データなどは、こちらから入手できます。 House Prices: Advanced Regression Techniques 参考にしたのは、こちらのnotebook Comprehensive data exploration with Python SalePriceの分布の確認まずはデータを読み込んでみるんです

          kaggle:住宅価格の予測(Feature Engineering 1/3 (予定))

          withingsで計測した体組成記録(8年分)を振り返る

          withings というフランスの会社があります。wi-fiに接続してデータを自動的にクラウドにupしてくれる体組成計などを作っているメーカーです。 その体組成計をかれこれ8年ほど使っているのですが、過去のデータをちゃんと調べたことがなかったので、データをダウンロードして、pythonで可視化してみました。 1.体重の変化。 2014年後半から、2015年末まで、約1年半の間に、体重が79kg→70kgと大幅に減っています。 2014年というと、心拍数を意識しながら運動す

          withingsで計測した体組成記録(8年分)を振り返る

          Factfulness 平均出産数と乳幼児死亡率の推移

          Gapminder 社が提供してくれるデータの使い方に慣れてきたので、いろんなグラフを作ってみています。 今回は、いくつかの国について「平均出産数」と「乳幼児死亡率」の関係を見てみようと思いました。 「乳幼児死亡率」とは、5歳までの子供が亡くなってしまう率のこと。 医療水準や衛生水準を見るときの、重要な指標、、、だそうです。 衛生環境悪かったら、小さい子供は重篤な病気にかかってしまうリスク高いですからね、なんとなく、分かります。 この図、3つ以上の国を描画すると、とても読み

          Factfulness 平均出産数と乳幼児死亡率の推移

          FACTFULNESS 女性一人あたり出産人数~平均寿命 チャート再現

          DataMixのブログ「チャート再現:書籍「FACTFULNESS(ファクトフルネス)」やTED talkで有名なハンス・ロスリング」の記事に inspire され、自分でもチャートを作ってみました。 チャートの味方ですが、〇の一つ一つが国を表しています。 X軸が、その国の女性一人あたりの出産数 Y軸が、平均寿命(その年に生まれた子供の平均余命) 〇の面積が、その国の人口(面積と人口が比例するよう、半径は人口の平方根に比例させています) これらのデータは、Factfulne

          FACTFULNESS 女性一人あたり出産人数~平均寿命 チャート再現

          FACTFULNESSのチャートを再現する、、前処理

          こちらのブログ(↓)に触発されて、私も FACTFULNESS で紹介されているチャートを自分で再現してみようと思い立ちました。 チャート再現:書籍「FACTFULNESS(ファクトフルネス)」やTED talkで有名なハンス・ロスリング gapminder のサイトに行けば、各種データが用意されていますが、(私が探した限り)どの国が、どの大陸に属しているかという対照表は用意されていないようです。 仕方ないので、自分で対照表を作りました。作り方は、備忘録を兼ねて下に書きま

          FACTFULNESSのチャートを再現する、、前処理

          python 2つの日付の期間を年単位で求める方法

           最初は、(dateB - dateA).years などと書くことで、簡単に計算できないかと、色々調べてみましたが、timedelta には .days というプロパティはあっても、.years というプロパティはないんですよね。  結局、次のように簡単な関数を自作することで、解決。  書いてみれば、簡単な話なんだけど、、、すぐには思い至らない、自分のような人が他にもいると思うので、ご参考まで。 import datetimedateA = datetime.date

          python 2つの日付の期間を年単位で求める方法