高信 真司

amptalkで機械学習エンジニア(VPoD)をやっております。 おもに機械学習に関する内容、統計検定1級の学習を目的に記事を書いていきます。

高信 真司

amptalkで機械学習エンジニア(VPoD)をやっております。 おもに機械学習に関する内容、統計検定1級の学習を目的に記事を書いていきます。

最近の記事

機械学習のバージョンコントロール

 機械学習のバージョンコントロールは、個人的にチャレンジングな領域であると思っております。機械学習モデルの変動要因にはそれを生成するためのコードに加えて、ハイパーパラメータやデータセットなど多くのものがあり、これらを統一的に管理するための標準的は方法は無く、データサイエンティストや機械学習エンジニアに任されていることも多いことでしょう。ゆえに、機械学習モデルとそれを生成したコードやデータセットとのリンクが失われてしまうことは少なくないのではと思っています(自分自身は多く経験し

    • 現代数理統計学の基礎の演習問題(2章問4):MSEとMAEの最小化

      現代数理統計学の基礎(久保川達也)の演習問題、2章問4を問いてみました。 問題 回答この問題を解釈すると、前者はMSE(Mean Squared Error)、後者はMAE(Mean Absolute Error)について、それぞれを最小化する推定量は何かというものです。これらの評価基準は機械学習でも頻繁に見られるものですが、そんな問題が何気なく出ていることが興味深いです。 まずはMSEですが、これはtで微分して0と置いてtについて解けばよいです。 実際に計算すると

      • 現代数理統計学の基礎の演習問題(2章問7)

        現代数理統計学の基礎(久保川達也)の演習問題、2章問7を問いてみました。 問題 式の解釈としては、期待値は累積分布関数からも計算できますよということです。 回答 参考現代数理統計学の基礎(久保川達也) 統計学・数理統計学の補足ページ

        • チェビシェフの不等式をわかりやすく

          前回のマルコフの不等式からの続きです。 マルコフの不等式は非負の確率変数に対するものでしたが、これを拡張したものがチェビシェフの不等式であり、非負の確率変数という制限が取り除かれています。 チェビシェフの不等式を導く マルコフの不等式からスタートします。 分母が大きくなれば推定する範囲がより狭くなりますが、これは線形的です。2次関数的に増加させることを考えて、すべてを2乗します。 ここでX^2は"raw moments"と呼ばれる確率変数のみのモーメントです。一方で

          マルコフの不等式をわかりやすく

          期待値から大きく外れるような観測値が得られることは、ほとんどあり得ないと直感的にわかりますが、マルコフの不等式はこれを数学的に記述したものになります。 マルコフの不等式を導くまずは以下のグラフを見てみます。 Xを非負の確率変数、cを非負の任意の定数とします。このとき破線(青色)と実線(赤色)は以下の式で表されます。 いわゆる、破線はステップ関数、実線は恒等関数です。 確率変数の和を考えたとき、破線は常に実線の下側にありますので p(i)をiが生起する確率とすると期待値

          マルコフの不等式をわかりやすく

          ガウス過程って結局なんなのか?

           正規分布からスタートしてガウス過程のおおよそを理解することを目的に記事を書きました。正規分布がどんな分布かなんとなく知っていれば理解ができると思います。 ガウス過程の定義 多変量正規分布に従う確率変数の集合です。  一応定義も書いておきましたが、定義だけではイメージがつきにくいとは思うので、詳しく見ていってみましょう。 まずは正規分布から ガウス過程はその名前が示す通りガウス分布(正規分布)と密接な関係にあります。そのため正規分布がどのようなものなのかを知ることは重要

          ガウス過程って結局なんなのか?

          noteにTeXで数式を書こう!

          機械学習や統計学に関する記事を書こうとしたときに、数式を書きたくなることがあります。qiitaやはてなブログであればTeXが標準で使えるので問題になることはないのですが、noteではTeXは使えません(標準装備されることを強く希望します!)。 私の場合は、ローカルでTeXを使って数式を書いた後に画像に変換し、それをnoteに貼っていました。この方法による問題点は、  ・TeXコードとnoteが直接関連づけられないため管理が煩雑  ・数式に誤りがあった際の修正が大変  ・そも

          noteにTeXで数式を書こう!

          保育ありのコワーキングスペースを利用する

           子どもの面倒を見ながら仕事(勉強)はなかなか難しい、というかはっきり言って無理だと思っています。まず集中はできませんし、作業が断続的になりますのでミスが発生したりストレスが増加、というのが私の経験です。  こんな中どうしても仕事を、という時には一時保育サービスがあります。  自治体の一時保育もありますが、事前予約が電話のみだったり手続き等が煩雑で利用がしにくい印象を持っています。  もっと使いやすいサービスがないかと探してみると、保育ありのコワーキングスペースがあるこ

          保育ありのコワーキングスペースを利用する

          今日の機械学習論文(2021年2月2日)

          2021年2月2日にarxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 時系列とイベントとの混合データにおける新しい予測手法の提案時間的なデータ(temporal data)には2種類のものがある。1つは時系列データで、たとえば温度や経済インデックスなどがある。他方はイベントデータであり、これにはECのトランザクションなどがある。現実世界にはこれらが混合したデータが多いが、現在のモデル化手法はこれらのどちらかに特化したものであり、2者

          今日の機械学習論文(2021年2月2日)

          今日の機械学習論文(2021年1月7日)

          2021年1月7日にarxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 時系列予測のために本当にDeep Learningが必要なのか?一般にDeep Learningは比較的シンプルな機械学習と比較して複雑になりすぎる傾向があるが、時系列予測において代替手段が無いか研究を行ったもの。本論では比較手法としてGBRT(Gradient Boosting Regression Tree)を採用して実験を行っている。結果として、適切な特徴抽

          今日の機械学習論文(2021年1月7日)

          今日の機械学習論文(2020年11月17日)

          本日(2020年11月17日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 説明可能な教師あり機械学習の調査論文説明可能な教師あり機械学習の定義および最近の方法論やアプローチについてレビューを行っている論文。

          今日の機械学習論文(2020年11月17日)

          今日の機械学習論文(2020年11月13日)

          本日(2020年11月13日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 クラスタリングアルゴリズム;Component-wise Peak-Finding (CPF)本アルゴリズムは以下の特徴を持つ。 ・混合データへ適用可能 ・外れ値と密度の低いデータが検出可能 ・アルゴリズム自身で正しいクラスター数が決定可能 ・計算効率性:O(n log n) 実装はPyPIで利用可能。

          今日の機械学習論文(2020年11月13日)

          今日の機械学習論文(2020年11月5日)

          本日(2020年11月5日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 Residual Likelihood Forests ブースティングとは異なるアンサンブル手法の提案。ブースティングは加法的であるが、本提案手法では乗法的に組み合わせれる条件付き尤度を生成する。条件付き尤度はグローバルロスを用いて順次最適が行われる。ブースティングと異なり、誤分類データに対する重み付け処理が不要になり、ランダムフォレストのようにモデルの

          今日の機械学習論文(2020年11月5日)

          今日の機械学習論文(2020年11月2日)

          本日(2020年11月2日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 時系列回帰の手法の比較帯水層の水位の予測問題に対して、古典的な統計手法(ARIMA)と機械学習(LSTM)のアプローチを比較している。実課題にそれぞれを適用し、超短所について議論している。 Deep Generative LDA生成的なモデルを用いてデータを変換し、潜在空間においてガウス仮定を保持することができるためLDAのように最尤法で推定することが可

          今日の機械学習論文(2020年11月2日)

          今日の機械学習論文(2020年10月30日)

          本日(2020年10月30日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 機械学習を用いたテストデータのサイズの予測手法テストデータの最小量を予測するための機械学習ベースの手法の提案。 Deep Forestsの利点の分析 Deep Forests(複数のRandom ForestをNeural Networkの階層にしたもの)の利点を理論的+数値的に分析している。多くのデータセットにおいて、2層のDeep Forestsは

          今日の機械学習論文(2020年10月30日)

          今日の機械学習論文(2020年10月29日)

          本日(2020年10月29日)arxivにアップされた統計学-機械学習分野の論文で、個人的に気になったものをまとめます。 分布シフトに対するモデルのロバスト性の評価フレームワーク機械学習モデルの実運用において、分布シフト(共変量シフト)のように入力の母集団の変化時の挙動の安全性を評価することは重要である。しかし、通常この評価を行うためには複数の独立したデータセットが必要であり、非常にコストがかかることが多い。本研究では、単一のデータセットを用いて、モデルの分布シフトに対する

          今日の機械学習論文(2020年10月29日)