へちやぼらけ(データサイエンスYouTuber)

「機械学習に関する動画を投稿してます」 へちやぼらけです。機械学習・統計学に関する動画を投稿してます。現役のデータサイエンティスト&YouTuber。基本、暇してます。何かあれば連絡下さい。

へちやぼらけ(データサイエンスYouTuber)

「機械学習に関する動画を投稿してます」 へちやぼらけです。機械学習・統計学に関する動画を投稿してます。現役のデータサイエンティスト&YouTuber。基本、暇してます。何かあれば連絡下さい。

最近の記事

【書評】データ分析者・AIエンジニアを目指す方へ、おすすめの本を紹介

滋賀大学データサイエンス学部の教授であられる河本薫先生著の『データ分析・AIを実務に活かす データドリブン思考』を読みました。河本先生と言えば、前職となる大阪ガスで長年データ分析業務に従事されていた方だそうで、データ分析を上手く活かすことが出来ない既存産業で早くからデータ活用を推進されてきた「データサイエンスのパイオニア的な人物」です。 この本の目次紹介序章 データ分析に成功して、ビジネスで失敗する理由 1章 データ分析をビジネスの成功につなげる 1-1 問題発見と課題設

    • 【XAI・説明可能なAI】SHAPも多重共線性には勝てない?という話【実例あり】

      こんにちは。横浜在住のデータサイエンティスト、へちやぼらけです。 名著『機械学習を解釈する技術』を読みました。近年、注目を浴びている「機械学習の説明可能性(XAI)」について解説をされている本です。  この本のタイトルにもなっている「機械学習を解釈する技術」とは、端的に説明すると『どの説明変数がどれくらい予測結果に寄与(影響)しているのか計算する手法』のことです。構築した機械学習モデルを実業務で利用し始めると、上司やら経営層から「AIがどうしてこんな予測結果を示したんだ!

      • データ分析の名著からエッセンスを抽出してみたけど、これ、データ分析業務のフレームワークになるんじゃね?

        データサイエンスを活かして会社で成果を上げるのは、ハッキリ言ってめちゃくちゃ難しい。 実際に、データサイエンティストとして働いてみると、分析以外のところで数多くの壁にぶち当たる。データの管理方法・経営層に向けたプレゼン・提案書の作成・部署間の利害関係の調整・外注の検討 などなど‥。これらの課題にぶち当たり、分析プロジェクト自体が失敗したという企業も多くあると聞く。 データ分析プロジェクトにチャレンジしたものの、上手くプロジェクトが回らずに苦い経験を味わったであろう「管理職

        • 【盲点!】相関が[無い]なら、因果が[無い]。この命題は真か偽か?

          お疲れ様です。東京で仕事をしているものです。へちやぼらけと申します。(統計学・機械学習に関する動画も投稿してます。YouTuberです。笑) 筆者の最近の興味事は「因果推論」。皆さんにも因果推論の魅力を知って欲しい!ということで、因果推論を解説する動画を投稿してみました! 〇「相関・因果・交絡因子」 今回は「因果推論」に関する記事です。突然ですが、「相関関係がある(強い)からと言って、因果関係があるとは限らない」という事実をご存知でしょうか・・・? 残念なことに「相関が

          DataRobotが普及しても「データサイエンティスト」が必要な5つの理由。

          この記事を開いた”あなた”なら、既にDataRobotはご存知かと思われます。DataRobotとは、『エクセル形式のデータをドラック&ドロップで読み込ませるだけで、自動で機械学習モデルを構築してくれる有料ソフト』です。 下の画像の様にDataRobot起動すると、以下の画面になります。この画面に対して、エクセルで集計したデータなどをドラック&ドロップすれば、自動で機械学習を実施してモデルを作ってくれるんです。 ともすると、「データサイエンティスト何ていらねーじゃん!」っ

          DataRobotが普及しても「データサイエンティスト」が必要な5つの理由。

          【テキスト×GPS】あなたが昨日見逃した”美味しいお店”をリストアップするプログラムを作った!

          お疲れ様です。東京で仕事をしているものです。へちやぼらけと申します。(統計学・機械学習に関する動画も投稿している、所謂YouTuberです。笑) ポケモンGO・ドラクエウォークのブームなどを目の当たりにしてると、「GPSを使った地理情報連動型アプリって、今後流行るんじゃね?」と密かに思ってます。また、Zenlyっていう「友達と位置情報を共有するSNSアプリ」もあったりするんですよね。 と、言うことで今回はテキストマイニング×GPS(地理データ)です。GPS情報から昨日あな

          【テキスト×GPS】あなたが昨日見逃した”美味しいお店”をリストアップするプログラムを作った!

          【検証】勾配決定木で『相関の強いデータ(多重共線性)』を使うと、線形回帰の様な不都合は起きるのか??

          お疲れ様です。東京で仕事をしているものです。へちやぼらけと申します。(統計学・機械学習に関する動画も投稿している、所謂YouTuberです。笑) 今回は、タイトルの通りです。勾配決定木で相関の強いデータ(多重共線性)を説明変数に使うと、線形回帰の様な「回帰係数が安定しない的」な不都合は起きるのか?? これについて、検証していきたいと思います。 始めに結果を言えば、不都合起きます。予測のタスクでは問題無いですが、変数重要度が”ブレブレ”になることがわかりました。なので、勾配

          【検証】勾配決定木で『相関の強いデータ(多重共線性)』を使うと、線形回帰の様な不都合は起きるのか??

          「コスト付き回帰分析」という新理論を提案。会社で難を逃れた話。

          お疲れ様です。東京で仕事をしているものです。へちやぼらけと申します。(統計学・機械学習に関する動画も投稿している、所謂YouTuberです。笑) データサイエンティストになると悲しいもので、正しい予測結果を出すだけが仕事じゃないんですね。結果ありきで、つじつまの合う分析をして下さい!見たいな注文も時たまある。 今回は、”つじつまの合う回帰分析”をご紹介します、僕が勝手に思いついたものですので手法に名前はありません。「コスト付き回帰分析」とでも呼んで下さい。同手法により、無

          「コスト付き回帰分析」という新理論を提案。会社で難を逃れた話。

          【新規性あり!】Lasso回帰を「適切な変数予測」に適用することができるのではないか?

          お疲れ様です。東京で仕事をしているものです。へちやぼらけと申します。(統計学・機械学習に関する動画も投稿している、所謂YouTuberです。笑) 仕事の関係でLasso回帰を扱っていたのですが、『lassoの変数選択を利用して、「適切な変数予測」をしてみたら面白そう!』と思ったので実際にやってみました。完全なるコーヒーブレイクの記事です。気軽な気持ちで読んでください。Lasso回帰を知らない方は以下の記事を参照。 ちなみにですが、線形重回帰は与えられたデータで目的変数y

          【新規性あり!】Lasso回帰を「適切な変数予測」に適用することができるのではないか?