伊藤 信之介

伊藤 信之介

最近の記事

第5章:次元削減データを圧縮する

今回は第5章の内容を解説します。 全ての内容は書いてないので、本気で勉強したい方は下記を購入してもらえればなと。 前章では特徴量選択の様々な手法を用いてデータセットの次元を削減する方法を取り上げました。特徴量選択に変わる次元削減の1つの方法は「特徴量抽出」です。本章ではデータセットの情報を要約するのに役立つ基本的な手法の3つを解説します。 5.1 主成分分析による教師なし次元削減 特徴量選択と同様に、特徴量抽出を利用すればデータセット内の特徴量の個数を減らす事ができます

    • Python機械学習プログラミング:第4章

      今回は「Python機械学習プログラミング」の第4章を内容を簡単に記載します。 表形式のデータで欠損値を特定する CSVファイルから単純なサンプルデータを作成します。 import pandas as pdimport numpy as npfrom io import StringIO# サンプルデータを作成csv_data = '''A,B,C,D 1.0,2.0,3.0,4.0 5.0,6.0,,8.0

      • Python機械学習プログラミング:第3章

        この記事では「Python機械学習プログラミング」の第3章の内容をざっくり記載します。 sklearnにすでに組み込まれているIrisデータセットの使う。特徴量「花びらの長さ・花びらの幅」を特徴行列Xにだし入試、対応する品種のクラスラベルをベクトル配列yに代入する。 from sklearn import datasetsimport numpy as np# Irisデータセットをロードiris = datasets.load_iris()# 3,4列目の特徴量を抽出X

        • Python 機械学習プログラミング:第2章

          今回は「Python 機械学習プログラミング:第2章」のコードを実装しました。 第2章:分類問題 単純な機械学習アルゴリズムの訓練この章では初期の機械学習アルゴリズムのうち、パーセプトロンとADALINEの説明とPythonで再現するコードが記載されてます。 パーセプトロンとADALINEについて詳しく知りたい方は下記の記事を参照して下さい。 それではコードを記載します。 パーセプトロンの実装コード import numpy as npclass Perceptro

          Python機械学習プログラミング:第1章

          下記の本を購入しました。 データサイエンティストを目指す者として、勉強したことをアウトプットしていこうと思います。 初回ということで第1章の内容をを噛み砕いて記載します。 第1章:「データから学習する能力」をコンピュータに与えるこの章では「機械学習の全体像」が説明されており、最初に3種類の機械学習についての解説です。 教師あり学習 教師なし学習 強化学習 それぞれ簡単に解説します。 1.教師あり学習 教師あり学習は「正解データ」を使って学習する方法です。その

          Python機械学習プログラミング:第1章

          前処理大全:第10章

          今回は第10章のコードをまとめて記載します。参考にして頂ければ嬉しいです。 *Pythonのみでのコードになります。 第10章:日時型10-1:日時型、日付型への変換 Q:日時型、日付型の変換 予約テーブルのreserve_datetimeを日時型と日付型に変換しましょう。また、checkin_dateとcheckin_timeを合わせて日時型に変換し、checkin_dateを日付型に変換しましょう。 # to_dadtetime関数で、datetime64[ns]

          前処理大全:第10章

          前処理大全:第9章

          今回は「前処理大全」の第9章を記載します。 *Pythonのみでのコードになります。 第9章:カテゴリ型9-1:カテゴリ型への変換 Q:カテゴリ型への変換 顧客テーブルの性別(sex)をブール型とカテゴリ型に変換しましょう # sexがmanの時にTRUEとするブール型を追加# このコードは、astype関数を利用しなくてもブール型に変換customer_tb[['sex_is_man']] = (customer_tb[['sex']] == 'man').asty

          前処理大全:第9章

          前処理大全:第6,7,8章

          今回も前処理大全のコードを記載します。6~8章までの内容をまとめてますので参考にして頂けたらと思います。 *Pythonのみでの記載になります。 第6章:生成6-1:アンダーサンプリングによる不均衡データの調整 本書では上記についてコードが紹介されてません。データの削減(重複データの削減等)ということで、生成とは少し違うのに加え、アンダーサンプリングを行うことは稀だそうです。 6-2:オーバーサンプリングにおける不均衡データの調整 Q:オーバーサンプリング 障害が起

          前処理大全:第6,7,8章

          前処理大全:第5章

          今回は前処理大全の第5章をまとめたコードを記載します。 *PythonのみのコードなのでRやSQLのコードは参照できません。 第5章:分割5-1:レコードデータにおけるモデル検証用のデータ分割 Q:交差検証 製造レコードのデータを用いて予測モデル構築のためのデータ分割。データの20%をホールドアウト検証用のテストデータにして、 残りのデータで交差数4の交差検証を行う。 from sklearn.model_selection import train_test_spl

          前処理大全:第5章

          前処理大全:第4章

          Q:予約テーブルとホテルテーブルを結合して宿泊人数が1人のビジネスホテルの予約レコードのみを取り出す # ホテルマスタの読み込みhotel_tb = pd.read_csv('hotel.csv', encoding = 'UTF-8')# reserve_tbとhotel_tbをhotel_idが等しいもの同士で内部結合# people_numが1かつis_businessがTrueのデータのみ抽出pd.merge(reserve_tb, hotel_tb, on = '

          前処理大全:第4章

          前処理大全:第3章

          前回に引き続き「前処理大全」の内容をまとめた記事です。今回は第3章をPythonで書いたので参考にして頂けたら嬉しいです。 前回の記事を読んでない方はそちらから見て頂ければなと。 第3章:集約3-1:データ数、種類数の算出 # groupby関数でreserve_idを集約単位に指定して、size関数でデータ数をカウント# groupby関数の集約で行番号(index)が飛び飛びになってるので、reset_index関数によって集約単位に指定したhotel_idを集約し

          前処理大全:第3章

          前処理大全:第1章~第2章

          この記事は書籍「前処理大全」の第1章と第2章のcodeをまとめたものです。 データサイエンス初学者で、データの前処理を学びたい人にとっての参考になればと思います。ちなみに環境は「ANACONDA」から「Jupter Notebook」を使ってます。簡単に環境構築できるので勉強用にはおすすめです。 尚、本書では「SQL・R・Python」それぞれで前処理のcodeが記載されてますが、本記事ではPythonでの前処理のみ記載してるのでご注意を。 第1章:前処理とはこの章では「

          前処理大全:第1章~第2章

          効果検証入門:感想

          今回は「効果検証入門」の第1章をを読んでの解説と感想です。 なるべく分かりやすい表現で記載します。 そもそも本書で説明したいこと一言で言うと「ビジネスにおいてとったアクション(施策)が売り上げやKPIに対してどの様な影響を与えたか統計的に因果関係を改名する」方法が記載されてます。 具体的な例を挙げると、「CMを作って、そのCMによって売り上げが伸びたかどうか因果関係を解明する」といった内容です。 因果関係、つまり「原因とそれよって生ずる結果の関係」です。 相関関係と似

          効果検証入門:感想

          「データ分析の力・因果関係に迫る思考法」を読んでの感想

          今回は「データ分析の力・因果関係に迫る思考法」の感想を記載します。 この本を一言で言うと「因果関係の超入門書」でした。 因果関係について数式を使わずに、 生活に馴染みのある例を使って説明されてます。 気になった方は購入して読んでみてください。 そもそも因果関係とは 一言で言うと「原因と結果の関係」です。 Aが原因のときBが変動する、と表現できます。 因果関係にある代表的な例としては「気温とアイスの売り上げ」です。 「気温が高くなる」が原因Aで、「アイスの売り上げ」

          「データ分析の力・因果関係に迫る思考法」を読んでの感想

          高卒からIT企業に転職したい人が気をつけるべきこと

          このブログを読んでくださってる方は下記のように思ってる人が多いと思います。 私は秋田の工業卒からIT企業に転職し、約4年ほどIT業界で働いてます。 今でこそ安定した精神で働いてますが、転職した当初は「IT業界に転職しなきゃ良かった」と思ってました。 転職して良かったとか良くなかったとかは突き詰めると個人の問題じゃんと思われるかも知れませんが、僕は下記のように思えます。 IT業界に関する事前知識がないと未経験の人は必ず辞めたくなります。 実際、同じ時期に転職したいわゆる

          高卒からIT企業に転職したい人が気をつけるべきこと

          伊藤信之介の自己紹介

          このブログを読んで頂いた方で、「この記事を書いてる人はどんな人なんだ?」と思った方に向けて自己紹介の記事を書きます。 興味のある方だけ見て頂ければと思います。 職歴2023/01/09現在、26歳で中野区に住んでる男です。 出身は秋田県で最新学歴は高卒(工業高校卒)で、職歴としては下記の順番です。 ①:エレベーターの保守会社(3年半) ②:IT会社(2年) ③:フリーター(1年)   ⇨ダーツBarの店員とスイミングスクールのインストラクター ④:IT会社(現在1年半)

          伊藤信之介の自己紹介