Python 学習データ・テストデータの分割の仕方(参考書籍『Pythonによるデータ分析の教科書』)
機械学習を行う前段階として学習データとテストデータの分割についての備忘録です。
書籍をもとに勉強した内容を残しています。
#pandasをインポート
import pandas as pd
#データを目的変数と説明変数に分割
df = pd.read_csv("03_iris.csv")
X = df[["PetalWidth","PetalLength","SepalWidth","SepalLength"]]
y = df["Name"]
#学習データとテストデータに分割 (テストデータ3割)
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(
X,y, test_size=0.3, random_state=123
)
#X_testのサイズ確認
print(X_test.shape)
45行4列のテストデータへ分割成功
(45, 4)
ちょっと長いけどしっかりと分割できている
#インデックス昇順
X_test.sort_index()
↑上記の方のページ、とても分かりやすいです!