トライアルデータの作成②

2022年1月14日 12:53

目的：実際のデータには、バラつきがあるはずなので、わざとかたよりのあるデータを作る

目標
１　変数を入力できるようにする
２　ランダムデータにばらつきをもたせる
　※実際の乱数は、統計学のようなもの（正規分布など）を使うらしいが、勉強が追いつかないので、自分で使うレベルのバラつきにする
３　トライアルデータ①をブラッシュアップ、最後にまとめる
４　変数名と関数名を同名にしないように、わかりやすい名前にする

プログラム実行順

１、numpy,pandas,string,randomをインポート

手順１のコード
書式　import　ライブラリ（モジュール名）
import numpy as np
import pandas as pd
import string
import random

内容
numpy：数値を扱う
pandas：データフレームを扱う
string：文字（アルファベット）を扱う
random：ランダムに要素や数字を取り出す関数を扱う

２、トライアルデータ①を修正

修正前
a = 7
c = 7
b = a+c
bangou = list(range(1,1+a))
moji_1 = list(string.ascii_uppercase[:a])
moji_2 = list(string.ascii_uppercase[a:b])

修正後
a = int(input('第１のグループ数>>>'))
c = int(input('第２のグループ数>>>'))
trial_count = int(input('サンプルデータ数>>>'))
b = a+c
bangou_1 = list(range(1,1+a))
bangou_2 = list(range(1,1+c))
moji_1 = list(string.ascii_uppercase[:a])
moji_2 = list(string.ascii_uppercase[a:b])

内容
変数a、ｃ、trial_countをinput（　）で入力する形に int(input( ))で入力したものを整数にする（文字列で入力しても整数になる）

３、乱数を作成

修正前
trial_count = 10
X = np.random.choice(moji_1, trial_count)
Y = np.random.choice(moji_2, trial_count)

修正後
ransu_1 = [random.randint(5,10) for i in range(a)]
print(ransu_1)
X = random.choices(moji_1,k=trial_count,weights = ransu_1)
Y = np.random.choice(moji_2, trial_count)

内容
random.randint()は、import random によって使えるモジュール
( )の整数をランダムで１つ取り出す
書式（文字をとりだしてリスト化）
　※この３つは標準ライブラリなので、import randomはいらない
　random.choice　　配列からランダムで要素をひとつ抽出
　random.choices 　リストから複数個（k＝）とりだしてリスト化
　　　　　　　　　重みつけ（weight）で出現率を変えられる
random.sample　　選択の重複をなくせる

乱数に5～10を設定したので最大で２倍の出現率の差がでる
random.randint()でシャッフルしているので、どの文字がでやすいかもランダムになっている

４，データフレームにしてエクセルに出力(変更なし)

変更なし
ind = np.arange(1,trial_count+1)
df = pd.DataFrame({'列1': X, '列2': Y}, index=ind)
df.index.name = 'インデックス'
print(df)
df.to_excel(r'エクセルのパス')

コード全体

import numpy as np     
import pandas as pd    
import string
import random

a = int(input('第１のグループ数>>>'))
c = int(input('第２のグループ数>>>'))
trial_count = int(input('サンプルデータ数>>>'))

b = a+c
bangou_1 = list(range(1,1+a))
bangou_2 = list(range(1,1+c))


moji_1 = list(string.ascii_uppercase[:a])
moji_2 = list(string.ascii_uppercase[a:b])

ransu_1 = [random.randint(5,10) for i in range(a)]

print(ransu_1)

#random.choicesは要素を複数個取り出してリストをつくる
#np.random.choiceは繰り返しリストまたは配列の要素をとりだす

X = random.choices(moji_1,k=trial_count,weights = ransu_1)
Y = np.random.choice(moji_2, trial_count)


ind = np.arange(1,trial_count+1)
df = pd.DataFrame({'列１': X, '列２': Y}, index=ind)
df.index.name = 'インデックス'
print(df)
df.to_excel(r'エクセルのパス')