いろんなモデル
MobileNet
モデルサイズが小さく計算量が少ない
通常のConvolutionの場合、入力チャンネル3から出力チャンネルを10とする場合、最終的にパラメータが270となるところ(3×3×3×10)、MobileNetで使われるDepthwise Separable Convolutionの場合は2段階のConvolutionを行ってパラメータ数を抑えることができる(表現力は下がる)
①depthwise convolution
3枚の入力チャネルに対して、3枚のフィルタのみを用意して、3枚の画像が生み出される(重みは3×3×3)
②pointwise convolution
上記画像に対して、チャンネル数10の画像を生み出すために、1×1×3のフィルタを10セット用意してチャンネル数10の画像を生み出す(重みは1×1×3×10)
結果としてチャンネル数は10となったものの、重みの数は57
DenseNet
ResNetに類似しているが、後に続くすべてのブロックにかかっていく(複数のショートカットコネクションがある)
▼成長率(Growth rate)
ハイパーパラメータkという、各ブロック毎にk個ずつチャネル数が増加していく
▼勾配消失の削減
▼特徴伝達の強化
Pix2Pix
スタイル変換を行う手法(生成モデル)
Conditional-GAN(学習する際にラベルも考慮)の一種
▼画像から画像を作成
inputで使った画像を生成器(ジェネレーター)を通した後にfakeとrealそれぞれのペアにして分類器(ディスクリミネータ)に掛ける
▼生成器(ジェネレーター)ではU-Netを使う
WaveNet
WaveNet:Convolutionを用いた音声生成(音声:時系列データ)
音声波形をx = {x₁、x₂、…、xt}とすると、
T
結合確率P(x) = ΠP(xt | x₁、x₂、…、xt-₁)
t=1
※後半部は、前の時点の全てのサンプルに条件づけられるという意味
▼Causal Convolution
▼Dilated Causal Convolution(WaveNetではこっちが使われる)
Dilation1は全てDilation2は2つに1つ、Dilation4は4つに1つ利用していく