![見出し画像](https://assets.st-note.com/production/uploads/images/171527145/rectangle_large_type_2_4344cf07999fda9b2f0b23e1ae874a0d.jpeg?width=1200)
【E.ディープラーニングの要素技術】AIを一言で伝える技術〜G検定完全対応〜
次の用語について、説明してください。
[STEP1] 一言で説明する。
[STEP2] 具体例を説明する。(可能なら3つ)
[STEP3] 用語を英語で言い換える。
[STEP4] 英語で一言で説明する。
[STEP5] 英語で具体例を説明する。(可能なら3つ)
E17-1 重み
キーワード
重み / Weight
定義(1行)
重みは、ニューラルネットワークの各接続に付与されるパラメータで、入力信号をどの程度反映するかを制御する。
Weights are the parameters assigned to each connection in a neural network, controlling how much each input signal contributes.
具体例(3つ)
全結合層で、入力ユニット数×出力ユニット数の行列として管理
畳み込み層で、フィルタ行列として小領域との積を計算
RNNの再帰構造で、現在状態と前状態を線形結合する係数
詳細な説明
重みは学習を通じて誤差逆伝播により更新され、最終的にネットワークの挙動を決定する鍵となる。数が多いほどモデルの表現力が上がる一方、過学習リスクも高まる。重みは通常、初期化戦略や正則化の対象として重要視される。
E17-2 線形関数
キーワード
線形関数 / Linear Function
定義(1行)
線形関数は、入力ベクトルに対して行列を掛け合わせ、バイアスを加えた形で出力を求める基本演算。
A linear function applies a matrix multiplication and adds a bias term to an input vector as the core operation.
具体例(3つ)
全結合層で inputs × weights + bias
回帰モデルで特徴と係数の積を合計して定数を足す
畳み込みフィルタも局所的な線形演算の積み重ね
詳細な説明
ニューラルネットワークの各層は、まず線形変換によって入力を合成し、続いて非線形活性化を行うことが多い。線形変換部分が学習されることで、入力データを適切な特徴空間へ写像する役割を果たす。
E18-1 Atrous Convolution
キーワード
Atrous Convolution
定義(1行)
Atrous Convolutionは、フィルタのサンプリング間隔を拡張して受容野を広げる畳み込み手法。
Atrous convolution extends the spacing between filter elements to enlarge the receptive field in convolution.
具体例(3つ)
Deeplabシリーズで空間的解像度を保ちながら畳み込み
Dilated Convolutionとも呼ばれ、オブジェクト検出のスケール対応
画像のダウンサンプリングを抑えつつ文脈を捉えるセグメンテーション
詳細な説明
通常の畳み込みと異なり、フィルタ要素間に隙間(dilation)を設けることで、同じ計算量で広い範囲の情報をカバーできる。特にセマンティックセグメンテーションで用いられ、詳細な特徴とグローバル文脈を両立させる。
E18-2 Depthwise Separable Convolution
キーワード
Depthwise Separable Convolution
定義(1行)
Depthwise Separable Convolutionは、チャンネルごとの空間畳み込み(Depthwise)とチャンネル間の結合(Pointwise)を分けて行う軽量化手法。
Depthwise separable convolution splits convolution into a spatial filter per channel (depthwise) followed by a pointwise channel combination, reducing computation.
具体例(3つ)
MobileNetやXceptionで計算量を大幅削減
各チャンネルごとに別々のフィルタを適用し、最後に1×1畳み込みで統合
スマホなどの低リソース環境で高精度を目指すネットワーク
詳細な説明
通常の畳み込みを深度方向と1×1畳み込みに分割することで、計算コストとパラメータ数を大幅に削減できる。モデルの軽量化に有効で、モバイル端末向け深層ネットワークで広く利用される。
E18-3 Dilation Convolution
キーワード
Dilation Convolution
定義(1行)
Dilation Convolutionは、フィルタ間隔を拡張してピクセルをスキップしながら畳み込みを行う手法で、Atrous Convolutionと同義。
Dilation convolution is a method of skipping pixels in the filter, equivalent to atrous convolution, to expand the receptive field.
具体例(3つ)
距離2のディレーションでフィルタ要素間に1ピクセルの隙
距離4でさらに広範囲の情報を一度に取得
Deeplab系の手法でマルチスケールの特徴を捉える
詳細な説明
Dilation(またはAtrous)はフィルタ要素間隔を空けることで、ダウンサンプリングせずに受容野を拡大できる。同じ解像度を保持しつつ広い文脈を捉えるメリットがある。
E18-4 カーネル
キーワード
カーネル / Kernel (Convolution Kernel)
定義(1行)
畳み込み層におけるカーネルは、画像などの入力にフィルタを適用する際の小さな重み行列。
In convolutional layers, a kernel is a small weight matrix used to filter inputs like images.
具体例(3つ)
3×3フィルタでエッジやコーナーを検出
5×5フィルタでより広い特徴を捉える
カラーチャンネルを含む場合は深さ方向にも重みを持つ
詳細な説明
カーネルは畳み込み演算の本質であり、入力の局所領域と積をとり、特徴を抽出する。カーネルサイズや数を変えることで、捉えたい特徴の種類や解像度を制御できる。
E18-5 ストライド
キーワード
ストライド / Stride
定義(1行)
ストライドは、畳み込みフィルタを入力上で移動させる際のピクセル刻み幅を指す。
Stride is the step size by which a convolution filter moves over the input data.
具体例(3つ)
ストライド2で畳み込み結果の出力マップを半分の解像度に
画像分類でサイズを縮小しながら深い特徴を得る
ストライドが大きいほど計算量を削減するが詳細情報が失われやすい
詳細な説明
ストライドが1ならフィルタを1ピクセルずつ移動し精細な特徴を取得。ストライド2以上にすると出力の空間サイズが小さくなり、ダウンサンプリング効果も得られる。
E18-6 畳み込み操作
キーワード
畳み込み操作 / Convolution Operation
定義(1行)
畳み込み操作は、フィルタを入力の局所領域にスライドさせ、積和演算を通して特徴を抽出するプロセス。
The convolution operation slides a filter over local regions of the input and performs weighted sum operations to extract features.
具体例(3つ)
3×3フィルタを画像全体に適用
音声波形に1次元畳み込みを行う
テキスト系列に1D畳み込みでn-gram的特徴を捉える
詳細な説明
畳み込みは、局所的なパターンを捉えるのに有効。画像処理だけでなく、時系列や文書などにも応用され、学習可能なフィルタを経由して階層的な特徴を学習する。
E18-7 畳み込みニューラルネットワーク (CNN)
キーワード
畳み込みニューラルネットワーク (CNN)
定義(1行)
CNNは、畳み込み層とプーリング層などを組み合わせ、画像・映像を中心としたパターン認識に高い性能を示すモデル。
A convolutional neural network combines convolutional and pooling layers, excelling at pattern recognition in images and videos.
具体例(3つ)
LeNetやAlexNetでの画像分類への初期成功
ResNetやVGGなど深いCNNで高精度な物体認識
セマンティックセグメンテーションや物体検出のベースモデル
詳細な説明
CNNは畳み込み層による局所特徴の抽出とプーリング層による空間次元縮小を繰り返し、最終的に全結合層や出力層で分類を行う。画像認識の分野で特に大きな成果を収め、自然言語や音声にも応用が広がる。
E18-8 特徴マップ
キーワード
特徴マップ / Feature Map
定義(1行)
特徴マップは、畳み込みや活性化を通じて得られる入力の局所特徴を空間的に保持した出力。
A feature map is the output of a convolution and activation, preserving spatially arranged local features extracted from the input.
具体例(3つ)
3×3フィルタを適用後にReLUを通した結果の2次元マップ
畳み込み層が複数出力チャンネル分の特徴マップを生成
中間層の特徴マップを可視化して学習経過を分析
詳細な説明
畳み込み層で生成される各チャネルは、ある視点のフィルタが入力に対して抽出したパターンを含む。これらの特徴マップを積み重ねてCNNはより複雑な特徴を組み合わせて認識を行う。
E18-9 パディング
キーワード
パディング / Padding
定義(1行)
パディングは、畳み込みやプーリング時に入力の端を保護するために、周囲に余白を追加する操作。
Padding adds a margin around the input during convolution or pooling to preserve boundary information.
具体例(3つ)
画像周囲をゼロで埋めて畳み込みの出力サイズを保つ
same paddingで出力解像度を入力と同じに維持
valid paddingで余白なし、サイズが縮む
詳細な説明
ゼロパディングなどによって、畳み込み時に端の情報が欠損しないようにする。sameかvalidかで最終出力サイズが変わり、ネットワーク設計に大きく影響する。
E18-10 フィルタ
キーワード
フィルタ / Filter
定義(1行)
フィルタは、畳み込みで用いられる重み行列で、特定の局所パターンを検出したり強調したりする。
A filter is the weight matrix used in convolution, designed to detect or highlight specific local patterns.
具体例(3つ)
エッジ検出用の垂直・水平フィルタ
高周波成分抽出のシャープ化フィルタ
CNNで学習される多様な抽象パターン
詳細な説明
フィルタは学習されるパラメータの集合で、初期値はランダム。学習が進むと画像のエッジやテクスチャなどの特徴を抽出するフィルタに自動的に最適化される。
E19-1 グループ正規化
キーワード
グループ正規化 / Group Normalization
定義(1行)
グループ正規化は、複数チャネルをいくつかのグループに分けて正規化する手法で、バッチサイズに依存しにくい。
Group normalization splits channels into groups and normalizes each group, reducing dependency on batch size.
具体例(3つ)
小規模バッチや1枚ずつ推論を行う場合
バッチ正規化が不安定な条件下で安定性を確保
CNNのチャネルをG個のグループに分割しそれぞれ正規化
詳細な説明
バッチ正規化は大きなバッチサイズ前提のため、少量バッチでは推定が不安定。グループ正規化は各チャネルグループで平均・分散を計算し、データ分布を安定化させる。
E19-2 バッチ正規化
キーワード
バッチ正規化 / Batch Normalization
定義(1行)
バッチ正規化は、ミニバッチ単位で平均と分散を正規化し、勾配消失や爆発を抑制し学習を安定化する手法。
Batch normalization normalizes activations per mini-batch by mean and variance, stabilizing learning and mitigating vanishing or exploding gradients.
具体例(3つ)
ResNetやVGGで学習の収束を大幅に加速
ミニバッチサイズが大きいほど統計が安定
推論時は学習で得た移動平均を使う
詳細な説明
バッチ正規化により各層の出力分布を一定に保ち、初期化への依存や学習率の調整が容易になる。最適化を高速化し深いネットワークを効果的に学習可能にした大きな進歩。
E19-3 レイヤー正規化
キーワード
レイヤー正規化 / Layer Normalization
定義(1行)
レイヤー正規化は、同一サンプル内のすべてのニューロンを対象に正規化し、RNNやTransformerで安定学習を実現する手法。
Layer normalization normalizes across all neurons in a single sample, stabilizing training in RNNs or Transformers.
具体例(3つ)
自然言語処理でのTransformerアーキテクチャに標準搭載
バッチサイズ1でも正常に動作
RNNの各タイムステップ出力を正規化
詳細な説明
レイヤー正規化は、サンプル間で変動の大きいバッチ正規化と異なり、各層ごとの特性だけで正規化する。シーケンシャルモデルやバッチサイズが小さい場合に有用。
E19-4 インスタンス正規化
キーワード
インスタンス正規化 / Instance Normalization
定義(1行)
インスタンス正規化は、各サンプルの各チャネルごとに平均・分散を正規化し、スタイル変換などで成果を示す手法。
Instance normalization normalizes each channel in a sample by its own mean and variance, effective in style transfer tasks.
具体例(3つ)
スタイル変換で画像のテクスチャを制御
ジェネレーティブモデルで安定化
バッチ間の統計を考慮せず個別に正規化
詳細な説明
インスタンス正規化は、一枚一枚の画像チャネルごとに正規化を行い、バッチ依存の問題を排除する。スタイル変換で画像の質感を自由にコントロールする際に有用。
E20-1 グローバルアベレージプーリング (GAP)
キーワード
グローバルアベレージプーリング (GAP)
定義(1行)
GAPは、畳み込み層出力の空間方向全体の平均を取り、チャネル方向だけを残すプーリング手法。
Global average pooling averages spatial dimensions in the convolution output, leaving only channel information.
具体例(3つ)
GoogLeNet(Inception)で最終分類に使われる
全結合層を置かずにチャネルベクトルだけで分類
軽量化とオーバーフィット低減を両立
詳細な説明
GAPは各チャネル内の全空間ピクセルの平均値を1スカラーに集約するため、パラメータ削減とシンプルな構造化を実現。分類器をコンパクトに設計しやすい。
E20-2 最大値プーリング
キーワード
最大値プーリング / Max Pooling
定義(1行)
最大値プーリングは、フィルタ領域内の最大値を代表値として取り、空間次元を縮小する手法。
Max pooling selects the maximum value within each local region to reduce the spatial dimension.
具体例(3つ)
2×2ウィンドウでストライド2なら出力サイズを1/4に
画像の最も顕著な特徴を強調
CNNで空間サイズを段階的に圧縮
詳細な説明
最大値プーリングは最も強い反応を保持するため、エッジなどの特徴の位置情報がやや失われるが、特徴の存在感を高めてロバストな認識に寄与する。
E20-3 不変性の獲得
キーワード
不変性の獲得 / Invariance
定義(1行)
プーリングや畳み込み構造により、画像の平行移動や小さな変化に対して出力が変わりにくくなる性質を不変性という。
Invariance refers to the property that outputs remain stable against shifts or small variations in input, often achieved by pooling or convolutions.
具体例(3つ)
畳み込み層で平行移動に対する局所的な不変性
プーリングで少々の位置ずれやノイズを吸収
データ拡張と合わせて頑強性をさらに強化
詳細な説明
CNNの設計は、不変性を確保することで、物体の位置や微細な変化に対して認識が崩れないようにする。プーリングや局所受容野がその主要な要因。
E20-4 平均値プーリング
キーワード
平均値プーリング / Average Pooling
定義(1行)
平均値プーリングは、フィルタ領域の画素を平均して空間次元を縮小し、情報を圧縮するプーリング手法。
Average pooling compresses spatial dimensions by taking the mean of pixels within each local filter region.
具体例(3つ)
2×2で画素を平均し出力解像度を半分に
特徴量をなめらかにまとめる効果
GAP(Global Average Pooling)は平均値プーリングの特別例
詳細な説明
最大値プーリングとは異なり、局所領域内の全画素情報をまんべんなく反映するのが特徴。極端な強度よりも平滑化された特徴ベクトルを提供する。
E21-1 Residual Network (ResNet)
キーワード
Residual Network (ResNet)
定義(1行)
ResNetは、スキップ結合を導入し、勾配消失を緩和して非常に深いネットワークを学習可能にしたCNNモデル。
ResNet introduces skip connections to mitigate vanishing gradients, enabling the training of very deep convolutional networks.
具体例(3つ)
ResNet-50やResNet-101など深層モデルで高精度を達成
スキップ結合が恒等マッピングを容易にし学習を安定化
多様な派生モデル(Pre-Activation ResNet, ResNeXtなど)
詳細な説明
ResNetの鍵は「ショートカット(スキップ)結合」を加えることで、ある層が恒等変換を学習しやすくし、層を積み重ねても性能が劣化しにくい。深度を大幅に深める発展を可能にした。
E22-1 Back Propbagation Through Time (BPTT)
キーワード
Back Propbagation Through Time (BPTT)
定義(1行)
BPTTは、RNNの時間方向に展開された構造に対して逆伝播を行い、各時刻の重みを更新するアルゴリズム。
BPTT unrolls an RNN over time and performs backpropagation through each timestep to update weights.
具体例(3つ)
シンプルRNNで数ステップ先まで展開
LSTMやGRUでも同様に誤差を時間方向に伝搬
長い系列では勾配消失や爆発が起きやすい
詳細な説明
RNNは同じ重みを各時刻で再利用するため、時間軸を連結した計算グラフに対して逆伝播する。系列が長すぎると勾配が急減または急増しやすく、対策が必要。
E22-2 Gated Recurrent Unit (GRU)
キーワード
Gated Recurrent Unit (GRU)
定義(1行)
GRUは、LSTMを簡略化しゲート構造を統合したRNNユニットで、長期依存を扱いつつ計算量を低減。
A GRU is an RNN unit that simplifies LSTM’s gated architecture, handling long-term dependencies with reduced computation.
具体例(3つ)
更新ゲートとリセットゲートの2つだけで構成
音声認識や機械翻訳でLSTMに匹敵する性能
モバイルや組み込みでも使いやすい軽量設計
詳細な説明
GRUは、LSTMの出力ゲートやセル状態を統合し、パラメータや計算を削減しながらも長期依存を保つ仕組み。多くのNLPタスクでLSTM同等以上の性能を示す場合がある。
E22-3 Long ShortTerm Memory (LSTM)
キーワード
Long ShortTerm Memory (LSTM)
定義(1行)
LSTMは、勾配消失を抑制するセル構造とゲート機構を備え、長期依存情報を保持しやすいRNNモデル。
An LSTM is an RNN model with cell states and gating mechanisms to alleviate vanishing gradients, retaining long-term dependencies.
具体例(3つ)
入力ゲート、出力ゲート、忘却ゲートで情報を選別
機械翻訳や時系列予測での高精度
テキスト生成で文脈を長く保持
詳細な説明
LSTMは単純RNNの勾配消失を克服するために提案され、セル状態が誤差を長期間保持できるよう設計されている。多くのNLPや音声処理タスクで標準となった。
E22-4 エルマンネットワーク
キーワード
エルマンネットワーク / Elman Network
定義(1行)
エルマンネットワークは、内部状態を次の入力へフィードバックする単純RNNの初期形態。
An Elman network is an early type of simple RNN that feeds back its hidden state to the next input.
具体例(3つ)
ジェフリー・エルマンが提案した基本RNN
部分的に時系列情報を保持
XOR問題など非線形タスクへの適用
詳細な説明
エルマンネットは、隠れ層の出力をコンテキストユニットとして保持し、次ステップで活性化に加える仕組み。勾配消失問題に対策はないが、RNNの理論的基礎を築いた。
E22-5 勾配消失問題
キーワード
勾配消失問題
定義(1行)
勾配消失問題は、RNNなどで長い系列を学習するとき勾配が極端に小さくなり、学習が進まない現象。
The vanishing gradient problem in RNNs occurs when gradients become extremely small over long sequences, hampering learning.
具体例(3つ)
時系列が数百ステップ以上あると初期入力の影響が消失
シグモイドやtanhの飽和領域で勾配が減衰
LSTMやGRUがこの問題を緩和
詳細な説明
RNNは時間方向へ連鎖的に勾配を伝播するため、多数ステップを経ると指数的に減衰する。ゲート付きRNNやスキップ接続などで対策を取る。
E22-6 勾配爆発問題
キーワード
勾配爆発問題
定義(1行)
勾配爆発問題は、RNNなどで逆伝播の勾配が異常に大きくなり、学習が不安定化または発散する現象。
The exploding gradient problem arises when gradients in RNNs grow extremely large, causing instability or divergence in training.
具体例(3つ)
長いシーケンスで急に誤差が大きく膨れ上がる
学習率を下げても発散するケース
勾配クリッピングで対策
詳細な説明
累積された勾配が連鎖的に増幅され、重みの更新が飛躍的に大きくなる。対策として勾配の上限をクリップして振動を抑えるのが一般的。
E22-7 教師強制
キーワード
教師強制 / Teacher Forcing
定義(1行)
教師強制は、RNNで出力を生成するとき、前の出力ではなく正解ラベルを次の時刻の入力として使う学習手法。
Teacher forcing is an RNN training strategy that uses ground truth labels instead of the model’s own previous output at each timestep.
具体例(3つ)
機械翻訳のSeq2Seqで単語生成時、正解単語を次の入力に
音声認識で音素列を参照しながら出力を学習
学習中は収束が早いが推論時とのギャップに注意
詳細な説明
教師強制により学習が安定しやすくなるが、推論時はモデルの自分の出力を使用するため分布のズレ(exposure bias)が発生する。対策としてスケジュールドサンプリングなどが提案されている。
E22-8 ゲート機構
キーワード
ゲート機構 / Gating Mechanism
定義(1行)
ゲート機構は、RNN内部で情報を選択的に通過・抑制するための仕組みで、長期依存を扱いやすくする。
A gating mechanism selectively allows or suppresses information flow within an RNN, facilitating handling of long-term dependencies.
具体例(3つ)
LSTMの忘却ゲートが不要情報をリセット
GRUの更新ゲートが新情報を取り入れ
アテンション機構もゲートに類似する考え方
詳細な説明
ゲートによって情報を制御することで、ネットワークは必要な情報を維持し不要なものを消去できる。勾配消失問題を軽減し、複雑な時系列依存をキャプチャする。
E22-9 双方向 RNN (Bidirectional RNN)
キーワード
双方向 RNN (Bidirectional RNN)
定義(1行)
双方向RNNは、系列を前方向と後方向の2方向から同時に処理し、全文脈を参照可能にするモデル。
A bidirectional RNN processes a sequence in both forward and backward directions, leveraging the entire context.
具体例(3つ)
文全体を見て各単語の意味を判定する(品詞タグ付けなど)
音声認識で前後文脈を同時考慮
BERTなどの双方向性にも通ずる考え方
詳細な説明
双方向RNNは過去と未来の情報を結合して特徴ベクトルを構築するため、単方向RNNよりも文脈把握が強力。ただしオンライン推論では将来の入力が使えないケースもあり得る。
E22-10 時系列データ
キーワード
時系列データ / Time Series Data
定義(1行)
時系列データは、連続した時間軸上で取得された観測値の系列で、RNNなどのシーケンシャルモデルで扱われる。
Time series data are sequential observations recorded over time, handled by RNNs or other sequential models.
具体例(3つ)
株価や為替レートの過去データ
気象情報(気温や降水量)の日別推移
IoTセンサーから継続的に送られる測定値
詳細な説明
時系列データは、自動相関や季節性など、通常の独立データとは異なる構造を持つ。RNNやARIMAなどで予測や異常検知に活用される。
E22-11 ジョルダンネットワーク
キーワード
ジョルダンネットワーク / Jordan Network
定義(1行)
ジョルダンネットワークは、出力層を次ステップの隠れ層へ再帰的に入力する初期RNN構造。
A Jordan network is an early RNN structure that feeds the output layer back into the hidden layer in subsequent timesteps.
具体例(3つ)
エルマンネットと同様に時系列依存を扱う手法
出力をコンテキストユニットへコピーし次の入力に反映
単純タスクでのシーケンス学習に適用
詳細な説明
ジョルダンネットは、エルマンネットが隠れ層の再帰を使うのに対し、出力層を再帰させる点が特徴。ただし勾配消失などは依然として問題となる。
E22-12 リカレントニューラルネットワーク (RNN)
キーワード
リカレントニューラルネットワーク (RNN)
定義(1行)
RNNは、隠れ層の状態を次のステップへ渡す再帰構造を持ち、系列データの依存関係を捉えるネットワーク。
An RNN is a network with a recurrent structure that passes hidden states across timesteps, capturing dependencies in sequential data.
具体例(3つ)
テキストや音声などの時系列入力を処理
単純RNNで短期依存を学習
LSTMやGRUなど拡張モデルもRNNの一種
詳細な説明
RNNは「過去の状態+現在の入力」を合成して次の状態を生成する仕組み。勾配消失・爆発問題があるため、LSTMやGRUなど改良版が主流だが、単純RNNはRNNの基本形である。
E23-1 Attention
キーワード
Attention
定義(1行)
Attentionは、入力系列の中で重要な部分に重みを割り振り、出力に活用するメカニズム。
Attention assigns weights to crucial parts of an input sequence, focusing on the most relevant information for output.
具体例(3つ)
機械翻訳のSeq2Seqで入力文の特定単語に注意
画像キャプション生成で注目領域を動的に選択
Transformersにおける自己注意で文脈を広く参照
詳細な説明
Attentionは従来のRNNやCNNが一律に処理していたところを、重要度に応じた重みで特徴を集約する手法。系列長が長くても必要箇所をピックアップでき、性能向上に大きく寄与する。
E23-2 Multi-Head Attention
キーワード
Multi-Head Attention
定義(1行)
Multi-Head Attentionは、複数の注意機構(ヘッド)を並行して走らせ、多様な視点で情報を統合するAttention拡張。
Multi-head attention runs multiple attention mechanisms (heads) in parallel, combining diverse perspectives in an enhanced attention approach.
具体例(3つ)
Transformerで複数頭が異なる位置や特徴パターンを捉える
自然言語処理で文脈の複数面を同時に参照
画像タスクで異なる範囲を別々のヘッドで学習
詳細な説明
ヘッドごとに異なる重みを学習し、多角的にキーとクエリの関連を測る。最終的に結合して情報を総合し、より強力な表現力を獲得する。
E23-3 Self-Attention
キーワード
Self-Attention
定義(1行)
Self-Attentionは、同じ系列内で各要素が互いに注意重みを計算し合い、文脈や依存関係を学習する手法。
Self-attention calculates attention weights among elements within the same sequence, learning contextual relationships and dependencies.
具体例(3つ)
文章内の単語同士で関連度を算出し、文脈を反映
Transformerの中心構造としてRNNなしでも長距離依存を扱う
画像パッチ同士の関係を捉えるViT(Vision Transformer)
詳細な説明
Self-Attentionはクエリ、キー、バリューすべてが同じ系列から生成され、各位置が他の位置との類似度に応じて重み付けされる。RNNのような順序的処理を経ずに文脈を取り入れる革新的手法。
E23-4 Seq2Seq
キーワード
Seq2Seq
定義(1行)
Seq2Seqは、可変長の入力系列を別の可変長系列へ変換するアーキテクチャで、エンコーダとデコーダから構成される。
Seq2Seq is an architecture that transforms a variable-length input sequence into another variable-length output sequence, consisting of an encoder and decoder.
具体例(3つ)
機械翻訳で英語文をフランス語文に変換
要約タスクで長文を短いサマリに
音声認識で波形を文字列へ転写
詳細な説明
Seq2Seqはエンコーダで入力を潜在表現に圧縮し、デコーダがその表現をもとに出力系列を生成する仕組み。Attentionにより長い系列でも文脈を失わずに変換しやすくなる。
E23-5 Source Target Attention
キーワード
Source Target Attention
定義(1行)
Source Target Attentionは、デコーダが生成時に入力系列(ソース)全体を参照し、適切な要素に注意を向ける仕組み。
Source-target attention allows the decoder to focus on relevant parts of the input (source) sequence while generating the output.
具体例(3つ)
翻訳で入力文の単語と出力単語を対応付け
音声認識で音声フレームに注意を振り分け文字列を生成
画像説明で画像特徴マップと単語出力を関連付け
詳細な説明
デコーダがソース文の各トークンに重みを割り当て、どの部分を注目するかを動的に決定する。Seq2Seqに必須のアテンションメカニズムの一部である。
E23-6 Transformer
キーワード
Transformer
定義(1行)
Transformerは、自己注意を主軸にRNNを用いず並列処理を可能にした画期的なNLPモデルアーキテクチャ。
A transformer is a groundbreaking NLP architecture that relies on self-attention and discards RNNs, enabling efficient parallel processing.
具体例(3つ)
機械翻訳で従来のSeq2Seq+Attentionを超える性能
BERTやGPTなど多くの派生モデル
長文でも計算が並列化しやすい
詳細な説明
Transformerはエンコーダとデコーダ双方でマルチヘッド自己注意を用い、位置情報を付与する。RNNのような逐次的処理を排し、大幅な並列化と高性能を実現、NLPの主流となっている。
E23-7 位置エンコーディング
キーワード
位置エンコーディング / Positional Encoding
定義(1行)
位置エンコーディングは、Transformerなどで系列内の単語順を表すために、各トークンへ追加する位置情報。
Positional encoding provides sequence order information to each token in models like Transformers.
具体例(3つ)
サイン・コサイン関数を用いた周期的表現
学習可能なパラメータとして位置ベクトルを持たせる手法
長い文に対して周期的に段階をまたいで重複しない情報を付与
詳細な説明
自己注意では単純に順序がないので、トークンに明示的な位置情報を埋め込む。通常は正弦波を使うが学習式もあり、どの位置にあるかモデルが把握できるようにする。
E23-8 キー
キーワード
キー / Key
定義(1行)
キーは、Attention機構で入力要素を識別するためのベクトルで、クエリとの内積によって関連度が計算される。
A key in attention mechanisms is a vector identifying each input element, used with the query’s dot product to measure relevance.
具体例(3つ)
Transformerで各単語がキーを持つ
クエリとキーの内積が類似度を表す
画像パッチにもキーを割り当てて重要度評価
詳細な説明
Attentionでは入力をクエリ、キー、バリューに変換。キーは「検索対象」、クエリは「検索要求」に相当し、内積値が高いペアほど注目度が高いとみなされる。
E23-9 クエリ
キーワード
クエリ / Query
定義(1行)
クエリは、Attention機構で、どの要素に注意を向けるかを決定する入力ベクトル。
A query in attention mechanisms is the input vector determining which elements to focus on.
具体例(3つ)
出力を生成する際、デコーダ側の隠れ状態がクエリ
自己注意では同一系列のベクトルをクエリとする
画像認識でパッチ同士の関連度を測る
詳細な説明
クエリは自分が何を探しているかを示し、キーと照合して重みを算出する。クエリによって異なる部分を強調できる柔軟な学習が可能。
E23-10 バリュー
キーワード
バリュー / Value
定義(1行)
バリューは、Attention機構でキーに対応する情報そのもので、クエリとキーの類似度に応じて重み付けされる。
A value in attention mechanisms is the actual content associated with a key, weighted by the similarity to the query.
具体例(3つ)
ソース文の単語埋め込みベクトルをバリューとする
画像パッチの特徴マップがバリュー
Weighted sumで最終アテンション出力を得る
詳細な説明
クエリとキーの内積スコアにソフトマックスをかけ、バリューを重み付き和してコンテキストベクトルを生成するのがAttentionの基本。バリューは実際の情報内容を表す。
E24-1 VQ-VAE・ info VAE・β-VAE
キーワード
VQ-VAE・ info VAE・β-VAE
定義(1行)
これらはオートエンコーダの派生手法で、離散潜在空間や情報制御、KLDペナルティ強度などを工夫し生成性能を向上させる。
These are variations of autoencoders that introduce discrete latent spaces, information constraints, or modified KLD penalties to improve generative performance.
具体例(3つ)
VQ-VAEで潜在ベクトルをクラスタ辞書へ量子化
β-VAEでβ係数を調整して潜在表現をスパース化
infoVAEで情報理論的な損失を追加
詳細な説明
VQ-VAEは離散コードブック、β-VAEはKLDにスカラーを掛けて表現独立性を強化、infoVAEはより有用な潜在表現獲得を狙う。いずれも生成モデルの多様な要望に対応する拡張版。
E24-2 次元削減
キーワード
次元削減 / Dimensionality Reduction
定義(1行)
オートエンコーダは、ボトルネック層を通じて高次元データを低次元に圧縮し、表現学習やノイズ除去に応用される。
An autoencoder reduces high-dimensional data by passing it through a bottleneck layer, used for representation learning or denoising.
具体例(3つ)
MNIST画像を数十次元に圧縮
ボトルネックの出力を可視化してクラスタ構造を把握
ノイズ入り画像から本来の特徴を復元
詳細な説明
オートエンコーダは入力→隠れ層(圧縮)→復元という構造で次元削減を学習的に行う。PCAに比べ非線形で表現力が高く、ノイズ除去などにも用いられる。
E24-3 事前学習
キーワード
事前学習 / Pretraining
定義(1行)
オートエンコーダや自己教師あり学習によって、汎用的な特徴表現を先に学習し、のちのタスクに流用する手法。
Pretraining learns a general feature representation, often via autoencoders or self-supervised tasks, for reuse in downstream tasks.
具体例(3つ)
オートエンコーダで学習した中間層を分類器に転移
大規模自己教師ありモデルで微調整を簡易化
自然言語処理でBERTの事前学習後に下流タスク
詳細な説明
事前学習は、広範なデータを用いて特徴抽出を習得し、目的タスクのために微調整する。少量データしかないタスクでも高い精度を得やすくなる。
E24-4 積層オートエンコーダ
キーワード
積層オートエンコーダ / Stacked Autoencoder
定義(1行)
積層オートエンコーダは、複数のオートエンコーダを順次学習し、深い表現を段階的に獲得する手法。
A stacked autoencoder trains multiple autoencoders in succession to build deeper representations step by step.
具体例(3つ)
第一層で基本特徴を学習し、圧縮後のコードを次のオートエンコーダに入力
MNISTを層ごとに特徴抽出してより高次のパターン
前段の重みを凍結または微調整しながら段階的学習
詳細な説明
深層学習が普及する前、貪欲層ごとの事前学習として積層オートエンコーダが使われた。各層のオートエンコーダが次の層への良い初期重みを提供し、深いネットワークの安定した学習に貢献。
E24-5 変分オートエンコーダ(VAE)
キーワード
変分オートエンコーダ(VAE)
定義(1行)
VAEは、潜在変数を確率的に扱い、分布からサンプリングして多様なサンプルを生成可能な生成モデル。
A variational autoencoder treats latent variables probabilistically, sampling from learned distributions to generate diverse samples.
具体例(3つ)
MNISTの数字を潜在空間にマッピングし、新しい数字を生成
顔画像のVAEで様々な人相を合成
β-VAEなど発展形でより解釈性の高い潜在表現
詳細な説明
VAEはエンコーダが潜在分布(平均と分散)を推定し、そこからサンプリングしてデコーダが復元する。KLダイバージェンス項を損失に含めることで潜在空間を正規分布に近づけ、スムーズな生成を可能にする。
E25-1 Contrast
キーワード
Contrast
定義(1行)
コントラスト変換は、画像の明るい部分と暗い部分の差を強調または抑制し、データ拡張に用いられる手法。
Contrast transformation enhances or reduces the difference between brighter and darker areas in an image for data augmentation.
具体例(3つ)
明るい領域をさらに明るく、暗部を暗くしてコントラスト増加
全体をフラットにしてコントラスト減少
OCRタスクで文字と背景のコントラストを変化させ学習
詳細な説明
コントラスト操作で、モデルが色の偏りやライティング条件に頑健になる。画像認識や物体検出の汎化性能を高める一般的なデータ拡張技術。
E25-2 Brightness
キーワード
Brightness
定義(1行)
輝度調整は、画像全体の明るさを均等に上げ下げするデータ拡張で、照明条件の変化に対応する。
Brightness adjustment uniformly increases or decreases an image’s overall lightness for data augmentation, handling varied lighting conditions.
具体例(3つ)
暗い部屋で撮影した画像と明るい屋外を再現
スマホ撮影の露出違いに対応
屋内外問わず適応力を高める
詳細な説明
モデルが異なる露光環境に対してもロバストになるよう、強制的に輝度を変化させて学習。コントラストとは異なり全体が一様に変化する。
E25-3 Crop
キーワード
Crop
定義(1行)
クロップは、画像の一部領域を切り出し、学習データを多様化するテクニック。
Cropping extracts a subregion of an image, diversifying the training dataset.
具体例(3つ)
ランダムに一部を切り取り拡大して学習に使用
中心クロップで余計な周辺部を排除
物体が画面端に寄った状況にも対応
詳細な説明
クロップは位置やサイズをランダムに変えることで、位置ずれやサイズ変動に対する認識の頑健性を高める。リサイズやパディングと組み合わせて用いられる。
E25-4 CutMix
キーワード
CutMix
定義(1行)
CutMixは、2つの画像をランダム領域で切り貼りして1枚の合成画像を作り、ラベルも同様に混合するデータ拡張。
CutMix randomly cuts and mixes two images into one composite, blending their labels as well.
具体例(3つ)
犬と猫の画像を一部領域で切り替えて混合
合成領域の面積比に応じてラベルを加重平均
Mixupより空間構造を保存しやすい
詳細な説明
CutMixは局所的に別画像のピクセルを貼り付けることで、ネットワークが局所領域に依存しない頑健な学習を行うよう促す。Mixupなど類似手法と組み合わせたり比較研究がある。
E25-5 Cutout
キーワード
Cutout
定義(1行)
Cutoutは、画像のランダムな矩形領域を黒塗りやマスクして消し、ロバスト性を高めるデータ拡張。
Cutout masks out a random rectangular region of an image, making it black or blank to improve model robustness.
具体例(3つ)
物体の一部が隠れた状態を模倣
貼り付け領域を広げたり複数箇所にしたりアレンジ
実際のカメラ障害や汚れをシミュレート
詳細な説明
Cutoutは視覚的情報を部分的に欠損させることで、モデルが残った特徴に依存するよう誘導し、隠蔽耐性を向上させる。
E25-6 Mixup
キーワード
Mixup
定義(1行)
Mixupは、2枚の画像をピクセルレベルで線形補間し、ラベルも同じ割合で混合して作るデータ拡張。
Mixup linearly interpolates two images pixel-wise and mixes their labels proportionally as a data augmentation technique.
具体例(3つ)
犬画像(0.7)と猫画像(0.3)をブレンドし、ラベルも[犬:0.7,猫:0.3]
なだらかな合成画像で分類境界を滑らかに
過学習やアノテーションノイズに強くなる
詳細な説明
Mixupは単純な加重和による合成で、境界付近のサンプルを多数作る効果がある。異なるクラスを中間画像として学習させることでモデルがより一般化する。
E25-7 noising
キーワード
noising
定義(1行)
noisingは、画像や入力データにランダムノイズを付加し、雑音環境下でも学習を行うデータ拡張。
Noising adds random noise to images or inputs, training the model to be robust under noisy conditions.
具体例(3つ)
ガウスノイズを加えてセンサーノイズを模擬
ドロップアウトと似た効果で冗長性を活かす
音声認識でホワイトノイズを重畳
詳細な説明
ノイズ付加はピクセル単位や音声波形などで行われ、モデルがノイズに対して過度に敏感にならないようにする。一般化性能の向上に寄与する。
E25-8 paraphrasing
キーワード
paraphrasing
定義(1行)
テキストデータ拡張で、文章の意味を変えずに表現を変化させたペアを生成し、学習に多様性を持たせる手法。
Paraphrasing generates multiple semantically equivalent sentences for text data augmentation, adding linguistic variety.
具体例(3つ)
Synonym替えや文構造の変更
機械翻訳を使って一度別言語にし、再翻訳
聞き方を変えたFAQの生成
詳細な説明
テキストのオリジナル含意を保持しつつ表現を変えることで、モデルが表面的な語順や単語に依存しない理解を獲得する。自然言語処理タスクでデータ量を増やす際に使われる。
E25-9 RandAugument
キーワード
RandAugument
定義(1行)
RandAugmentは、定義された複数の画像変換からランダムに選び、強度を設定して適用する自動データ拡張。
RandAugment randomly picks transformations from a set of predefined image augmentations, with adjustable severity, providing automated data augmentation.
具体例(3つ)
回転、平行移動、彩度調整などからランダム選択
設定したN回数ぶん適用する簡易自動化
商用ライブラリでサポートされ迅速に使える
詳細な説明
RandAugmentはAutoAugmentの簡略版で、最適化手順を省き、ランダムに複数手法を適用。少ないパラメータで効果的な拡張を得られ、実用上は扱いやすい。
E25-10 Random Erasing
キーワード
Random Erasing
定義(1行)
Random Erasingは、画像のランダム領域を塗りつぶして消去し、物体欠損や遮蔽への耐性を高めるデータ拡張。
Random erasing blocks out random regions of an image, helping the model withstand object occlusion or missing parts.
具体例(3つ)
一部を白や灰色などで覆う
Hide-and-seekなど類似手法で複数領域を隠す
オクルージョンに強い物体検出モデルを育成
詳細な説明
Cutoutと近いが複数領域や形状がランダム化しやすい場合などに適用。視認できなくなった部分を除いても正しく分類するようにモデルを訓練する。
E25-11 Random Flip
キーワード
Random Flip
定義(1行)
ランダムフリップは、画像を左右または上下に確率的に反転させ、対称性や回転への耐性を向上させる拡張。
Random flipping horizontally or vertically modifies an image with some probability, enhancing robustness to symmetry or rotation.
具体例(3つ)
水平方向に50%の確率で反転
人物画像の左右対称を学習
上下反転は自然画像では有効度がやや低いが試す
詳細な説明
フリップは最も基本的なデータ拡張であり、左右対称が多い物体(例: 顔)の場合特に効果的。上下反転は自然シーンでは文脈が損なわれることもある。
E25-12 Rotate
キーワード
Rotate
定義(1行)
回転は、画像を任意の角度で回転させ、異なる視点や傾きを学習に含めるデータ拡張。
Rotation transforms an image by arbitrary angles, incorporating various viewpoints or tilts into the training data.
具体例(3つ)
±15度程度の軽度回転
90度刻みの回転
オンライン文字認識などで手書き方向の多様性を補
詳細な説明
回転は被写体の向きが変化する状況をシミュレートし、物体認識モデルがより汎用的に対応できるようにする。角度が大きい場合は背景の切れや欠損に注意が必要。