![見出し画像](https://assets.st-note.com/production/uploads/images/171525801/rectangle_large_type_2_e23e0bf02a112810132d03162b5b07a4.jpeg?width=1200)
【D.ディープラーニングの概要】AIを一言で伝える技術〜G検定完全対応〜
次の用語について、説明してください。
[STEP1] 一言で説明する。
[STEP2] 具体例を説明する。(可能なら3つ)
[STEP3] 用語を英語で言い換える。
[STEP4] 英語で一言で説明する。
[STEP5] 英語で具体例を説明する。(可能なら3つ)
D11-1 CPU
キーワード
CPU
定義(1行)
CPUは、コンピュータの汎用演算を司る中心的な処理装置で、制御や算術演算を行う。
A CPU is the central processing unit of a computer, performing general-purpose arithmetic and control operations.
具体例(3つ)
Intel Core iシリーズやAMD RyzenなどのデスクトップCPU
サーバ用のIntel XeonやAMD EPYC
組み込み向けのARMベースCPU
詳細な説明
CPUは命令を順序通りに解釈して実行するための汎用計算機であり、オペレーティングシステムやアプリケーションの論理的制御を担う。近年のディープラーニングでは、高度な並列化が可能なGPUやTPUが注目される一方で、CPUもデータ前処理や汎用タスクなど幅広い用途に使われる。
D11-2 GPU
キーワード
GPU
定義(1行)
GPUは、元来グラフィックス処理に特化した演算装置だが、大量の並列計算を要するディープラーニングでも用いられる。
A GPU is primarily designed for graphics rendering but is widely used in deep learning tasks requiring massive parallel computations.
具体例(3つ)
NVIDIA GeForceやAMD Radeonなどのグラフィックスカード
データセンター向けのNVIDIA TeslaやA100シリーズ
ゲーム機やスマホの内蔵GPU
詳細な説明
GPUは、数千規模のコアを持つ並列計算に強い構造で、高速に行列演算を処理できる。ディープラーニングではネットワークの順伝播・逆伝播の多くが行列積となるため、GPUの恩恵が大きい。汎用のCUDAなどのAPIを通じて科学計算や機械学習でも盛んに利用されている。
D11-3 TPU
キーワード
TPU
定義(1行)
TPUは、Googleが開発したテンソル演算に特化したハードウェアアクセラレータで、深層学習の推論・学習を高速化する。
A TPU is a specialized hardware accelerator by Google that speeds up tensor operations for deep learning inference and training.
具体例(3つ)
Google Cloud上で提供されるTPU Pod
TensorFlowと連携した大規模ディープラーニング学習
BERTなどの巨大言語モデルトレーニングを効率化
詳細な説明
TPUは行列演算を効率化する専用ハードウェアを持ち、大規模ディープラーニングに特化した設計がなされている。特にGoogleのクラウド環境で利用可能で、GPUよりもさらに高速・省電力な演算を目指す。
D11-4 隠れ層・入力層・出力層
キーワード
隠れ層・入力層・出力層
定義(1行)
ニューラルネットワークで、入力ベクトルを受け取る入力層、中間処理を担う隠れ層、最終的な予測を出す出力層を指す。
In a neural network, the input layer receives the data, hidden layers process intermediate transformations, and the output layer produces the final prediction.
具体例(3つ)
MNISTの784次元入力層、10次元出力層(数字0~9)、中間の隠れ層
画像認識で複数の畳み込み層を隠れ層とするCNN
自然言語処理で単語埋め込みを入力層とし、全結合出力層からクラスを推定
詳細な説明
ニューラルネットワークは、入力層→隠れ層→出力層という層構造をもち、隠れ層が深くなると「ディープ」なモデルとなる。隠れ層では非線形活性化関数が用いられ、高度な特徴抽出や表現学習が可能になる。
D11-5 多層パーセプトロン
キーワード
多層パーセプトロン
定義(1行)
多層パーセプトロンは、複数の隠れ層を持つフィードフォワード型ニューラルネットワークで、全結合層が連なる構造。
A multi-layer perceptron is a feed-forward neural network with multiple hidden layers composed of fully connected layers.
具体例(3つ)
2隠れ層のMLPを使った回帰タスク
3層以上のMLPで画像やテキストの特徴ベクトルを学習
深層学習の基礎としてMNISTやCIFARのベースラインモデルに活用
詳細な説明
多層パーセプトロンは古典的なニューラルネット構造で、活性化関数を非線形にすることで表現力を高める。誤差逆伝播法で重みを学習するのが主流であり、様々な分野に応用されている。
D11-6 単純パーセプトロン
キーワード
単純パーセプトロン
定義(1行)
単純パーセプトロンは、1層の線形変換としきい値活性化を組み合わせただけの基本的なニューラルネットワークモデル。
A single-layer perceptron uses only one linear transformation and a threshold activation, forming the simplest neural network model.
具体例(3つ)
AND, ORなど線形分離可能な論理ゲートの学習
簡単な二値分類タスクでの初期研究
複雑な問題(XORなど)は解けない限界の指摘
詳細な説明
単純パーセプトロンは1950~60年代に提案され、線形分離可能な問題は解けるが、非線形分離が必要なXOR問題などは解けない。この限界を克服するために多層化(多層パーセプトロン)が考案された。
D12-1 Leaky ReLU 関数
キーワード
Leaky ReLU 関数
定義(1行)
Leaky ReLUは、負の入力に対してわずかな傾きを持たせ、ニューロンが死ぬ問題を軽減するReLUの変種。
Leaky ReLU is a variant of ReLU allowing a small slope for negative inputs to mitigate the dying neuron issue.
具体例(3つ)
負の領域で0.01倍など小さい値を返す
深いCNNでReLUの問題(死んだReLU)を緩和
GANなどで安定した学習に寄与
詳細な説明
ReLUは負の入力を0にするが、負側で勾配が常に0になると学習が進まないニューロンが生じることがある。Leaky ReLUは負領域を少しだけ通すため、勾配が伝搬しやすくなる。
D12-2 ReLU 関数
キーワード
ReLU 関数
定義(1行)
ReLUは、正の入力はそのまま、負の入力は0にする単純な活性化関数で、深層学習で主流に使われる。
A ReLU outputs the input itself if positive, and 0 if negative, and is widely used in deep learning.
具体例(3つ)
CNNの隠れ層でReLUを使用して高速学習
RNNやMLPでも勾配消失を減らす狙いで採用
逆伝播で正の領域は勾配1、負は0
詳細な説明
ReLUは計算が単純で、勾配が消失しにくいため深いネットワークにも適する。ただし負領域がずっと0になる「死んだReLU」が発生する場合がある。
D12-3 tanh 関数
キーワード
tanh 関数
定義(1行)
tanhは、-1から1の範囲を出力するS字型活性化関数で、シグモイドより平均0に近く学習が安定しやすい。
A tanh function outputs values in the range -1 to 1, often more stable than sigmoid as it’s zero-centered.
具体例(3つ)
RNNの隠れ状態活性化に利用
MLPの古典的活性化としてシグモイドの代わりに採用
学習データが平均0付近にある場合に相性がいい
詳細な説明
tanhはシグモイド同様に大きな正負入力で飽和し勾配が小さくなる問題があるが、出力が0を中心とするので学習はややスムーズ。深いネットワークではReLU系が主流だが、RNNではよく使われる。
D12-4 シグモイド関数
キーワード
シグモイド関数
定義(1行)
シグモイド関数は、0~1の範囲に写像するS字型活性化で、二値分類の出力層などに使われる。
A sigmoid function maps inputs to the range [0,1], making it popular in binary classification output layers.
具体例(3つ)
ロジスティック回帰の最終活性化
バイナリ分類の確率出力
RNNのゲート機構で内部変数を制限
詳細な説明
シグモイドは入力が大きい正や負になると勾配が極端に小さくなる飽和領域がある。これが深いネットワークで勾配消失の一因となり、ReLU系に置き換えられることが多い。
D12-5 ソフトマックス関数
キーワード
ソフトマックス関数
定義(1行)
ソフトマックス関数は、多次元ベクトルを正の値に変換し、合計を1に正規化して確率分布として解釈する活性化関数。
A softmax function transforms a vector into positive values summing to 1, representing a probability distribution.
具体例(3つ)
多クラス分類の出力層(各クラスの確率)
画像認識で犬・猫・鳥などのカテゴリ確率
言語モデルで次の単語の確率分布を生成
詳細な説明
ソフトマックスは指数関数で相対比率を取り、各成分の合計が1となる。多クラス分類においてロジット(未正規化スコア)を確率に変換するのに広く利用される。
D12-6 勾配消失問題
キーワード
勾配消失問題
定義(1行)
深いネットワークで逆伝播の際に勾配が極端に小さくなり、学習が進まなくなる現象。
The vanishing gradient problem arises in deep networks when backpropagated gradients become extremely small, hindering learning.
具体例(3つ)
シグモイド活性化を多層に重ねると激化
RNNで長い系列を扱うと初期入力への勾配が消える
重層構造で末端層に誤差が伝わりにくい
詳細な説明
勾配消失は、活性化関数が飽和領域を持つ場合や層が深いモデルで勾配が連続的に減衰するために起こる。対策としてReLU系活性化やスキップ接続、バッチ正規化などが提案されている。
D13-1 Contrastive loss
キーワード
Contrastive loss
定義(1行)
Contrastive lossは、類似ペア間の距離を縮め、非類似ペア間の距離を大きく保つよう学習する損失関数。
Contrastive loss trains embeddings such that similar pairs are close and dissimilar pairs remain far apart.
具体例(3つ)
Siameseネットワークで画像ペアの類似度を学習
ツインタワーモデルのユーザー・アイテム埋め込み
バイオメトリクス認証で同一人の特徴を近づける
詳細な説明
類似ペアには距離を小さく、非類似ペアには一定のマージンより離すことを目的とする。Siameseネットワークなどでペアの類似度学習に使われ、顔認証や度量学習タスクで効果を発揮する。
D13-2 Triplet Loss
キーワード
Triplet Loss
定義(1行)
Triplet Lossは、アンカー・ポジティブ・ネガティブの三つ組から、ポジティブとの距離を縮め、ネガティブとの距離を離す学習を行う損失関数。
Triplet loss uses anchor-positive-negative triplets to pull the anchor closer to the positive and push it away from the negative.
具体例(3つ)
顔認証で同一人物(ポジティブ)と別人物(ネガティブ)を区別
商品画像検索で類似商品と非類似商品を分離
文書埋め込みでトピックの近似・差異を学習
詳細な説明
Triplet Lossはアンカーとポジティブ、ネガティブ間の距離関係をマージン付きで最適化し、特徴空間での類似度構造を形成する。Contrastive lossと同様の度量学習手法の一種。
D13-3 カルバック・ライブラー情報量 (KL)
キーワード
カルバック・ライブラー情報量 (KL)
定義(1行)
KLダイバージェンスは、2つの確率分布PとQの差異を測る非対称な指標。
KL divergence is a non-symmetric measure of how one probability distribution P differs from another Q.
具体例(3つ)
モデルの予測分布と真の分布の距離
VAEでエンコーダ出力と事前分布を近づける項
言語モデルで教師分布と生成分布の差を評価
詳細な説明
KLダイバージェンスはPがQにどれだけ情報を追加的に必要とするかを示す。0なら同じ分布、値が大きいほど乖離が大きい。クロスエントロピーの一部として使われることが多い。
D13-4 交差エントロピー
キーワード
交差エントロピー
定義(1行)
交差エントロピーは、実際の分布とモデルの予測分布の乖離を測る損失で、分類タスクで広く利用される。
Cross-entropy quantifies the difference between the true distribution and a model’s predicted distribution, widely used in classification tasks.
具体例(3つ)
バイナリ分類のロジスティック損失
ソフトマックス出力とワンホットラベルの多クラス損失
言語モデルの次単語予測精度
詳細な説明
予測確率が正解ラベルの位置で高くなるほど交差エントロピーは小さくなる。ニューラルネットワークの分類では標準的な損失関数として採用される。
D13-5 平均二乗誤差
キーワード
平均二乗誤差
定義(1行)
平均二乗誤差は、回帰タスクなどで予測値と実測値の差を二乗して平均した誤差指標。
Mean squared error is an error metric for regression that averages the squared differences between predicted and actual values.
具体例(3つ)
住宅価格予測の誤差評価
オートエンコーダの再構成誤差
時系列予測での将来数値のズレ
詳細な説明
二乗することで大きな誤差を強くペナルティする。勾配降下法との相性がよく、回帰問題の基本指標として用いられるが、外れ値に敏感な点もある。
D14-1 L0 正則化
キーワード
L0 正則化
定義(1行)
L0正則化は、重みベクトルの非ゼロ要素数をペナルティ対象とし、スパースな解を目指す。
L0 regularization penalizes the number of nonzero weights, aiming for sparse solutions.
具体例(3つ)
特徴選択で不要な重みを厳密に0にしたい場合
理想的には最小限のパラメータでモデル化
実際の最適化がNP困難で近似法が使われる
詳細な説明
L0正則化は理想的なスパース化を提供するが、最適化計算がNP困難。現実的にはL1正則化が代替手段として用いられることが多い。
D14-2 L1 正則化
キーワード
L1 正則化
定義(1行)
L1正則化は、重み絶対値の総和をペナルティとし、多くの重みを0にしてスパース化する効果がある。
L1 regularization penalizes the sum of absolute weight values, encouraging many weights to be exactly zero.
具体例(3つ)
ラッソ回帰で不要な特徴量の係数を0に
スパースな線形モデルで解釈性向上
ニューラルネットで不要ユニットの重みをゼロ化
詳細な説明
L1正則化はスパース解を得るのに有用で、高次元で特徴選択の役割を果たす。一方で学習が不連続になりやすい等の特徴もある。
D14-3 L2 正則化
キーワード
L2 正則化
定義(1行)
L2正則化は、重みの二乗和をペナルティとし、大きな重みを連続的に小さく抑えて過学習を防ぐ。
L2 regularization penalizes the sum of squared weights, shrinking large weights smoothly to mitigate overfitting.
具体例(3つ)
リッジ回帰で重みを均等に小さくする
ニューラルネットのweight decayとして実装
学習後に完全にゼロにはならないが安定解
詳細な説明
L2正則化はモデルの滑らかさを促進し、過大な重みを連続的に抑制する。ゼロに切り落とすことはないが、汎化性能向上に寄与しやすい。
D14-4 正則化
キーワード
正則化
定義(1行)
正則化は、モデルの複雑度を制限して過学習を抑制し、汎化性能を高める技術一般を指す。
Regularization broadly refers to techniques that constrain model complexity to avoid overfitting and improve generalization.
具体例(3つ)
L1, L2などのペナルティ導入
ドロップアウトでネットワークのユニットをランダム無効化
早期終了で学習を途中で打ち切る
詳細な説明
正則化には多様な手法があり、共通して「モデルを過度に訓練データに適合させない」ことを目的とする。深層学習の大規模モデルでは必須の概念である。
D14-5 ドロップアウト
キーワード
ドロップアウト
定義(1行)
ドロップアウトは、学習中にランダムに一部のニューロンを無効化し、過学習を抑える正則化手法。
Dropout randomly deactivates some neurons during training, preventing overfitting.
具体例(3つ)
全結合層で50%の確率でノードを落とす
CNNの中間層に適用してアンサンブル効果を狙う
推論時には有効化し、重みを確率分でスケーリング
詳細な説明
ドロップアウトによってユニット同士の共適応を抑え、ネットワークがアンサンブルのように振る舞う。大幅な過学習防止効果が確認され、広く使われる手法となった。
D14-6 ラッソ回帰
キーワード
ラッソ回帰
定義(1行)
ラッソ回帰は、L1正則化を用いる回帰で、不要な特徴の係数をゼロにしてスパース化する。
Lasso regression uses L1 regularization to drive unnecessary feature coefficients to zero, yielding a sparse model.
具体例(3つ)
高次元遺伝子データで重要遺伝子を選択
統計分析で特徴を厳選して解釈性向上
画像解析で少数ピクセルが大きな影響を持つ問題
詳細な説明
ラッソ回帰はL1ペナルティでスパース解を得る。特定の特徴量が完全に削除されるため、モデルがシンプルになり解釈もしやすい。多くの特徴がある場合に有利だが、相関の強い特徴があると不安定になる面もある。
D14-7 リッジ回帰
キーワード
リッジ回帰
定義(1行)
リッジ回帰はL2正則化を導入して、重みを連続的に小さく抑え、過学習を防ぐ回帰手法。
Ridge regression employs L2 regularization, continuously shrinking weights to prevent overfitting.
具体例(3つ)
多重共線性があるデータで安定した係数を得る
回帰分析で係数のばらつきを小さく
データ数少ない場合でも汎化が得やすい
詳細な説明
リッジ回帰では、重みを0にすることは少ないが、すべての重みを均等に小さくする方向へ働く。相関のある特徴が多いときの過学習を抑え、モデルの安定性を高める効果がある。
D15-1 勾配消失問題
キーワード
勾配消失問題
定義(1行)
深いネットワークで逆伝播により勾配が指数的に減衰し、初期層が学習されにくくなる現象。
The vanishing gradient problem in deep networks refers to gradients exponentially decreasing during backprop, making early layers hard to train.
具体例(3つ)
シグモイド活性化を多段に重ねると顕在化
RNNで長期依存を扱う際の困難
学習が進まない層が増加
詳細な説明
勾配消失は、連鎖律の積が小さくなる活性化関数の特性や深い構造で深刻化する。ReLU系関数、バッチ正規化、ResNetなどの工夫で緩和されている。
D15-2 勾配爆発問題
キーワード
勾配爆発問題
定義(1行)
勾配爆発問題は、逆伝播で勾配が非常に大きくなり、学習が発散または不安定化する現象。
The exploding gradient problem occurs when gradients grow excessively large during backprop, causing instability or divergence.
具体例(3つ)
大きな誤差が急増し、重み更新が極端に大きくなる
RNNで長い系列を処理するとき急激に勾配が跳ね上がる
学習率が高すぎて発生
詳細な説明
勾配爆発は、重み更新が過剰になりパラメータが発散する。対策として勾配クリッピングや学習率の調整、重み初期化の工夫などが用いられる。
D15-3 信用割当問題
キーワード
信用割当問題
定義(1行)
信用割当問題は、学習結果で得た報酬や誤差が、どの行動やニューロンに起因するか割り当てが難しい課題。
The credit assignment problem refers to the difficulty of determining which actions or neurons are responsible for rewards or errors in learning.
具体例(3つ)
強化学習で最終的な成功がどの行動のおかげか不明
深層ネットで特定ユニットがどう貢献したのか可視化困難
チームプロジェクトの成果を誰がどれだけ貢献したか評価が難しい
詳細な説明
大規模ネットワークや複雑タスクでは、最終結果に影響した原因を局所的に特定するのが困難。逆伝播法や方策勾配などはこの問題を部分的に解決する仕組みを提供する。
D15-4 連鎖律
キーワード
連鎖律
定義(1行)
連鎖律は、合成関数の微分を段階的に掛け合わせる微分計算の基礎で、誤差逆伝播法の中核となる。
The chain rule is the fundamental derivative rule for composite functions, crucial for backpropagation in neural networks.
具体例(3つ)
f(g(x))の微分をf'(g(x))×g'(x)で求める
活性化関数と線形変換を多段適用
誤差逆伝播で各層の勾配を伝搬
詳細な説明
連鎖律により、最終出力の偏微分を各層のパラメータに遡って計算し、ネットワーク全体を学習可能にする。深層学習はこの連鎖律に基づく誤差伝播が前提。
D16-1 AdaBound
キーワード
AdaBound
定義(1行)
AdaBoundは、Adamの適応学習率に上限下限を設定し、最終的にSGDに近い振る舞いを目指す最適化手法。
AdaBound bounds Adam’s adaptive learning rates with upper and lower limits, converging toward SGD-like behavior.
具体例(3つ)
学習初期はAdamの高速収束を享受
学習後期に学習率を安定化してオーバーシュートを防止
画像分類で汎化性能を向上
詳細な説明
AdaBoundはAdamの変動しやすい学習率をバウンドすることで、学習後期に振動せず安定し、SGDに似た特性を得る。高収束速度と汎化性能の両立を図る。 By bounding Adam’s rate, it prevents excessive oscillation in later stages, leading to better generalization.
D16-2 AdaDelta
キーワード
AdaDelta
定義(1行)
AdaDeltaは、勾配の二乗の移動平均だけでなく、更新量の移動平均も利用し、学習率を自動調整する最適化手法。
AdaDelta adjusts learning rates based on the moving averages of both squared gradients and updates, eliminating the need for a manual global learning rate.
具体例(3つ)
RMSpropをさらに発展させた手法
ハイパーパラメータとしての学習率を設定しなくて済む
小規模データセットでも安定しやすい
詳細な説明
AdaDeltaは勾配の二乗平均でスケーリングするRMSpropに加え、過去の更新量の二乗平均も使うので、学習率を常にスケール調整して一定に保つ仕組みを提供する。 It adapts RMSprop by also tracking update magnitudes, maintaining a consistent scale in learning rates.
D16-3 AdaGrad
キーワード
AdaGrad
定義(1行)
AdaGradはパラメータごとの勾配の二乗和を蓄積し、頻繁に更新されるパラメータの学習率を小さくする手法。
AdaGrad accumulates the sum of squared gradients per parameter, reducing the learning rate for frequently updated parameters.
具体例(3つ)
単語埋め込みで頻度の高い単語の学習率を下げる
疎な特徴の重みを大きめに更新
後半で学習率が極端に小さくなる欠点
詳細な説明
AdaGradは一度大きな勾配更新を受けたパラメータは徐々に学習率が下がり、稀に更新されるパラメータは高めに維持される。長期学習で学習率が急激に低下するためRMSpropなど派生手法が生まれた。
D16-4 Adam
キーワード
Adam
定義(1行)
Adamは勾配の一次モーメントと二次モーメントを指数移動平均で推定し、各パラメータに対して適応学習率を与える手法。
Adam estimates first and second moments of gradients via exponential moving averages, providing adaptive learning rates per parameter.
具体例(3つ)
ほとんどのディープラーニングフレームワークのデフォルト選択
画像分類やNLPなど汎用性が高い
パラメータβ1, β2でモーメントの影響度を調整
詳細な説明
AdamはRMSpropとMomentumを組み合わせたようなアプローチで、学習を安定かつ高速に収束させやすい。ただし汎化性能が場合によってはSGDに劣ることもあり、学習率調整やスケジューリングが重要。
D16-5 AMSBound
キーワード
AMSBound
定義(1行)
AMSBoundは、Adamで用いる学習率の二次モーメント推定に対し可変の上限を設けて、最適化を安定化させる手法。
AMSBound imposes a flexible upper bound on Adam’s second-moment-based learning rate to stabilize optimization.
具体例(3つ)
AdaBoundと同様にAdam学習率の過剰変動を防止
学習後期にSGDに近い収束性を目指す
CNNやRNNなど幅広いタスクで適用可能
詳細な説明
AMSBoundは、Adamの学習率が大きく振れるときに上限を設けることで振動を減らす。AdaBoundとの違いは二次モーメントの扱い方など細部が異なるが、目的は類似。
D16-6 RMSprop
キーワード
RMSprop
定義(1行)
RMSpropは、勾配の二乗平均を指数移動平均で管理し、学習率を調整する最適化手法で、AdaGradの学習率減衰問題を緩和する。
RMSprop manages the moving average of squared gradients, adjusting learning rates and mitigating AdaGrad’s diminishing rate issue.
具体例(3つ)
RNN学習で勾配爆発を抑える
CNNの学習でも早い収束を期待
ハイパーパラメータに減衰率(ρ)を持つ
詳細な説明
AdaGradは長期学習で学習率が極端に下がるが、RMSpropは二乗平均を指数移動平均化して古い勾配の影響を徐々に減らす。よって定常状態で学習率が小さくなりすぎないメリットがある。
D16-7 鞍点
キーワード
鞍点
定義(1行)
鞍点は、勾配が0でも局所最小でも局所最大でもない不安定な点で、深層学習の誤差面に多く存在する。
A saddle point is a stationary point where the gradient is zero yet it is neither a local minimum nor a local maximum, often seen in high-dimensional error surfaces.
具体例(3つ)
多次元空間で降下方向と上昇方向が混在
ニューラルネットの誤差面で局所解より鞍点が多い
勾配降下が停滞するが抜け出せる場合もある
詳細な説明
高次元空間では局所最適解より鞍点のほうが多数存在するとされ、勾配がゼロでも必ずしも収束したわけではない。最適化アルゴリズムは鞍点を乗り越える工夫が必要。
D16-8 イテレーション
キーワード
イテレーション
定義(1行)
イテレーションは、最適化アルゴリズムでパラメータを1ステップ更新するサイクル1回のこと。
An iteration is a single step or cycle in which an optimization algorithm updates its parameters.
具体例(3つ)
バッチ学習で1回の勾配計算→重み更新
ミニバッチSGDでミニバッチごとに更新
定められたエポック数内で繰り返す
詳細な説明
学習アルゴリズムは複数のイテレーションを積み重ねて目的関数を最小化していく。特にミニバッチ学習では1イテレーション=1ミニバッチ処理に相当する。
D16-9 エポック
キーワード
エポック
定義(1行)
エポックは、訓練データセット全体を一巡して学習に用いた回数を指す単位。
An epoch denotes one complete pass over the entire training dataset during learning.
具体例(3つ)
MNISTの6万枚画像を1エポックで全て学習
10エポック終わった時点の精度をモニタリング
過学習を防ぐためにエポック数を抑える
詳細な説明
1エポックはデータ全体を学習に使用するので、エポックが進むほどモデルは訓練データに適合していく。過学習を回避するには途中で評価を行い、必要以上に続けない工夫が大事。
D16-10 オンライン学習
キーワード
オンライン学習
定義(1行)
オンライン学習は、データが逐次到着する前提で、その都度モデルを更新し続ける学習形態。
Online learning continuously updates the model as data arrives sequentially.
具体例(3つ)
ストリーミングデータをリアルタイム解析
Web上の新ユーザー行動が来るたびに推定を更新
強化学習で逐次的に環境から報酬を獲得
詳細な説明
オンライン学習では小規模バッチまたは1サンプルずつモデルを改良していく。大規模データや常時更新が必要なシステム(レコメンドなど)で活用されるが、安定収束のために学習率や初期設定に注意が必要。
D16-11 学習率
キーワード
学習率
定義(1行)
学習率は、勾配によるパラメータ更新のステップサイズを決定するハイパーパラメータ。
The learning rate is a hyperparameter that defines the step size for weight updates based on gradients.
具体例(3つ)
学習率が高すぎると発散するリスク
低すぎると収束が遅い
学習率スケジューラで徐々に下げる
詳細な説明
学習率は最適化の安定性と速度を大きく左右する。適切な値を探るのが難しく、しばしば時間とともに減衰させるスケジューリングが用いられる。
D16-12 確率的勾配降下法 (SGD)
キーワード
確率的勾配降下法 (SGD)
定義(1行)
SGDは、ランダムに抽出したサンプルやミニバッチで勾配を見積もり、逐次的にパラメータを更新する最適化手法。
Stochastic gradient descent updates parameters iteratively based on gradients from randomly sampled mini-batches or single samples.
具体例(3つ)
ミニバッチサイズ32でニューラルネットを学習
スパースなデータでも高速に収束
大規模データセットを一括で扱う代わりに少量ずつ
詳細な説明
SGDは全データを使うバッチ勾配降下より高速に学習を進められる反面、ノイズがある分、局所最適解から脱出しやすい利点もある。多くのディープラーニングフレームワークで標準的に使われる。
D16-13 グリッドサーチ
キーワード
グリッドサーチ
定義(1行)
グリッドサーチは、ハイパーパラメータの候補範囲を格子状に離散化し、全組み合わせを試して最適を探す方法。
Grid search discretizes hyperparameter ranges into a grid and tests every combination to find the best.
具体例(3つ)
学習率や正則化係数をいくつかの値で総当たり
SVMのCやγなどを格子探索
少数次元でのみ実用可能
詳細な説明
グリッドサーチは総当たりに近く、次元や候補数が増えると計算量が爆発する。実用ではランダムサーチやベイズ最適化などと比較してパラメータ空間を探索する。
D16-14 勾配降下法
キーワード
勾配降下法
定義(1行)
勾配降下法は、目的関数の勾配を計算し、その反対方向へ連続的にパラメータを更新して最小化する基本的最適化手法。
Gradient descent calculates the gradient of the objective and moves parameters in the opposite direction to minimize it.
具体例(3つ)
線形回帰の最小二乗法を数値的に解く
ニューラルネット全体の誤差逆伝播に適用
凸問題では大域最適が保証される
詳細な説明
勾配降下法は最も基本的な最適化アルゴリズムで、勾配を求めるたびにパラメータを更新する。非凸問題では局所最適に陥る可能性があるが、ディープラーニングでも標準手法。
D16-15 局所最適解
キーワード
局所最適解
定義(1行)
局所最適解は、近傍では最良だがグローバルには最適と限らない解。
A local optimum is a solution optimal within its neighborhood but not necessarily globally optimal.
具体例(3つ)
誤差面の小さな谷に捕まる
バイナリ分類の境界が広域では最適でないケース
複雑な非凸関数で容易に遭遇
詳細な説明
ディープラーニングなど非凸最適化では局所最適解が多数存在する。実際には鞍点が多いとも言われるが、完全なグローバル解を探すのは困難。
D16-16 早期終了
キーワード
早期終了
定義(1行)
早期終了は、学習の途中でバリデーション誤差などが改善しなくなった段階で打ち切り、過学習を抑制する手法。
Early stopping halts training when validation error ceases to improve, preventing overfitting.
具体例(3つ)
5エポック連続で誤差減少がなければ停止
学習時間の短縮効果
大規模モデルで過学習を抑える簡易正則化
詳細な説明
早期終了は学習曲線をモニタリングし、一定のパジェンス期間で改善が見られないと学習をやめる。これにより過剰にデータに合わせるのを防ぎ、計算コストも削減できる。
D16-17 大域最適解
キーワード
大域最適解
定義(1行)
大域最適解は、関数全域で最も良い値を与える解で、局所最適解よりさらに広範に最適。
A global optimum is a solution that achieves the best value over the entire function domain, exceeding local optima in scope.
具体例(3つ)
凸関数の最小点
線形回帰の解析解
単純な二次関数の頂点
詳細な説明
大域最適解は文字通り「一番良い」解だが、非凸関数では探索が難しい。深層学習でも必ずしも大域解に到達するとは限らないが、良好な解が得られることが多いという実用的知見がある。
D16-18 二重降下現象
キーワード
二重降下現象
定義(1行)
二重降下現象は、モデル複雑度を増やすと誤差が一度上昇した後再度低下し、再び高精度になる観測結果。
The double descent phenomenon shows that as model complexity increases, error first rises, then drops again, leading to high accuracy once more.
具体例(3つ)
過学習領域を越えたさらに高次元パラメータで精度が上がる
ニューラルネットの過剰パラメータ化で再び汎化性能が改善
ランダムフォレストなどで類似現象が指摘
詳細な説明
従来のバイアス・バリアンストレードオフだけでは説明しきれない新しい現象。深いネットやパラメータを増やし続けると、再度誤差が減るケースがあり、理論的にも研究が進む。
D16-19 ノーフリーランチの定理
キーワード
ノーフリーランチの定理
定義(1行)
ノーフリーランチの定理は、すべての問題に対して常に最良のアルゴリズムは存在しないとする理論。
The no free lunch theorem states that no algorithm is universally best across all possible problems.
具体例(3つ)
あるデータセットで優れたモデルが他のデータセットで劣る
ハイパーパラメータの最適値がタスクごとに異なる
最適化手法も問題設定次第で有利不利が変わる
詳細な説明
この定理によれば、機械学習や最適化で特定のアルゴリズムがすべての領域で最高成績を出すことは不可能。データや目的に合わせて手法を選ぶ必要がある。
D16-20 ハイパーパラメータ
キーワード
ハイパーパラメータ
定義(1行)
ハイパーパラメータは学習率やレイヤー数などモデル構造や学習過程を制御するが、学習によって直接更新されないパラメータ。
Hyperparameters, like learning rate or network depth, govern model structure and training behavior but aren’t updated by training itself.
具体例(3つ)
学習率0.001やミニバッチサイズ32
CNNでの畳み込み層数やフィルタ数
正則化係数λ
詳細な説明
ハイパーパラメータはモデル性能に大きな影響を与え、グリッドサーチやランダムサーチ、ベイズ最適化などで最適化する。適切な設定は実験と経験が必要。
D16-21 バッチ学習
キーワード
バッチ学習
定義(1行)
バッチ学習は、全訓練データをまとめて勾配計算し、1回の更新を行う手法。
Batch learning computes gradients on the entire training set at once for a single update.
具体例(3つ)
データセットが小さいときバッチ学習が容易
勾配が安定し収束が読みやすい
大規模データではメモリ負荷が大きい
詳細な説明
全データを使用するため理論的には安定した最適化が可能だが、データが巨大な場合はメモリが必要で計算コストも高い。多くの場面ではミニバッチSGDが使われる。
D16-22 ミニバッチ学習
キーワード
ミニバッチ学習
定義(1行)
ミニバッチ学習は、訓練データを小さなバッチに分け、各バッチごとに勾配と更新を行う方法。
Mini-batch learning splits the training set into small batches, updating parameters per batch of samples.
具体例(3つ)
ミニバッチサイズ32や64でSGDを実装
GPUで並列処理しやすい
オンライン学習とバッチ学習の中間
詳細な説明
ミニバッチはバッチ学習と確率的勾配降下法の折衷であり、計算効率と安定性のバランスが良い。デファクトスタンダードとして多くの深層学習で採用されている。
D16-23 モーメンタム
キーワード
モーメンタム
定義(1行)
モーメンタムは、過去の勾配を慣性として加味する勾配降下の拡張で、振動を抑え収束を速める。
Momentum is an extension of gradient descent that adds inertia from past gradients, smoothing updates and speeding convergence.
具体例(3つ)
SGD+Momentumで谷底付近のジグザグを減らす
深層CNNの学習収束を早める
モーメンタム係数0.9などで設定
詳細な説明
勾配に加え、過去の更新ベクトルを慣性項として加算することで、連続して同方向の勾配が生じたとき加速し、反対方向なら打ち消し合い、結果としてスムーズな最適化が行われる。
D16-24 ランダムサーチ
キーワード
ランダムサーチ
定義(1行)
ランダムサーチは、ハイパーパラメータの空間をランダムにサンプリングして探索し、計算コストを抑えつつ有望点を探す。
Random search samples hyperparameter space at random, reducing computation while searching for promising configurations.
具体例(3つ)
学習率や正則化係数を一様分布からランダム選択
グリッドサーチの代わりに試行回数を制限
ベイズ最適化の前段で粗い探索
詳細な説明
高次元のハイパーパラメータ空間では、グリッドサーチよりランダムサーチが少ない試行で広い範囲をカバーできる。効果的な初期探索手法としてよく使われる。