【F.ディープラーニングの応用例】AIを一言で伝える技術〜G検定完全対応〜

2025年1月25日 14:37

次の用語について、説明してください。
[STEP1] 一言で説明する。
[STEP2] 具体例を説明する。(可能なら3つ)
[STEP3] 用語を英語で言い換える。
[STEP4] 英語で一言で説明する。
[STEP5] 英語で具体例を説明する。(可能なら3つ)

F26-1 AlexNet

キーワード
AlexNet

定義(1行)
AlexNetは、大規模な畳み込みニューラルネットワークでImageNetを使い、従来を大幅に上回る画像認識性能を示した初期の画期的モデル。
AlexNet is a large-scale convolutional neural network that achieved a breakthrough in image recognition performance on ImageNet, surpassing previous methods by a large margin.

具体例(3つ)

2012年のILSVRCで他のモデルを圧倒
ReLU活性化とGPU学習による高速・高精度学習
畳み込み層とプーリング層を積み重ねた深さ8層程度の構成

詳細な説明
AlexNetは、ILSVRC 2012において圧倒的な誤差率改善を達成し、ディープラーニングブームを加速させた。ReLUによる勾配消失の緩和と、GPUを使った高速計算がポイント。5つの畳み込み層と3つの全結合層を含む構成で、大量データに対して高い認識精度を示した。

F26-2 DeepLab

キーワード
DeepLab

定義(1行)
DeepLabは、アトラス畳み込みやCRFなどを取り入れ、高精度のセマンティックセグメンテーションを実現するディープラーニングモデルシリーズ。
DeepLab is a series of deep learning models for semantic segmentation, incorporating atrous convolutions and CRFs for high-accuracy segmentation.

具体例(3つ)

DeepLabv1でアトラス(空洞)畳み込みにより受容野を拡大
DeepLabv2〜v3+でバックボーンをResNetなどに変更
オブジェクト境界付近の精密なセグメンテーション

詳細な説明
DeepLabは特にセマンティックセグメンテーション（画素単位のラベル付け）向けに設計されたネットワーク群であり、アトラス畳み込みを使うことで解像度を保ちつつ広い文脈を捉える。条件付き確率場(CRF)との組み合わせで輪郭の細部を改善。バージョンごとに様々な改良が加えられている。

F26-3 DenseNet

キーワード
DenseNet

定義(1行)
DenseNetは、各層が全ての先行層の出力を結合しながら特徴を蓄積するCNNアーキテクチャで、パラメータを効率的に活かす。
DenseNet is a CNN architecture in which each layer connects to all preceding layers’ outputs, accumulating features efficiently.

具体例(3つ)

Dense Blockで層が次々と特徴マップを連結
Transition Layerでチャネル数を削減しメモリを節約
ImageNet分類や医療画像解析において高い効率性

詳細な説明
DenseNetは、ResNetがスキップ接続で勾配伝播を改善したのに対し、より大きな接続（すべての層が前層すべてと接続）を導入。重複学習を防ぎつつ薄い層で深い特徴を融合できる利点がある。モデルサイズの割に高い性能を示す。

F26-4 EfficientNet

キーワード
EfficientNet

定義(1行)
EfficientNetは、ネットワークの幅・深さ・解像度をバランスよく拡張するCompound Scalingを採用し、高精度と軽量化を両立したCNN。
EfficientNet is a CNN that uses compound scaling of width, depth, and resolution to balance high accuracy with efficiency.

具体例(3つ)

EfficientNet-B0～B7など拡張度合いが異なるバリエーション
Mobile端末でも高精度推論が可能
ImageNet精度を上げつつパラメータや計算量を抑える

詳細な説明
EfficientNetは、ベースモデルに対して幅（channel数）、深さ（層数）、解像度（input size）を同時にスケーリングする「Compound Scaling」を提案し、無駄なく性能を向上させる。小型から大規模までスケールしやすい点が特徴。

F26-5 Fast R-CNN

キーワード
Fast R-CNN

定義(1行)
Fast R-CNNは、オブジェクト検出を高速化するために、CNNの特徴マップ上でRoIプーリングを行い、分類と回帰を同時に学習する手法。
Fast R-CNN speeds up object detection by performing RoI pooling on shared CNN feature maps, jointly learning classification and bounding box regression.

具体例(3つ)

R-CNNに比べ単一CNN前伝播で候補領域全てを解析
RoIプーリングで固定サイズ特徴を抽出
Pascal VOCなどで高い精度と高速性を実現

詳細な説明
R-CNNでは候補領域ごとにCNNを実行していたが、Fast R-CNNでは1度CNNを通した特徴マップから各RoIを切り出してプーリングするため、計算が大幅に削減された。最終的に分類器と回帰器で物体クラスと位置を出力する。

F26-6 Faster R-CNN

キーワード
Faster R-CNN

定義(1行)
Faster R-CNNは、Fast R-CNNにRegion Proposal Network (RPN)を組み込み、候補領域抽出をCNN内で統合した高効率なオブジェクト検出フレームワーク。
Faster R-CNN integrates a Region Proposal Network (RPN) into Fast R-CNN, generating region proposals within the CNN for efficient object detection.

具体例(3つ)

RPNが特定スケールのアンカーボックスをスライドさせ候補を出力
RoIプーリングで最終的な分類と回帰を実行
COCOやVOCで高い精度を示し、実用化が進む

詳細な説明
Faster R-CNNは、従来のSelective Searchなど外部手法を使うことなく、CNNの中で候補領域を提案するRPNを用いる。その候補をFast R-CNNのように分類・回帰することで、高速化と精度の両立を実現した。

F26-7 FCN (FullyConvolutional Network)

キーワード
FCN (FullyConvolutional Netwok)

定義(1行)
FCNは、全結合層を使わず、すべてを畳み込み層に置き換えて画像全体をピクセル単位でセマンティックセグメンテーションするモデル。
FCN replaces fully connected layers with convolutional ones, enabling pixel-wise semantic segmentation over an entire image.

具体例(3つ)

画像を入力し、出力も同サイズでクラスマップを出す
Downsampling後にアップサンプリング(Deconvolution)で解像度を復元
初期のセマンティックセグメンテーション手法として代表的

詳細な説明
FCNは、通常のCNNの最後にある全結合層を畳み込みに変換し、可変サイズの入力に対応しながらピクセル毎にクラスを割り当てる。解像度を取り戻すため、逆畳み込み（転置畳み込み）を使う場合が多い。

F26-8 FPN (Feature Pyramid Network)

キーワード
FPN (Feature Pyramid Network)

定義(1行)
FPNは、CNNの各階層の特徴マップを上位から下位へ集約し、マルチスケールな特徴を統合するネットワーク構造。
FPN aggregates feature maps from multiple CNN layers, combining top-down and bottom-up paths for multi-scale feature representation.

具体例(3つ)

オブジェクト検出で小物体から大物体まで精度向上
Faster R-CNNやRetinaNetなどに統合
特徴ピラミッドを構築し、各スケールで同質な特徴を取得

詳細な説明
FPNは深い層の抽象的特徴と浅い層の細かい位置情報を結合し、各レベルで共通チャンネル数の高解像度特徴マップを得る。マルチスケール物体検出やセグメンテーションなど多用途に使われる。

F26-9 GoogLeNet

キーワード
GoogLeNet

定義(1行)
GoogLeNetは、Inceptionモジュールを導入し、複数サイズの畳み込みを並列化して特徴を効率よく抽出するCNN。
GoogLeNet introduces the Inception module, using parallel convolutions of different sizes to efficiently capture diverse features.

具体例(3つ)

Inception-v1モデルでILSVRC 2014を制覇
1×1畳み込みでチャンネル次元を圧縮
Inception-v3, v4へバリエーション発展

詳細な説明
GoogLeNet (Inception-v1) は、5×5・3×3・1×1等を並列に適用し、その結果をチャネル方向で結合するInceptionモジュールが特徴。様々なスケールの特徴を一度に捉えられ、パラメータ効率にも優れる。

F26-10 Mask R-CNN

キーワード
Mask R-CNN

定義(1行)
Mask R-CNNは、Faster R-CNNにセマンティックマスク生成分岐を追加し、インスタンスセグメンテーションを実現する拡張モデル。
Mask R-CNN extends Faster R-CNN with a segmentation branch, producing masks for object instances in addition to bounding boxes.

具体例(3つ)

人物の輪郭マスクや他クラスのピクセル領域を推定
ステージ構造により境界を精密化
COCOなどでインスタンスセグメンテーションタスクを高精度に

詳細な説明
Mask R-CNNはオブジェクト検出＋セマンティックセグメンテーションを合わせたインスタンスセグメンテーションの手法。Region of Interest Align(ROIAlign)によりピクセルアラインメントを改善し、高精度なマスクを出力する。

F26-11 MnasNet

キーワード
MnasNet

定義(1行)
MnasNetは、モバイル向けにニューラルアーキテクチャサーチを用いて構築された軽量高性能なCNNモデル。
MnasNet is a lightweight, high-performance CNN model designed for mobile devices via neural architecture search.

具体例(3つ)

Googleがモバイル端末での効率を重視して開発
モジュール構成や層の深さを自動探索
後発のMobileNetV3などの基盤

詳細な説明
MnasNetはモバイル環境下での推論速度と精度のバランスを最大化するため、ニューラルアーキテクチャ探索により構造を最適化したモデル。後にMobileNetシリーズや他のNAS手法にも影響を与えた。

F26-12 MobileNet

キーワード
MobileNet

定義(1行)
MobileNetは、Depthwise Separable Convolutionを活用して軽量化し、モバイルや組込み機器向けに設計されたCNNモデル。
MobileNet uses depthwise separable convolutions for reduced computation, designed for mobile or embedded devices.

具体例(3つ)

MobileNetV1/V2で計算量を数分の1に削減
画像分類や物体検出を端末上で実行
スマートフォンのリアルタイム認識やAR応用

詳細な説明
MobileNetは並列・分解畳み込みを通じて演算量とパラメータを大幅に減らす。V2ではInverted ResidualやLinear Bottleneckが採用され、更に精度と効率を両立している。

F26-13 NAS (Neural Architecture Search)

キーワード
NAS (Neural Architecture Search)

定義(1行)
NASは、ネットワーク構造そのものを自動探索・最適化する手法で、人間の設計を超えるCNNアーキテクチャを見出すことを目的とする。
NAS is a method that automatically searches and optimizes neural network architectures, aiming to discover CNN structures surpassing human-designed models.

具体例(3つ)

MnasNetやEfficientNetなどモバイル向け最適化
強化学習や進化的アルゴリズムでアーキテクチャ検索
Hyper-parameterチューニングを含めたAutoMLの要素

詳細な説明
NASは、ある空間内でネットワーク構成（層数、フィルタサイズ、結合パターンなど）を探索し、評価を繰り返すことで最適解を探す。計算資源が膨大に必要だが、人手設計より優れた構造を生む可能性がある。

F26-14 Open Pose

キーワード
Open Pose

定義(1行)
OpenPoseは、人物画像や映像から骨格や関節位置をリアルタイム推定するオープンソースの姿勢推定システム。
OpenPose is an open-source system that estimates human skeletons and joint positions from images or video in real time.

具体例(3つ)

複数人の姿勢を同時に認識
体全体だけでなく手指や顔のキー点も推定
フィットネス解析やAR/VRアプリケーション

詳細な説明
OpenPoseはマルチパーソン・マルチパートの姿勢推定手法として先駆的に開発され、動画入力でもリアルタイム実行が可能。骨格キーポイントの信頼度マップとパフを推定し、人体の構造を推定する。

F26-15 PSPNet

キーワード
PSPNet

定義(1行)
PSPNetは、ピラミッドプーリングでグローバル文脈を捉え、セマンティックセグメンテーション精度を高めたモデル。
PSPNet enhances semantic segmentation accuracy by capturing global context through pyramid pooling.

具体例(3つ)

4段階のプーリングサイズで異なるスケール情報を統合
都市風景など大きな背景の認識精度改善
事前学習にResNetを使用して高精度実現

詳細な説明
PSPNetのPyramid Pooling Module (PPM) は、異なる空間スケールでプーリングした特徴を結合することで、広域の文脈情報を含むセマンティックマップを生成。大規模物体や背景の区別が得意になる。

F26-16 ResNet

キーワード
ResNet

定義(1行)
ResNetは、残差ブロックを導入し、勾配消失問題を緩和して非常に深い層を実現するCNNアーキテクチャ。
ResNet introduces residual blocks to alleviate gradient vanishing, enabling very deep CNN layers.

具体例(3つ)

ResNet-50やResNet-101などバリエーション
100層以上でも学習が安定
画像分類から物体検出、セグメンテーションまで幅広く応用

詳細な説明
ResNetは、shortcut(スキップ)結合で恒等写像を追加し、深い層でも誤差が伝わりやすい構造を採用。ILSVRCなどで大きな成功を収め、現在も多くの深層学習モデルの基本骨格として広く使われる。

F26-17 SegNet

キーワード
SegNet

定義(1行)
SegNetは、エンコーダデコーダ構造を用いたセマンティックセグメンテーション手法で、プーリング指標を用いて精度の高い復元を行う。
SegNet is a semantic segmentation architecture using an encoder-decoder structure, leveraging pooling indices for accurate upsampling.

具体例(3つ)

VGGベースのエンコーダと対照的デコーダでアップサンプリング
プーリング時の最大値位置を記憶しデコーダで再現
交通シーン解析やロボット視覚で利用

詳細な説明
SegNetでは、エンコーダが画像をダウンサンプルし、各プーリング層で最大値の位置を保存。デコーダ時にその位置を使ってアップサンプリングする。計算量が効率的で且つ詳細なセグメンテーションが可能。

F26-18 SENet

キーワード
SENet

定義(1行)
SENetは、チャネルごとに重みを再学習して重要度を変化させるSqueeze-and-Excitationモジュールを導入し、高精度を達成したCNN。
SENet incorporates a Squeeze-and-Excitation module to recalibrate feature channel weights, achieving high accuracy in CNN tasks.

具体例(3つ)

ResNetなど既存モデルにSEブロックを挿入
Channel-wiseの平均を絞り込んで重要チャネルを強調
ImageNet 2017で優勝

詳細な説明
SENetは各チャネルの全体特徴量を縮小（Squeeze）し、チャネルごとに学習したスケール（Excitation）をかけて強弱をつける。空間方向ではなくチャネル方向に着目する点が特徴で、いろんなベースネットに追加可能。

F26-19 SSD

キーワード
SSD

定義(1行)
SSD (Single Shot MultiBox Detector)は、マルチスケールのバウンディングボックスを一度の畳み込みで推定し、リアルタイム物体検出を可能にする。
SSD (Single Shot MultiBox Detector) predicts multi-scale bounding boxes in a single convolution pass, enabling real-time object detection.

具体例(3つ)

異なる解像度の特徴マップから複数サイズのアンカー生成
YOLOに匹敵する高速検出
Pascal VOCやCOCOでの実用性が高い

詳細な説明
SSDは、各スケールの特徴マップに対して複数のデフォルトボックス（アンカー）を設定し、一回のフォワードパスでクラス分類と位置回帰を同時に行う。軽量かつ高速で、端末上でのリアルタイム検出に適する。

F26-20 U-Net

キーワード
U-Net

定義(1行)
U-Netは、医療画像を中心にピクセル単位のセグメンテーションを行うエンコーダ・デコーダ構造で、スキップ接続により高精度を実現する。
U-Net is an encoder-decoder architecture for pixel-level segmentation, primarily in medical imaging, achieving high accuracy via skip connections.

具体例(3つ)

MRIや顕微鏡画像のセグメンテーション
エンコーダで特徴を圧縮しつつ各段階でスキップ結合
2Dや3Dバージョンが存在

詳細な説明
U-Netは医用画像解析で非常に人気が高く、エンコーダは通常の畳み込み＋プーリング、デコーダでアップサンプリングしつつ対応する層からスキップ接続で詳細情報を補う。少ないデータでも高精度が得られる設計。

F26-21 VGG

キーワード
VGG

定義(1行)
VGGは、3×3の小さな畳み込みフィルタを積み重ねて深くし、画像分類で高精度を達成したCNNモデル。
VGG is a CNN model stacking many small 3×3 convolutions to achieve depth and high accuracy in image classification.

具体例(3つ)

VGG16やVGG19など層数が異なるバリエーション
ImageNetで上位の性能を獲得
単純だが計算量が多い

詳細な説明
VGGはネットワーク構造をシンプル化し、フィルタサイズをすべて3×3に固定。深さを増やすことで表現力を高めた。計算コストやメモリ消費は大きいが、単純明快な構成で他タスクへの特徴抽出器としても使われる。

F26-22 Vision Transformer

キーワード
Vision Transformer

定義(1行)
Vision Transformerは、画像をパッチに分割して自己注意で処理し、CNNを使わずに高精度な画像認識を実現する手法。
A Vision Transformer divides an image into patches, using self-attention to process them without CNNs, achieving high accuracy in image tasks.

具体例(3つ)

パッチ埋め込みをトークンとしてTransformerへ入力
ImageNetでもResNet相当やそれ以上の性能
モデルサイズを大きくすると更に精度が向上

詳細な説明
Vision Transformer (ViT) は、画像を16×16などのパッチに分割し、テキストの単語のように扱う。自己注意機構で全パッチ間の関係を捉え、CNN的局所演算を回避しつつグローバルコンテキストも統合可能。

F26-23 Wide ResNet

キーワード
Wide ResNet

定義(1行)
Wide ResNetは、ResNetの深さをあまり増やさず幅を広げて学習効率を上げたバリエーション。
A Wide ResNet increases the width (channel count) rather than excessive depth, improving training efficiency over standard ResNet.

具体例(3つ)

WRN-28-10など層数28でチャネル幅10倍
深さを増やすより学習が安定しやすい
CIFAR-10やCIFAR-100で高精度の実績

詳細な説明
ResNetは非常に深くすると学習が困難になりやすい。Wide ResNetは深度を抑えつつチャネル数を増大することで表現力を確保し、トレーニングも高速化する。実際に多くのベンチマークで良好な精度が報告されている。

F26-24 YOLO

キーワード
YOLO

定義(1行)
YOLO (You Only Look Once)は、1回のCNN推論で物体検出と分類を同時に行う高速なエンドツーエンド検出手法。
YOLO (You Only Look Once) performs object detection and classification in a single CNN forward pass, offering fast end-to-end detection.

具体例(3つ)

YOLOv1〜v7まで改良版が多数
単一のネットワーク出力からバウンディングボックスとクラスを予測
リアルタイム処理が可能で自動運転や監視システムに応用

詳細な説明
YOLOはグリッド化された出力を使い、各セルが位置とクラススコアを予測する仕組み。マルチスケールアンカーの導入やBackbone刷新などで継続的に改良が進み、検出精度と速度の両面が向上している。

F26-25 一般物体認識

キーワード
一般物体認識

定義(1行)
一般物体認識は、画像内に存在する多様なカテゴリの物体を検出・分類するタスク。
General object recognition is the task of detecting and classifying a wide variety of object categories in an image.

具体例(3つ)

椅子やテーブルなど日常品の認識
Pascal VOCやMS COCOなど多クラスデータセット
Fast/Faster R-CNNやYOLOなどが主な手法

詳細な説明
画像内の任意の物体カテゴリ（動物、乗り物、家具など）を発見してラベル付けする。近年のディープラーニングで精度が飛躍的に向上し、産業や研究で幅広く応用される。

F26-26 インスタンスセグメンテーション

キーワード
インスタンスセグメンテーション

定義(1行)
インスタンスセグメンテーションは、画像中の各オブジェクトをピクセル単位で分割し、それぞれのインスタンスを識別するタスク。
Instance segmentation partitions each object instance at the pixel level in an image, distinguishing each instance separately.

具体例(3つ)

Mask R-CNNで人や車など個別にマスク生成
重なった物体も個別ラベルを付与
COCOデータセットの主要課題の1つ

詳細な説明
インスタンスセグメンテーションは、セマンティックセグメンテーション（カテゴリ単位）の上位タスクとして、同じカテゴリ内のオブジェクトを区別する。様々な領域で高度なシーン理解を要するため技術的に難易度が高い。

F26-27 姿勢推定

キーワード
姿勢推定 / Pose Estimation

定義(1行)
姿勢推定は、画像や動画内に映る人物や動物の関節位置を推定し、その身体の構造や動きを把握する技術。
Pose estimation is a technique that detects key joint positions of humans or animals in images or video, enabling an understanding of body structure and movement.

具体例(3つ)

フィットネスアプリでユーザーの動作フォームチェック
監視カメラ映像から異常行動や転倒をリアルタイム検知
スポーツ映像解析で選手の姿勢や動きを詳細に評価

詳細な説明
姿勢推定は通常、ディープラーニングの畳み込みニューラルネットワークを用いて関節キーポイントを検出する。OpenPoseのような代表的手法では、複数人のポーズも同時に推定可能。エンターテインメントやヘルスケア、ロボット制御など応用範囲が広い。精度向上やリアルタイム処理が進むにつれ、人間の動作分析やインタフェース設計での活用が拡大している。
Pose estimation commonly uses convolutional neural networks to locate joint keypoints. Methods like OpenPose handle multi-person detection. It finds applications in entertainment, healthcare, and robotics. As accuracy and real-time performance improve, its use cases in motion analysis and interface design continue to grow.

F26-28 セマンティックセグメンテーション

キーワード
セマンティックセグメンテーション / Semantic Segmentation

定義(1行)
セマンティックセグメンテーションは、画像の各ピクセルをクラスごとに分類し、対象物や背景をピクセル単位で識別する技術。
Semantic segmentation classifies every pixel in an image by class, distinguishing objects or background on a per-pixel basis.

具体例(3つ)

自動運転で車線や歩行者、標識などをピクセルレベルで認識
医療画像で臓器や病変領域を正確に切り分け
写真編集ソフトで人物と背景を自動で分離

詳細な説明
セマンティックセグメンテーションでは、FCN (Fully Convolutional Network) やU-Net、DeepLabなどのディープラーニングモデルが広く利用される。各ピクセルにクラスラベルを割り当てるため、物体の境界情報を細やかに認識できる。一方、インスタンスの区別はしないため、同一クラスに属する複数オブジェクトは1つの領域として扱われる。
Semantic segmentation employs models like FCN, U-Net, or DeepLab, assigning class labels to each pixel. It precisely captures object boundaries but doesn’t distinguish multiple objects of the same class, merging them into a single region.

F26-29 物体検出

キーワード
物体検出 / Object Detection

定義(1行)
物体検出は、画像や動画内に存在する特定クラスの物体を見つけ出し、その位置をバウンディングボックスなどで示す技術。
Object detection locates specific class objects in images or video, indicating their positions with bounding boxes or similar markers.

具体例(3つ)

防犯カメラ映像で人や車を自動検出しアラート
スマホカメラで物体名をリアルタイム表示するAR機能
小売店舗で在庫管理のため棚の中の品物を自動カウント

詳細な説明
物体検出は、Faster R-CNN、SSD、YOLOなどのアルゴリズムが有名。クラス分類と位置推定を同時に実行し、複数の物体を同一フレームで検出可能。リアルタイム性能や精度向上が進み、監視や自動運転など幅広い分野で利用される。
Faster R-CNN, SSD, and YOLO are prominent object detection algorithms. They perform classification and localization concurrently, detecting multiple objects in a single frame. With advancements in speed and accuracy, the technique is widely applied in surveillance, autonomous driving, and more.

F26-30 物体識別

キーワード
物体識別 / Object Recognition (Object Classification)

定義(1行)
物体識別は、画像内に存在する対象が何のクラスか(例: 犬、猫、車)を判別するタスク。
Object recognition identifies the class of an object in an image (e.g., dog, cat, car).

具体例(3つ)

スマホの写真アプリで動物や食べ物など自動分類
防犯カメラが不審物を識別して通報
画像検索エンジンがアップロード画像と類似するカテゴリを提案

詳細な説明
物体識別は、画像全体を単一のクラスとして分類する場合を指す。物体検出が位置も特定するのに対し、物体識別は主に「何のクラスか」を判定するのみ。AlexNetやResNetのようなCNNモデルが画像分類で高い精度を示し、様々な応用が可能になっている。
Object recognition assigns a single label to the entire image, differentiating it from object detection, which locates instances. CNNs like AlexNet or ResNet offer high accuracy, enabling numerous classification-based applications.

F26-31 パノプティックセグメンテーション

キーワード
パノプティックセグメンテーション / Panoptic Segmentation

定義(1行)
パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションを統合し、すべてのピクセルにクラスと個別インスタンス情報を付与する技術。
Panoptic segmentation fuses semantic and instance segmentation, assigning both class and individual instance labels to every pixel.

具体例(3つ)

画像内の道路(背景)と複数台の車(インスタンス)を同時に識別
混雑した街並みで人物ごとに異なる領域を塗り分けつつ背景クラス分割
ロボットビジョンで机や椅子など背景物と対象物を細かく区別

詳細な説明
パノプティックセグメンテーションでは、背景のような「モノリシック」なクラスと、物体のような「インスタンスクラス」を一枚のマップで統合的にセグメンテーションする。従来のセマンティックセグメンテーションだけでは同一クラス内の複数物体を区別できず、インスタンスセグメンテーションだけでは背景をクラス分けするのが困難。両者を組み合わせることで、シーン全体をより豊かに理解できる。
Panoptic segmentation unifies “stuff” classes (like background) and “instance” classes (objects) in one map. Semantic-only approaches can’t differentiate multiple objects of the same class, while instance-only approaches struggle with background classification. Combined, they enable richer scene understanding.

F27-1 BERT

キーワード
BERT

定義(1行)
BERTは、自己注意型Transformerを用い、マスクされた単語予測などで事前学習することで汎用言語表現を提供するモデル。
BERT is a model that uses a Transformer architecture with self-attention, pretrained on masked word prediction to provide general-purpose language representations.

具体例(3つ)

MLMとNext Sentence Predictionで学習
多様なNLPタスク（感情分析、質問応答など）で微調整が簡単
BERT-baseやBERT-largeなどサイズ展開

詳細な説明
BERT (Bidirectional Encoder Representations from Transformers) は両方向の文脈を捉えるために自己注意を用いる。大規模コーパスで事前学習し、下流タスクに適用する際は出力層だけ調整すれば高性能が得られる。

F27-2 BoW (Bag-of-Words)

キーワード
BoW (Bag-of-Words)

定義(1行)
BoWは、文書を単語の出現頻度ベクトルとして表し、語順や構文を考慮しない古典的テキスト表現。
A bag-of-words (BoW) represents a document as a vector of word counts, ignoring word order or syntax.

具体例(3つ)

各単語の出現回数を特徴量にしたスパムメール検出
TF-IDFと組み合わせて単純な文書分類
語順情報は失うが計算がシンプル

詳細な説明
BoWは単語リストに従い、文書内での頻度を計算してベクトル化する。語の並びを失うため文脈を捉えにくいが、伝統的手法としてテキストマイニングの基本。のちにword2vecなど分散表現が主流となった。

F27-3 CBOW

キーワード
CBOW

定義(1行)
CBOW (Continuous Bag-of-Words)は、周囲の単語から中心単語を予測する方式で単語埋め込みを学習する手法。
CBOW (Continuous Bag-of-Words) learns word embeddings by predicting the center word given its surrounding context words.

具体例(3つ)

「I went to the [blank] to buy milk」のように空所を当てる
word2vec実装の一部
周囲単語を足し合わせた表現から中心単語を分類

詳細な説明
CBOWでは、コンテキスト（前後単語）を入力にし、ターゲット（中心単語）を出力として学習。周囲の情報を集約するため、高頻度語では学習効率が高いが詳細な順序情報は薄い。

F27-4 CEC

キーワード
CEC

定義(1行)
CECは、LSTMのセル状態（cell state）を指し、長期情報を保持するためのゲート付きメモリ要素。
CEC refers to the cell state in an LSTM, a gated memory mechanism retaining long-term information.

具体例(3つ)

LSTM内部で忘却ゲートと入力ゲートの制御を受ける
時系列データで古い情報を維持
感情分析で文脈を長く繋げる

詳細な説明
CEC（Constant Error Carousel）という用語はLSTM論文で使われ、勾配が長期間失われないようセル状態が直接次ステップに伝わる。ゲートを通じて必要な情報のみが蓄積/消去される。

F27-5 ChatGPT

キーワード
ChatGPT

定義(1行)
ChatGPTは、大規模言語モデルを対話形式で微調整したサービスで、自然な文章応答や創造的生成を提供する。
ChatGPT is a service built on a large-scale language model fine-tuned for conversational use, generating natural text responses and creative content.

具体例(3つ)

質問への解答、文章要約、コード生成
ユーザーとの対話履歴を踏まえ継続的に回答
教育分野やカスタマーサポートでの応用

詳細な説明
ChatGPTはGPT系列の言語モデルに対し、InstructやRLHF（人間のフィードバックを用いた強化学習）などを施し、より自然で安全な対話機能を実現。多彩なタスクに対応できる汎用的チャットエージェントとして注目される。

F27-6 ELMo

キーワード
ELMo

定義(1行)
ELMoは、BiLSTMを基盤に単語ごとの文脈ベクトルを生成する言語表現モデルで、文脈依存の単語埋め込みを提供する。
ELMo is a language model producing context-dependent word embeddings using BiLSTM, capturing each word’s dynamic representation in a sentence.

具体例(3つ)

同じ単語でも文脈に応じて異なるベクトル
SQuADなど多様なNLPベンチマークで改善
Deep BiLSTMで複数層の表現を組み合わせる

詳細な説明
ELMo (Embeddings from Language Models) はRNNベースで文脈ごとの単語表現を学習する点が従来の静的単語ベクトル(word2vec, GloVe)と異なる。BERT以前に文脈埋め込みの有効性を示した先駆けとなった。

F27-7 fastText

キーワード
fastText

定義(1行)
fastTextは、Facebookが開発した軽量かつ高速な単語埋め込み生成ツールで、サブワード単位の学習により未知語にも対応する。
fastText is a lightweight, efficient word embedding tool by Facebook, using subword-level learning to handle unknown words.

具体例(3つ)

語幹や接尾辞を含むサブワード粒度でベクトル化
絵文字や複合語も比較的うまく表現
単純なテキスト分類でも高速高精度

詳細な説明
fastTextは単語を文字n-gram単位に分解し、未知の単語でも共通部分を再利用して表現。辞書外の新語に強く、学習・推論ともに高速。大規模コーパス処理にも向く。

F27-8 GLUE

キーワード
GLUE

定義(1行)
GLUEは、文意分類やテキスト含意など複数のNLPタスクを含む評価ベンチマークで、モデルの総合的性能を比較する指標となる。
GLUE is a benchmark composed of multiple NLP tasks such as textual entailment or sentence classification, serving as a comprehensive measure of model performance.

具体例(3つ)

SST-2(感情分析)、MNLI(含意)、QQP(重複質問判定)などで構成
BERTやRoBERTaなどが一斉に比較
近年はSuperGLUEなど上位版も登場

詳細な説明
GLUE (General Language Understanding Evaluation) はさまざまな難易度のタスクをまとめ、モデルが汎用的に言語を理解できるかを検証する。多くの研究がこのスコア向上を目標として開発が行われる。

F27-9 GPT-n

キーワード
GPT-n

定義(1行)
GPT-nは、OpenAIが開発する自己回帰型トランスフォーマーモデルGPTシリーズの総称で、nはバージョン番号を表す。
GPT-n refers to the series of self-regressive Transformer models developed by OpenAI, with n indicating the version number.

具体例(3つ)

GPT-2, GPT-3が大規模パラメータ数を持ち話題に
GPT-4など更なる高性能化
テキスト生成や翻訳、文章要約など多用途

詳細な説明
GPTはトランスフォーマーのデコーダを基盤とし、膨大なテキストで事前学習した自己回帰モデル。バージョンアップに伴いパラメータ数やデータ量が増大し、より洗練された言語生成や理解が可能となっている。

F27-10 N-gram

キーワード
N-gram

定義(1行)
N-gramは、連続するN個の単語や文字の並びを単位として、言語モデルやテキスト解析を行うシンプルな確率的手法。
An N-gram is a sequence of N consecutive words or characters used as units in language models or text analysis, employing a simple probabilistic approach.

具体例(3つ)

バイグラム(2-gram)やトライグラム(3-gram)で次単語予測
形態素単位のN-gramで文書分類
語順情報を一部保持するが文長が増えるとカバー困難

詳細な説明
N-gramでは有限の文脈長まで考慮して統計をとり、単純ながらも計算が容易で初期の言語モデルやスパム検出などに広く用いられた。長距離依存を捉えにくいという欠点がある。

F27-11 PaLM

キーワード
PaLM

定義(1行)
PaLMは、Googleが開発した大規模言語モデルで、数千億～数兆規模のパラメータを持ち、高度な言語理解と生成能力を備える。
PaLM is a large-scale language model by Google, featuring hundreds of billions to trillions of parameters for advanced language understanding and generation.

具体例(3つ)

広範なタスク（会話、翻訳、推論）に対応
スケールアップによりFew-shot性能が向上
データセンター級GPU/TPUを使う大規模学習

詳細な説明
PaLM (Pathways Language Model)は、Googleが大規模分散学習とPathwaysアーキテクチャを活用して開発した言語モデル。巨大なモデルサイズが高い推論力を可能にし、汎用AIに近いタスク適応が期待されている。

F27-12 Seq2Seq

キーワード
Seq2Seq

定義(1行)
Seq2Seqは、可変長の入力系列を別の可変長系列へ変換するためのエンコーダ・デコーダ構造を用いたニューラルアーキテクチャ。
Seq2Seq is a neural architecture using an encoder-decoder framework to convert a variable-length input sequence into another variable-length output sequence.

具体例(3つ)

機械翻訳で英語文を日本語文に出力
文書要約タスクで長文→短文
Speech-to-Textで音声波形を文字列に変換

詳細な説明
Seq2Seqはエンコーダが入力を潜在表現に変換し、デコーダがそこから出力文を生成する仕組み。Attention機構を組み合わせることで長い系列も扱いやすくなり、翻訳・対話・要約など様々なNLPタスクに活用される。

F27-13 TF-IDF

キーワード
TF-IDF

定義(1行)
TF-IDF (Term Frequency–Inverse Document Frequency)は、単語の出現頻度と逆文書頻度を組み合わせて特徴量化するテキスト表現。
TF-IDF (Term Frequency–Inverse Document Frequency) combines word occurrence frequency with inverse document frequency for text feature representation.

具体例(3つ)

検索エンジンで頻出しすぎる単語を抑制
スパムメールの重要キーワード抽出
単純なBoWに重み付けを加えて精度向上

詳細な説明
TF-IDFは、ある文書でよく出現する語を高評価しつつ、コーパス全体で頻出する語は重要度を下げる指標。古典的だが高速で直感的なため、情報検索やテキスト分類で今も広く使われる。

F27-14 word2vec

キーワード
word2vec

定義(1行)
word2vecは、単語を連続ベクトル空間に埋め込み、単語間の類似性を捉える分散表現学習アルゴリズム。
word2vec learns distributed vector representations of words, capturing semantic similarities in a continuous space.

具体例(3つ)

CBOWとSkip-gramの2手法を提供
king - man + woman ≈ queenのようなベクトル計算
大規模テキストコーパスから語彙埋め込みを事前学習

詳細な説明
word2vecはGoogleが開発し、自然言語処理に革命をもたらした。Skip-gramは中心単語から周囲を予測、CBOWは周囲から中心単語を予測する。語同士の類似度やベクトル演算で意味関係を捉えられることが示された。

F27-15 感情分析

キーワード
感情分析

定義(1行)
感情分析は、テキストや音声などから話者や筆者の感情や主観的態度（肯定・否定など）を分類するタスク。
Sentiment analysis classifies the speaker’s or author’s emotional or subjective stance (e.g., positive or negative) in text or speech.

具体例(3つ)

ツイートやレビューで「良い/悪い」を判定
カスタマーサポートでユーザーの不満度測定
映画評論サイトの星評価に基づく感情分類

詳細な説明
感情分析はユーザーの意見抽出や評判管理に利用され、単純なポジ・ネガ分類から喜怒哀楽など多クラス分類まで広がる。ディープラーニングや大規模言語モデルの活用により精度が向上している。

F27-16 機械翻訳

キーワード
機械翻訳

定義(1行)
機械翻訳は、ある言語で書かれた文章を他の言語に自動的に変換する技術。
Machine translation automatically converts text from one language to another.

具体例(3つ)

統計的機械翻訳（SMT）で対訳コーパスから学習
ニューラル機械翻訳（NMT）でSeq2Seqモデルを使用
Google翻訳やDeepLなどのオンライン翻訳サービス

詳細な説明
かつてはルールベース・統計的手法が主流だったが、近年はニューラルベースの手法が性能を飛躍的に上げている。多言語コーパスや大規模モデルを活用し、高精度かつ文脈的な翻訳を可能にしている。

F27-17 形態素解析

キーワード
形態素解析

定義(1行)
形態素解析は、文を形態素（単語や語幹など）に分割し、それぞれの品詞や語形を特定する自然言語処理技術。
Morphological analysis splits sentences into morphemes (words or stems) and identifies their parts of speech or inflection forms.

具体例(3つ)

日本語の分かち書きや品詞付与 (名詞, 動詞, 助詞など)
MeCabやKyTea、Sudachiなどのツール
単語辞書や文法ルールを参照して解析

詳細な説明
特に日本語や韓国語などスペースで分割されない言語で必須の前処理ステップ。機械翻訳やテキストマイニングなど様々な下流タスクにおいて形態素レベルの単位が分析の基盤となる。

F27-18 構文解析

キーワード
構文解析

定義(1行)
構文解析は、文中の単語や句の文法的関係を木構造などで解析し、主語・述語・修飾語などの階層構造を明らかにする。
Syntactic parsing determines the grammatical relationships among words or phrases in a sentence, often represented as a tree showing hierarchy.

具体例(3つ)

係り受け解析で主語や目的語を抽出
CFGや依存文法に基づいたパース
英語の構文木を生成し文構造を理解

詳細な説明
構文解析は文法規則に基づき、単語列を階層的に構造化して文意を捉える。依存構文解析や句構造文法など手法があり、自然言語理解や情報抽出に不可欠なステップとなる。

F27-19 質問応答

キーワード
質問応答

定義(1行)
質問応答は、文章や知識ベースから問いに対する答えを直接返すシステムやアルゴリズムを指す。
Question answering refers to systems or algorithms that provide a direct answer to a query from text or a knowledge base.

具体例(3つ)

SQuADなどで段落内から答えのフレーズを抽出
ChatGPTの対話的応答
検索エンジンの強化により瞬時に回答表示

詳細な説明
QAは単なるドキュメント検索とは異なり、ユーザーの質問に対して該当箇所を抜き出すか、生成型で回答を行う。大規模言語モデルの登場で高度な推論的応答も可能となった。

F27-20 情報検索

キーワード
情報検索

定義(1行)
情報検索は、ユーザーのクエリに基づいて文書データベースやウェブから関連情報を抽出し、ランキングする技術全般。
Information retrieval encompasses methods that retrieve and rank relevant documents from a database or the web based on a user query.

具体例(3つ)

Web検索エンジンでキーワード一致＋PageRankなど
TF-IDFやBM25などテキストマッチング手法
ベクトル検索で意味的近さを測る

詳細な説明
従来はキーワードベースが中心だったが、近年は分散表現による意味検索が進展。大規模コーパスを扱うためにインデックス作成やランキングアルゴリズムが重要な研究領域となっている。

F27-21 スキップグラム

キーワード
スキップグラム

定義(1行)
スキップグラムは、中心単語から周囲単語を予測する手法で、word2vecの主要学習方式の一つ。
Skip-gram is a word2vec training method that predicts surrounding words from a center word.

具体例(3つ)

中心語を入力し、一定ウィンドウ内の単語を出力層で確率的に予測
CBOWと逆方向の関係
まれな単語を学習しやすい利点

詳細な説明
スキップグラムは(中心単語→周辺単語)というフレームワークで単語埋め込みを学習。高頻度単語は何度も学習されるため計算コストがかかるが、希少単語の表現を捉えやすい特徴がある。

F27-22 単語埋め込み

キーワード
単語埋め込み

定義(1行)
単語埋め込みは、単語を連続ベクトルにマッピングし、意味や文脈を捉える低次元表現を学習する技術。
Word embedding maps each word to a continuous vector, capturing semantic or contextual relationships in a lower-dimensional space.

具体例(3つ)

word2vecやGloVeなど静的埋め込み
BERTなど文脈埋め込みで単語多義を扱う
类似度計算や類推タスクで活用

詳細な説明
単語埋め込みは離散的な単語をベクトル化し、単語間の意味的距離を連続空間で扱う。コンテキストを考慮しない固定ベクトルから、最近はBERT系の文脈依存表現が主流になりつつある。

F27-23 分散表現

キーワード
分散表現 / Distributed Representation

定義(1行)
分散表現は、高次元ベクトルで概念を表し、意味や特徴を複数次元に分散して保持するアプローチ。
A distributed representation encodes concepts in high-dimensional vectors, distributing semantic or feature information across multiple dimensions.

具体例(3つ)

単語や文書をベクトルで表すword2vec, GloVe
グラフのノード埋め込み
画像特徴をCNNで学習した潜在ベクトル

詳細な説明
分散表現はシンボリック表現に比べ、類似概念が近いベクトル空間に配置されるため汎化が得やすい。ニューラルネットワークの学習成果として出力される潜在的ベクトルが典型例である。

F27-24 文書要約

キーワード
文書要約

定義(1行)
文書要約は、長いテキストから重要内容を抽出または生成し、短い要約文にまとめる自然言語処理タスク。
Document summarization shortens a long text into a concise summary by extracting or generating key information.

具体例(3つ)

ニュース記事を数行のハイライトに圧縮
抽出的要約では重要文を選択、生成的要約では新文章を生成
法律文など冗長文書の要点把握

詳細な説明
要約は抽出型（元の文から直接ピックアップ）と生成型（新たな文を組成）がある。Transformerや強化学習を用いた手法が開発され、大規模言語モデルでも高品質要約が可能になっている。

F27-25 ワンホットベクトル

キーワード
ワンホットベクトル

定義(1行)
ワンホットベクトルは、単語やカテゴリをベクトル長と同じ次元で、1つの成分のみ1で他は0とする離散的表現。
A one-hot vector represents a word or category with a vector where exactly one element is 1 and all others are 0, forming a discrete representation.

具体例(3つ)

単語辞書サイズ5,000で各単語を5,000次元で表す
クラスラベルを独立成分として管理
単語同士の類似度が0になり意味関係を捉えにくい

詳細な説明
ワンホットはシンプルで計算もしやすいが、高次元かつ語間の関連度を示せない。これを改善したのがword2vecなどの分散表現である。

F27-26 LLM (大規模言語モデル)

キーワード
LLM (大規模言語モデル)

定義(1行)
LLMは、数十億から数千億規模のパラメータを持つニューラル言語モデルで、高度な文章生成や理解を可能にする。
A large language model (LLM) has billions to hundreds of billions of parameters, enabling advanced text generation and comprehension.

具体例(3つ)

GPT-3やPaLMなど数千億パラメータ以上
ChatGPTのような対話システムに応用
Few-shot学習やZero-shot性能が飛躍

詳細な説明
LLMは膨大なデータと巨大モデルを組み合わせて高い言語処理性能を得る。多くの下流タスクで微調整（finetuning）やIn-Context Learningによって汎用的に利用され、新たなAIアプリ開発を加速させている。

F27-27 統計的機械翻訳

キーワード
統計的機械翻訳

定義(1行)
統計的機械翻訳は、対訳コーパスから単語・フレーズの翻訳確率を学習し、最も確からしい訳文を生成する手法。
Statistical machine translation learns word and phrase translation probabilities from parallel corpora, generating the most likely translated sentence.

具体例(3つ)

IBM ModelやPhrase-based SMTが代表
フレーズテーブルと言語モデルを組み合わせる
NMT登場以前の主流手法

詳細な説明
統計的機械翻訳(SMT)は、対訳データをもとに翻訳確率と言語モデルを推定し、ビタビ探索などで最適訳を探す。ニューラル機械翻訳が出現するまで主に使われていたが、現在はNMTが置き換えつつある。

F28-1 A-D 変換

キーワード
A-D 変換

定義(1行)
アナログ信号をディジタル信号に変換し、音声波形をコンピュータが扱える形にする処理。

具体例(3つ)

マイクで拾った音声をサンプリングしてPCMデータに
オーディオインタフェースで24bit/48kHzなどの形式に変換
ADCチップを用いて電圧信号をディジタル値に

詳細な説明
アナログ波形を一定周期でサンプリングし、各サンプルの振幅を量子化して数値化する工程がA-D変換。サンプリング周波数や量子ビット深度をどう設定するかが音質や解析精度を左右する。

F28-2 WaveNet

キーワード
WaveNet

定義(1行)
WaveNetは、カジュアル畳み込みを重ねて時系列音声波形を直接生成する、深層生成モデル。

具体例(3つ)

音声合成で自然で流暢な発話を実現
Google Assistantの音声を高品質に
音楽や雑音の生成にも応用

詳細な説明
WaveNetはディープラーニングで直接波形をモデリングし、カジュアル（因果）畳み込みを使って時系列順に信号を生成する。従来のボコーダを超える品質で、人の声に近い合成音を作り出すことが可能。

F28-3 音韻

キーワード
音韻

定義(1行)
音韻は、言語学で定義される音声の最小構造単位で、音素より広い概念として特定言語の音体系を扱う。

具体例(3つ)

英語の音韻体系で強勢やリエゾンなどが含まれる
日本語のモーラや拍の扱い
音声認識で言語固有の音韻ルールを考慮

詳細な説明
音韻は、ある言語の音声構造を規定する要素で、実際の音声実現（音素）とはやや異なる抽象的単位。言語学・音声学で音の連なりや変化を体系的に説明する際に使われる。

F28-4 音声合成

キーワード
音声合成

定義(1行)
音声合成は、テキストやパラメータから人の声のような音を人工的に生成する技術。

具体例(3つ)

TTS(Text To Speech)エンジンで読み上げ機能
WaveNet系やVITSなどのニューラル音声合成
合成音声でナビやアシスタントアプリが動作

詳細な説明
音声合成は、記録された音素を繋げるConcatenative手法や、ニューラルネットで波形を直接生成する手法などがある。近年は深層学習により自然なイントネーションや声色が得られるようになっている。

F28-5 音声認識

キーワード
音声認識

定義(1行)
音声認識は、人間の発話を入力としてテキストなどのディジタルデータに変換する技術。

具体例(3つ)

スマホの音声アシスタントで音声コマンドをテキスト化
会議の自動議事録生成システム
車載ナビで音声操作

詳細な説明
音声認識は、特徴抽出（MFCCなど）と音響モデル（HMM、RNN、CTCなど）および言語モデルの組み合わせで実現される。ディープラーニングの進歩により高精度化が著しい。

F28-6 音素

キーワード
音素

定義(1行)
音素は、意味区別を行う最小の音声単位で、言語によって異なる音素集合を持つ。

具体例(3つ)

英語での/r/と/l/
日本語での「か行」「さ行」などの子音と母音
音声認識で音素単位のHMMモデルを構築

詳細な説明
音素は、その言語内で単語の意味を区別する最小の音声要素を指す。英語では44程度、日本語では15程度の子音と5つの母音があるなど、言語ごとに異なる。

F28-7 隠れマルコフモデル

キーワード
隠れマルコフモデル (HMM)

定義(1行)
HMMは、観測されない内部状態のマルコフ連鎖を仮定し、観測系列との対応関係を確率的に表す時系列モデル。

具体例(3つ)

音声認識で音素系列を状態として扱う
形態素解析で品詞列を状態とみなす
部分的観測データに対して最大確率推定

詳細な説明
HMMは「隠れ状態」と「観測」を確率的に関連付ける。Viterbiアルゴリズムなどで最も尤もらしい状態列を推定。音声認識では長らく主流だったが、深層学習に移行する流れもある。

F28-8 感情分析

キーワード
感情分析

定義(1行)
音声感情分析は、声質や抑揚などの特徴量から話者の感情状態を推定する技術。

具体例(3つ)

コールセンターの通話で怒り・不満を早期察知
ロボットがユーザーの喜怒哀楽を認識
カーナビがドライバーの苛立ち度を検知

詳細な説明
声のピッチやエネルギー、フォルマント変化などを分析し、感情カテゴリを分類する。テキスト感情分析と併用する場合もあり、顕在的・潜在的感情の推定に役立つ。

F28-9 高速フーリエ変換 (FFT)

キーワード
高速フーリエ変換 (FFT)

定義(1行)
FFTは、ディジタル信号を周波数成分に分解する効率的なアルゴリズムで、スペクトル解析の基盤。

具体例(3つ)

音声波形から周波数スペクトルを求める
音楽のトーン解析や音素特徴抽出
音響機器の周波数特性測定

詳細な説明
FFTはO(N log N)の計算量でフーリエ変換を実現。音声認識や合成の前処理として、短時間フーリエ変換(STFT)などを行い時間周波数表現を得るのに用いられる。

F28-10 スペクトル包絡

キーワード
スペクトル包絡

定義(1行)
スペクトル包絡は、音声スペクトルにおける振幅の滑らかな輪郭で、音色や声質の特徴を捉えるパラメータ。

具体例(3つ)

音声合成でボコーダーがスペクトル包絡を再構成
歌声や話者識別でフォルマント構造を要約
ピッチより長期的な周波数分布を捉える

詳細な説明
スペクトル包絡は各周波数帯のエネルギーレベルを連続的に示し、フォルマントや共鳴周波数を反映する。音声変換・合成で重要で、音色や話者の特徴に深く関係する。

F28-11 パルス符号変調器 (PCM)

キーワード
パルス符号変調器 (PCM)

定義(1行)
PCMは、音声などのアナログ信号を一定間隔でサンプリングし量子化してディジタル符号化する代表的方式。

具体例(3つ)

16bit, 44.1kHzのCD音源フォーマット
電話回線の8kHz, 8bitμ-law圧縮
デジタルオーディオ機器で標準的

詳細な説明
PCMはA-D変換の基本プロトコルで、サンプルごとの振幅値をビット列にエンコードする。サンプリング周波数と量子化ビット深度が音質を決定づける。

F28-12 フォルマント

キーワード
フォルマント

定義(1行)
フォルマントは、音声のスペクトル中で特にエネルギーが集中する周波数帯で、母音などの声質を規定する。

具体例(3つ)

F1, F2, F3など母音を弁別
/a/は低めのF1と高めのF2
話者識別ではフォルマントの個人差が重要

詳細な説明
フォルマントは声道の共鳴によって生じ、母音などで明確に観測される。音声分析や合成でフォルマント周波数と帯域を調整することで自然な発声を再現する。

F28-13 フォルマント周波数

キーワード
フォルマント周波数

定義(1行)
フォルマント周波数は、声道の共鳴によるピーク周波数で、特にF1, F2, F3などの値が母音識別に寄与する。

具体例(3つ)

F1が高いと開口度が大きい母音(/a/など)
F2が大きいと前舌母音(/i/など)
話者の声道特性により個々のフォルマントが変化

詳細な説明
フォルマント周波数は音声のスペクトル包絡における主要なピーク位置。母音認識・音声合成で重要であり、F1～F3を中心に音色・話者特性を大きく左右する。

F28-14 メル周波数ケプストラム係数 (MFCC)

キーワード
メル周波数ケプストラム係数 (MFCC)

定義(1行)
MFCCは、人間の聴感特性に近いメルスケール上でスペクトルを表し、音声認識の特徴量として広く使われる。

具体例(3つ)

フィルタバンクでメルスケール分割
ログ振幅を離散コサイン変換してケプストラム係数に
HMMやDNNベースの音声認識で標準的に採用

詳細な説明
MFCCはメルスケールで周波数帯を等感覚的に分割し、対数振幅をケプストラム化。低次元かつ音声のスペクトル特徴を効率よく捉えるため、伝統的音声認識で最も用いられてきた。

F28-15 メル尺度

キーワード
メル尺度

定義(1行)
メル尺度は、人間の聴覚が感じる音の高さを等間隔に分割するスケールで、周波数との非線形変換を定義する。

具体例(3つ)

1kHz付近を基準にしメル変換を定義
メルフィルタバンクでMFCC抽出
200Hz以下は細かく、2kHz以上は広く分割

詳細な説明
人間の音の高さ感覚は周波数が上がると線形ではなく鈍感になる。メル尺度はその特性を近似し、音声処理で感覚的に意味のある特徴抽出を行うのに用いられる。

F28-16 話者識別

キーワード
話者識別

定義(1行)
話者識別は、入力された音声が誰のものかを特定（認証・認識）する技術。

具体例(3つ)

生体認証として声紋登録とマッチング
複数人会話で誰が話したかの区別
個人の声質や特徴量を学習

詳細な説明
話者識別は音響特徴（ピッチ、フォルマント、スペクトル包絡など）をモデル化し、学習したプロファイルと一致度を比較する。近年は深層学習を活用し、雑音や感情変化下でも高精度になっている。

F28-17 CTC

キーワード
CTC

定義(1行)
CTC (Connectionist Temporal Classification)は、音声など可変長入力をラベル列にマッピングするための損失関数とアルゴリズム。

具体例(3つ)

音声認識で入力フレーム数と出力文字数が異なる
空白トークン(blank)を挟んでアラインメントを学習
DeepSpeechやRNN-Tで使用

詳細な説明
CTCは、フレーム毎に文字やブランクを出力して重複を結合し最終文字列とする。事前にアラインメント不要で学習でき、RNNやTCNと併用してエンドツーエンド音声認識を実現する。

F29-1 A3C

キーワード
A3C

定義(1行)
A3C (Asynchronous Advantage Actor-Critic)は、マルチスレッドで複数エージェントを並行学習させる強化学習手法。

具体例(3つ)

各スレッドが環境とやり取りし独立にActor-Criticを更新
Atariゲームや連続制御タスクを効率的に学習
探索・収束を高速化

詳細な説明
A3CはActor-Critic型アルゴリズムを非同期に動かすことで、計算資源をフル活用し、勾配が多様化するため局所解回避にも効果的。DeepMindがAtariで高い成果を示した。

F29-2 Agent57

キーワード
Agent57

定義(1行)
Agent57は、DeepMindが開発した強化学習エージェントで、Atari 57ゲームすべてを人間水準以上にクリアした初の手法。

具体例(3つ)

探索ポリシーを複数の異なる設定で学習
学習効率が低いレア報酬ゲーム(モンテズUMA等)も攻略
ベースはRainbowや分散RLの要素を統合

詳細な説明
Agent57は探索パラメータを異なる複数のエージェントで並行学習し、それぞれの経験を統合する仕組みを導入。あらゆるAtariゲームで人間以上を達成する汎用性を示した。

F29-3 APE-X

キーワード
APE-X

定義(1行)
APE-Xは、分散環境で多数のワーカーが経験を収集し、リプレイメモリに送る高スループット強化学習フレームワーク。

具体例(3つ)

DQNやRainbowを並列で大量に学習
大規模クラスタでワーカーが学習データを供給
Replay Bufferに優先度サンプリングを適用

詳細な説明
APE-X (Distributed Prioritized Experience Replay) はActorを多重起動し、大量のトランジションを高速に集め、リプレイメモリから学習を行う。学習速度とサンプル効率を向上できる設計。

F29-4 DQN

キーワード
DQN

定義(1行)
DQN (Deep Q-Network)は、ディープニューラルネットワークでQ値を近似し、Atariゲームを人間レベルでプレイ可能にした強化学習手法。

具体例(3つ)

画像(フレーム)を入力し行動価値Qを出力
Experience Replayでサンプル相関を低減
ターゲットネットワークで安定化

詳細な説明
DQNはQ学習をCNNで実装し、Atari2600ゲームにおいて大きな成功を収めた。リプレイメモリでオフポリシー学習を行い、ターゲットネット更新を遅らせることで学習を安定させるのが特徴。

F29-5 OpenAI Five

キーワード
OpenAI Five

定義(1行)
OpenAI Fiveは、Dota 2という複雑なマルチエージェントゲームでプロチームに勝利した強化学習エージェント。

具体例(3つ)

協力プレイで複数キャラクターを同時に操作
大規模クラスターで数万年相当のゲームを模擬
モデル容量が巨大で自己対戦を繰り返し成長

詳細な説明
OpenAI Fiveは高次元かつマルチエージェントなリアルタイム戦略ゲームに対し、ポリシー勾配法や並列学習を組み合わせ、最終的にプロチームを破るまでに到達。協調や戦術が重要な先進的ケーススタディ。

F29-6 PPO

キーワード
PPO

定義(1行)
PPO (Proximal Policy Optimization)は、方策勾配をクリッピングで制約し、安定的かつ効果的に学習する強化学習手法。

具体例(3つ)

旧ポリシーと新ポリシーのKL散逸度を制御
ロボティクスやゲームAIで人気
OpenAIのGymタスクで高スコア

詳細な説明
PPOはTRPO (Trust Region Policy Optimization)を簡略化した手法で、勾配更新のステップが極端に大きくならないようにクリップして安定性を保つ。実装が容易で広く利用される。

F29-7 Rainbow

キーワード
Rainbow

定義(1行)
Rainbowは、DQNの拡張要素（DoubleDQN, Prioritized Replay, Dueling Networkなど）をすべて統合した強化学習手法。

具体例(3つ)

Atariゲームで高いスコア
分布型RL (CategoricalDQN)も導入
DQNの改善点を総合的に盛り込む

詳細な説明
RainbowはDQNに提案されてきた改良(二重化, 優先度サンプリング, dueling architecture, NoisyNet等)を一括で組み合わせ、全体として学習性能を最大化するフレームワーク。

F29-8 RLHF

キーワード
RLHF

定義(1行)
RLHF (Reinforcement Learning from Human Feedback)は、人間の評価を報酬として利用し、モデルを微調整する強化学習手法。

具体例(3つ)

ChatGPTで有用・安全な回答を生成するための調整
ユーザーの好き・嫌いフィードバックを学習
審査員の比較で報酬関数を近似しポリシー更新

詳細な説明
RLHFは人間がモデル出力に対する優劣評価を行い、その結果を報酬としてポリシー勾配を行う方法。言語モデルなど大規模タスクで、倫理や品質を高める役割を果たす。

F29-9 sim2real

キーワード
sim2real

定義(1行)
sim2realは、シミュレータ上で訓練したエージェントやモデルを実世界のロボット・環境へ移行する手法や概念。

具体例(3つ)

仮想ロボットで動作学習後に実機へ適用
自動運転のシミュレーションから実車に反映
微妙な摩擦やノイズの差を補正

詳細な説明
シミュレーションではコストや危険が少なく効率良く学習できるが、実環境はモデル化誤差が存在する。sim2realでは不一致を減らすため、ドメインランダマイゼーションや微調整などが研究される。

F29-10 アルファスター (AlphaStar)

キーワード
アルファスター (AlphaStar)

定義(1行)
アルファスターは、DeepMindが開発したRTSゲーム「StarCraft II」で人間トッププロと競合するレベルに到達した強化学習エージェント。

具体例(3つ)

大量のリプレイデータ+自己対戦でスキル向上
マルチエージェント学習と戦略的探索
各種種族や戦術に対処可能

詳細な説明
AlphaStarはAtariやチェス/碁とは異なるリアルタイム&不完全情報ゲームに挑戦。行動空間や戦略深度が膨大だが、ポリシー勾配を含むマルチエージェントRLでプロレベルに到達した象徴的事例。

F29-11 オフライン強化学習

キーワード
オフライン強化学習

定義(1行)
オフライン強化学習は、事前収集した固定データセットのみで学習し、オンラインで追加経験を得ずに最適方策を求める手法。

具体例(3つ)

医療やロボット制御など実験コストが高い場面
過去のログのみを使用して方策改善
データ分布シフトに注意が必要

詳細な説明
リアルな環境から追加データを得られない状況で、既存の履歴（トランジション）を活用して強化学習を行う。行動分布のギャップが大きいと誤差が増すため、制限付き行動やデータ補完が課題となる。

F29-12 残差強化学習

キーワード
残差強化学習

定義(1行)
残差強化学習は、既存のコントローラやポリシーに学習ポリシーを加算する形で最適化を行い、安定性と効率を向上させるアプローチ。

具体例(3つ)

ロボットアームにPID制御がある前提で補正のみ学習
既存制御則をベースに強化学習が微調整
物理シミュレーションとの組み合わせで高速収束

詳細な説明
従来の制御方策（PID等）からの偏差のみをRLで学習することで、ゼロから学ぶより安定・高速に性能を向上させられる。実機ロボットや産業制御で注目される。

F29-13 状態表現学習

キーワード
状態表現学習

定義(1行)
強化学習で、高次元観測から本質的な状態や特徴を抽出し、学習を容易にする表現を獲得する技術。

具体例(3つ)

画像入力から低次元潜在ベクトルを生成
自己教師ありタスクで観測空間を圧縮
オフラインRLで状態空間を再構築

詳細な説明
高次元の観測（画像等）をそのまま扱うと学習が困難。エンコーダ（CNNなど）で潜在状態にマッピングし、連続的かつ意味ある表現を得る。これにより政策学習が高速になる。

F29-14 ダブル DQN

キーワード
ダブル DQN

定義(1行)
ダブルDQNは、DQNの過大評価問題を緩和するため、行動選択とQ値評価に異なるネットワークを使う手法。

具体例(3つ)

ある行動のQ値を同じネットワークで更新する際のバイアス削減
Atariゲームで学習安定性と精度向上
Rainbowに取り入れられる要素技術

詳細な説明
DQNでは行動と評価を同一ネットが行うため、最大値バイアスが生じる。Double DQNは、行動選択にオンラインネット、Q値評価にターゲットネットを使用することで過剰評価を抑制する。

F29-15 デュエリングネットワーク

キーワード
デュエリングネットワーク

定義(1行)
デュエリングネットワークは、状態価値と行動アドバンテージを別々に推定し、Q値を合成するDQNの拡張構造。

具体例(3つ)

状態価値V(s)と行動差分A(s,a)を学習
Q(s,a) = V(s) + A(s,a) - 平均(A)
重要な行動の特定が高速化

詳細な説明
デュエリングネットワークでは、全ての行動に共通する価値と行動間の相対差分を分けて学習するため、状態判断が重要な場合や不要行動が多い場面で効率的に学習が進む。

F29-16 ドメインランダマイゼーション

キーワード
ドメインランダマイゼーション

定義(1行)
シミュレーション環境の物理パラメータをランダムに変動させ、sim2realギャップを縮める強化学習手法。

具体例(3つ)

ロボットシミュレータで摩擦係数、質量、光源などを変化
ランダム化環境で学習したポリシーを実機に移しても堅牢
仮想空間のバリエーションが豊富になる

詳細な説明
シミュレータと実機の差異（ギャップ）を減らすために、シミュレーション中の物理条件を大きくランダム化して学習し、多様な状況への適応力を高める手法。ロボティクスで効果が実証されている。

F29-17 ノイジーネットワーク

キーワード
ノイジーネットワーク

定義(1行)
ノイジーネットワークは、重みやバイアスに学習可能なノイズを加え、探索を内部的に実現する強化学習用のニューラルネット。

具体例(3つ)

パラメータに確率的要素を導入して行動多様化
DQNやRainbowにノイジーレイヤーを追加
ε-greedyに代わる探索手法

詳細な説明
ノイジーネットワークでは、行動価値の推定段階でノイズが入るため、外部のランダム方策を使わずとも自然に探索が行われる。ノイズの大きさを学習する仕組みで効率的探索を可能にする。

F29-18 報酬成形

キーワード
報酬成形

定義(1行)
報酬成形は、学習を促進するために、タスク達成以外の部分報酬やヒントを追加して強化学習エージェントをガイドする手法。

具体例(3つ)

迷路で目的地到達だけでなく移動距離の短縮にも得点
ロボットが物体を掴む際、近づいただけで小報酬
Atariでスコア以外の中間報酬を設定

詳細な説明
単純に目標時の報酬だけだと学習が難しい場合、部分的進捗や良い行動に小さな報酬を与えて探索を効率化。過度な成形は方策が歪む恐れもあるためバランスが重要。

F29-19 マルチエージェント

キーワード
マルチエージェント

定義(1行)
マルチエージェント強化学習は、複数のエージェントが同じ環境で相互作用し、協調や競合を学習する枠組み。

具体例(3つ)

サッカーゲームで各プレイヤーが独立に学習
ドローン群が連携して探索
協力タスク（分担作業）や敵対タスクの戦略

詳細な説明
単一エージェント環境と異なり、他のエージェントの行動も環境変化に含まれるため、非定常性が生じる。協調や競争など複雑な相互作用をモデル化し学習する研究分野。

F29-20 強化学習

キーワード
強化学習

定義(1行)
強化学習は、行動と報酬に基づいて最適な方策を獲得する学習手法で、エージェントが試行錯誤で報酬を最大化する。

具体例(3つ)

Atariゲームでスコアを報酬としたDQN
チェスや碁で手番ごとに評価を更新
交通信号制御やロボット制御

詳細な説明
強化学習は、状態sで行動aを選び、報酬rと次状態s’を得るという繰り返しで方策πを改善。探索と活用の両立が鍵で、Q学習や方策勾配など多くの手法が存在する。

F29-21 連続値制御

キーワード
連続値制御

定義(1行)
連続値制御は、アクション空間が離散ではなく連続的な場合の強化学習タスクで、ロボットの関節角度などを扱う。

具体例(3つ)

アームのモータ回転角をリアル数で制御
車のハンドルやアクセル操作を出力
MuJoCo環境で二足歩行ロボットを学習

詳細な説明
離散行動と異なり、連続行動空間は無限通りの選択肢がある。DDPGやSACなどのアルゴリズムが提案され、ニューラルネットで方策やQ値を近似して連続的な最適制御を実現する。

F30-1 CycleGAN

キーワード
CycleGAN

定義(1行)
CycleGANは、ペアデータなしで画像間の変換学習を行うGANで、サイクル一貫性損失を用いてスタイル変換を可能にする。

具体例(3つ)

馬→シマウマ、シマウマ→馬などの相互変換
夏の景色→冬の景色変換
写真→絵画風スタイル

詳細な説明
CycleGANは、「A→B変換」と「B→A変換」の両方向を学習し、元の画像を再構成できるか（サイクル一貫性）を損失に加える。ペア画像が不要で、多彩な画像変換を実現する。

F30-2 DCGAN

キーワード
DCGAN

定義(1行)
DCGAN (Deep Convolutional GAN)は、畳み込み層のみで構成されたGANで、画像生成の安定性や品質向上の先駆けとなった手法。

具体例(3つ)

ランダムベクトルから顔画像生成
全結合層を使わず転置畳み込みでアップサンプリング
生成された画像の局所特徴が高品質

詳細な説明
DCGANはGANの生成器と識別器をフルCNN化し、学習を安定させた。2015年ごろ発表されてから、多くのGANモデルのベースとなり、現代の高解像度生成に繋がっている。

F30-3 Diffusion Model

キーワード
Diffusion Model

定義(1行)
拡散モデルは、ノイズを徐々に加えてから逆方向に生成する仕組みで、画像や音声を高精度に生成する手法。

具体例(3つ)

Denoising Diffusion Probabilistic Models (DDPM)
ステップごとにノイズ除去を学習
Stable Diffusionなど高解像度画像生成

詳細な説明
拡散モデルは初めに画像をノイズまみれにしていき、そこから逆にノイズを取り除く過程を学習。GANと異なりモード崩壊が少なく、巨大モデルで精密な画像や音声生成を可能にする。

F30-4 NeRF

キーワード
NeRF

定義(1行)
NeRF (Neural Radiance Fields)は、シーン内の3次元座標に対して放射輝度と密度を推定するニューラルネットで、高品質な3Dレンダリングを実現。

具体例(3つ)

数枚の写真から3Dシーンを再構成
被写体の自由視点画像生成
VRやARで実世界のフォトリアル再現

詳細な説明
NeRFはMLPを用いて空間中の各点がどう見えるか（光の放射）を学習し、ボリュームレンダリングで自由視点を合成する。従来のマルチビュー再構成を深層学習で統一的に実装した先端技術。

F30-5 Pix2Pix

キーワード
Pix2Pix

定義(1行)
Pix2Pixは、画像ペアを用いて任意の画像変換(線画→写真など)を学習するGANで、U-Netベースのジェネレータとパッチ判別器を使用。

具体例(3つ)

スケッチ→リアル画像、昼→夜変換
セマンティックマップ→フォト画像
レンタルオフィスに合成した内装の変換

詳細な説明
Pix2Pixは、入力画像と出力画像のペアデータがあれば、多種多様な変換を学習可能。U-Net型の生成器とPatchGANという局所領域判別器が高い画質をもたらし、応用が広い。

F30-6 音声生成

キーワード
音声生成

定義(1行)
音声生成は、音響特徴から自然な波形を再構築するタスクで、TTSや音楽合成などが含まれる。

具体例(3つ)

WaveNetで声波形を直接生成
ボコーダーによる声質変換
歌声シンセサイザーで旋律に沿った音声

詳細な説明
音声生成はTTSでテキストを波形に変換したり、スタイル変換で話者の特徴を合成するなど多様な用途がある。深層学習で高品質かつリアルな音が得られるようになっている。

F30-7 画像生成

キーワード
画像生成

定義(1行)
画像生成は、ノイズや潜在コードから画像を生成する技術で、GANやVAEなどの深層生成モデルが用いられる。

具体例(3つ)

DCGANで風景画像を無から合成
StyleGANで高精度な人顔生成
Diffusionモデルで写真風イラストを作成

詳細な説明
画像生成は芸術や広告、ゲームグラフィックスなど多方面に応用。GANの登場で品質が向上し、さらにStyleGANや拡散モデルが写実的かつ多様な結果をもたらす。

F30-8 敵対的生成ネットワーク (GAN)

キーワード
敵対的生成ネットワーク (GAN)

定義(1行)
GANは、生成器と識別器を競い合わせて学習し、リアルに近いデータを生成する深層生成フレームワーク。

具体例(3つ)

生成器が画像を出力し、識別器が本物か偽物かを判定
DCGAN, WGAN, StyleGANなど派生多数
バーチャル人物写真の生成

詳細な説明
GANは2つのネットワーク（GとD）がMinimaxゲームを行うことで、生成物がより本物に近づくよう学習する。多彩な拡張があり、画像や音声、3D生成に幅広く利用される。

F30-9 文章生成

キーワード
文章生成

定義(1行)
文章生成は、言語モデルを用いて文脈に沿ったテキストを新たに生み出す技術で、ニュース要約やストーリー創作などに応用される。

具体例(3つ)

GPT系モデルでチャットや物語を生成
翻訳システムが一文を生成
要約タスクで抜粋ではなく新しい文を作る

詳細な説明
テキスト生成はRNNやTransformerを活用し、次単語を確率的に選択する仕組みが基本。大規模モデルでは文脈依存が強化され、より一貫性あるテキストが作成可能となる。

F31-1 Few-shot

キーワード
Few-shot

定義(1行)
少量の学習サンプルだけでモデルが新しいタスクを学習できる手法。
Few-shot learning enables a model to handle new tasks with only a small number of training samples.

具体例(3つ)

数枚の画像しかないクラスでも物体認識モデルを適応
A classification model adapts to a new class with only a few images.
数例の翻訳ペアから未知言語の翻訳を学習
Learning translation for a low-resource language using only a handful of sentence pairs.
ユーザーの書き方に合わせて文章補完モデルを微量データで調整
Fine-tuning a text completion model on a user’s writing style using minimal examples.

詳細な説明
Few-shotは、大規模データを用意できない状況下でもモデルが新しいクラスやタスクを高速に習得することを目指す。メタ学習や大規模事前学習モデルを用いたプロンプトベースの手法が主流となっている。
Few-shot learning aims to quickly adapt models to new classes or tasks when large training datasets are unavailable. Approaches such as meta-learning or prompt-based methods in large pretrained models are commonly used.

F31-2 One-shot

キーワード
One-shot

定義(1行)
一つの学習サンプルのみで新しい概念やクラスを学習できるようにする学習手法。
One-shot learning focuses on learning a new concept or class from just a single training example.

具体例(3つ)

顔認証で初回登録した一枚の写真から認証可能に
A face recognition system authenticating a new individual from only one photo.
新しい文字フォントを一文字見ただけで識別
Identifying a newly introduced character font from a single sample.
OCRで未知の手書き記号を1例から学習
Training an OCR system for a new handwritten symbol using only one instance.

詳細な説明
One-shotは、学習に必要なデータを最小限に抑えつつ、新しいカテゴリを素早く認識する手法。メタ学習やシンプルなプロトタイプベース分類などで実現され、高速適応が望まれる分野で注目される。
One-shot learning aims to recognize new categories swiftly while minimizing the required training data. It is often implemented via meta-learning or prototype-based methods, valuable for scenarios demanding rapid adaptation.

F31-3 自己教師あり学習

キーワード
自己教師あり学習

定義(1行)
ラベルなしデータから擬似ラベルやタスクを作り出して学習し、有用な特徴表現を獲得する手法。
Self-supervised learning creates pseudo-labels or tasks from unlabeled data, enabling the model to learn useful representations.

具体例(3つ)

画像の一部隠し再構成タスク (Inpainting)
Masking part of an image and learning to reconstruct it.
次単語予測で膨大なテキストから言語モデルを構築
Building a language model by predicting the next word in vast text corpora.
動画フレームの時間的順序を入れ替えて整合性を学習
Shuffling video frames and learning to restore temporal order.

詳細な説明
自己教師あり学習は、大規模なラベルなしデータを活用し、高レベル特徴を学ぶ。画像やテキストに擬似タスクを設定することで、有益な潜在表現を得られ、転移学習の精度向上に貢献する。
Self-supervised learning leverages large unlabeled datasets by defining auxiliary tasks that produce beneficial latent features. It improves transfer learning performance by learning high-level representations from pseudo-labels or tasks.

F31-4 事前学習

キーワード
事前学習

定義(1行)
大規模データで事前にモデルを学習し、その後で特定タスクへの微調整を行う学習プロセス。
Pretraining involves training a model on large-scale data beforehand, followed by fine-tuning for specific tasks.

具体例(3つ)

BERTをWikipediaとBookCorpusで事前学習し、感情分析に転用
Pretraining BERT on Wikipedia and BookCorpus, then applying it to sentiment analysis.
大規模画像データでCNNを学習し、医療画像分類に微調整
Training a CNN on a vast image dataset, then fine-tuning for medical image classification.
音声合成モデルを一般音声コーパスで学習後、特定話者の声に適合
Pretraining a TTS model on a general audio corpus, then tailoring it to a specific speaker’s voice.

詳細な説明
事前学習は、豊富なデータから汎用的特徴を獲得する段階を指し、下流タスクへの微調整時間とデータを削減できる。NLPや画像処理などで広く活用され、精度向上の要となっている。
Pretraining acquires generalizable features from abundant data, reducing the time and data needed to fine-tune for downstream tasks. It is widely used in NLP and computer vision, significantly boosting performance.

F31-5 事前学習済みモデル

キーワード
事前学習済みモデル

定義(1行)
大規模データで学習されたパラメータを保持したモデルで、微調整や推論に再利用できる。
A pretrained model retains parameters learned from large-scale data, enabling reuse for inference or fine-tuning tasks.

具体例(3つ)

ImageNetで学習済みのResNetを別の物体分類タスクで利用
Using a ResNet pretrained on ImageNet for another object classification task.
GPT-3など巨大言語モデルを特定ドメインに適応
Adapting GPT-3, a massive language model, to a specialized domain.
音声モデルを一般的対話データで学習し、コールセンター音声に適合
Pretraining a speech model on general dialogues, then tuning it for call center data.

詳細な説明
事前学習済みモデルを公開・配布すれば、各研究者や開発者は大規模学習を行わずに高性能な初期重みを得られる。微調整で追加学習すれば、多種多様なタスクへの適用が容易になる。
By distributing pretrained models, researchers and developers can leverage powerful initial weights without conducting large-scale training themselves. A small amount of additional training tailors the model to various tasks.

F31-6 破壊的忘却

キーワード
破壊的忘却

定義(1行)
破壊的忘却は、新タスクを学習するときに、既に習得したタスクの知識が失われてしまう現象。
Catastrophic forgetting occurs when learning a new task causes a model to lose knowledge from previously learned tasks.

具体例(3つ)

新しいクラスを追加学習したら古いクラスの精度が激減
Accuracy on old classes drastically drops after training on a new class.
継続学習の過程で初期タスクの識別がうまくいかなくなる
Recognition for the initial task deteriorates during continual learning.
連続タスクで最終的に最後のタスクだけ学習が残る
In a sequence of tasks, the model retains only the last task’s knowledge.

詳細な説明
破壊的忘却は、逐次学習(継続学習)において特に顕著で、ニューラルネットが新タスクに合わせて重みを更新する際に、過去タスクに有用な重みが上書きされる。対策としてEWCやReplayなどの研究がある。
Catastrophic forgetting is pronounced in sequential or continual learning when neural networks update weights for new tasks, overwriting weights that were useful for previous tasks. Solutions include EWC or replay mechanisms.

F31-7 半教師あり学習

キーワード
半教師あり学習

定義(1行)
少数のラベル付きデータと大量のラベルなしデータを組み合わせて学習し、精度を高める手法。
Semi-supervised learning combines a small labeled dataset with a large unlabeled dataset to enhance model performance.

具体例(3つ)

数十のアノテーションされた画像＋数千の未ラベル画像で画像分類
Using tens of labeled images plus thousands of unlabeled ones for classification.
ラベル付き会話ログの一部と大規模チャット履歴を併用
Mixing a small set of annotated dialogues with a large unannotated chat history.
Pseudo-labelingで推論結果を擬似ラベルとして再学習
Employing pseudo-labeling by using model predictions as labels for retraining.

詳細な説明
半教師あり学習は、大部分がラベルなしでも特徴を学習し、少ないラベル情報を補完的に用いる。ラベル付きデータ収集のコストを下げながら高精度を達成できるため、実務で有用。
Semi-supervised learning leverages unlabeled data to learn representations, while a small labeled subset refines the model. It reduces labeling costs and achieves high accuracy, making it valuable in real-world applications.

F32-1 CLIP

キーワード
CLIP

定義(1行)
CLIPは、画像とテキストを同一ベクトル空間で学習し、マルチモーダル検索や画像説明に強みを持つモデル。
CLIP aligns images and text into a shared embedding space, enabling powerful cross-modal search and image description.

具体例(3つ)

テキストで「猫」と入力すると画像コーパスから猫画像を検索
Searching “cat” in a large image corpus finds cat images.
画像の特徴ベクトルをテキストとの類似度で分類
Classifying images by measuring similarity with textual descriptions.
DALL-Eの画像生成時にフィルタリングや操作を補助
Assisting filtering and manipulation in DALL-E’s image generation pipeline.

詳細な説明
CLIP (Contrastive Language-Image Pre-training) は、画像とテキストのペアを対比学習することで、共通の潜在空間にマッピング。テキストの自然言語検索から該当画像を探したり、画像へのテキスト照合が容易になる。
CLIP learns a shared latent space by contrastively training on image-text pairs, simplifying tasks like text-based image retrieval or matching text to images in a unified embedding framework.

F32-2 DALL-E

キーワード
DALL-E

定義(1行)
DALL-Eは、テキストプロンプトを入力として多様で創造的な画像を生成する大規模ニューラルネット。
DALL-E is a large neural network that generates diverse, imaginative images from textual prompts.

具体例(3つ)

「宇宙飛行士が馬に乗っている油絵風の絵」を出力
Generating “An oil painting of an astronaut riding a horse.”
「赤い帽子をかぶった猫の漫画風イラスト」
A cartoon-style illustration of a cat wearing a red hat.
文字やロゴ、ファンタジー風景を即席で生成
Quickly creating text-based logos or fantasy landscapes on demand.

詳細な説明
DALL-Eは、テキストを条件付けとして画像を合成するモデルで、GANやVAEのアイデアにTransformerのテキスト処理を組み合わせた。高度な視覚想像力を持ち、ユーザーの指示を非常に詳細に反映できる。
DALL-E conditions on text prompts to synthesize images, merging concepts from GANs/VAEs with Transformer-based text processing. It displays remarkable visual creativity, closely following user instructions for imaginative outputs.

F32-3 Flamingo

キーワード
Flamingo

定義(1行)
Flamingoは、DeepMindが開発した画像とテキストを統合的に理解するマルチモーダルモデル。
Flamingo is a multi-modal model by DeepMind that jointly interprets images and text for advanced understanding.

具体例(3つ)

画像の状況をテキストで説明し、その続きの文を生成
Generating a textual continuation based on an image’s context.
複数画像の内容を要約して文章化
Summarizing multiple images into a cohesive text description.
画像内の人物が何をしているかを自然言語で返答
Answering in natural language about what people are doing in a picture.

詳細な説明
Flamingoは、視覚とテキストの融合を行い、会話形式で画像内容を答えたり、テキスト情報から画像を理解する機能を持つ。大規模言語モデルとビジョンモデルを組み合わせ、マルチモーダルAIの新たな可能性を示す。
Flamingo fuses vision and text, enabling dialogue-based image Q&A or using textual cues to interpret pictures. It integrates a large language model with a vision component, exemplifying cutting-edge multi-modal AI capabilities.

F32-4 Image Captioning

キーワード
Image Captioning

定義(1行)
Image Captioningは、画像の内容を説明する短いテキスト文を自動生成するタスク。
Image captioning automatically generates short textual descriptions of an image’s contents.

具体例(3つ)

「公園でボールを蹴る子供」というキャプションを画像から抽出
Deriving the caption “A child kicking a ball in a park” from an image.
料理写真を認識しレシピ名や食材を記述
Recognizing a dish and listing the recipe name or ingredients.
視覚障害者向けの画像読み上げアプリ
Screen reader applications for visually impaired users describing images.

詳細な説明
Image Captioningは、主にCNNで画像特徴を抽出し、RNNやTransformerを使ってテキストを生成する手法が一般的。自動的に写真やイラストの内容を言語化し、検索やアクセシビリティを向上する。
Typical image captioning pipelines extract image features with a CNN and use RNNs or Transformers to produce text. By automatically verbalizing image content, it enhances accessibility and facilitates image retrieval.

F32-5 Text-To-Image

キーワード
Text-To-Image

定義(1行)
Text-To-Imageは、テキストプロンプトを入力し、その記述を満たす画像を生成するタスク。
Text-to-image generation creates images based on an input text prompt matching the described content.

具体例(3つ)

「青空の下で本を読む女性」の指示で対応するイラストを生成
Generating an illustration of “A woman reading a book under a blue sky.”
ファンタジー小説のキャラクターイメージを自動作成
Creating a fantasy novel character’s image from a textual description.
宣伝用に商品の説明文から広告用ビジュアルを合成
Producing advertisement visuals from a product’s description text.

詳細な説明
Text-To-Imageモデルでは、ユーザーが文章で指定した内容に基づき、GANや拡散モデルを用いて画像を合成する。近年はDALL-E、Stable Diffusionなど高品質出力を実現するフレームワークが普及。
Such models employ GANs or diffusion approaches to synthesize images based on textual descriptions. State-of-the-art frameworks like DALL-E and Stable Diffusion deliver highly realistic results.

F32-6 Visual Question Answering

キーワード
Visual Question Answering

定義(1行)
VQAは、画像を入力し、その内容に関する自然言語の質問に対して答えを返すタスク。
Visual question answering (VQA) involves answering natural language queries about the content of an input image.

具体例(3つ)

「この画像に写っている動物は何匹？」→「2匹の犬」
“How many animals are in the picture?” → “There are two dogs.”
「テーブルの上の飲み物は何？」→「コーヒーカップ」
“What drink is on the table?” → “A cup of coffee.”
自動運転カメラ映像に対し「横断歩道はどこ？」→「右前方」
For self-driving camera footage: “Where is the crosswalk?” → “In front on the right side.”

詳細な説明
VQAモデルは、画像特徴とテキスト質問を統合し、回答を生成または選択する。認識（物体検出等）と推論（質問理解等）を組み合わせるため、マルチモーダルAIの典型的応用として注目される。
VQA models combine extracted image features with textual questions to generate or select answers. It merges recognition (object detection) and reasoning (question interpretation), representing a key multi-modal AI challenge.

F32-7 Unified-IO

キーワード
Unified-IO

定義(1行)
Unified-IOは、画像やテキストなど異なるモダリティの入出力を一括で扱う統合的トランスフォーマーモデル。
Unified-IO is a unified Transformer model handling different modalities (images, text, etc.) for both inputs and outputs.

具体例(3つ)
1.

o1-pro

あなた:

続き

ChatGPT

o1-pro のリクエスト

3m 27sの間、思考

F32-7 Unified-IO

キーワード
Unified-IO

定義(1行)
Unified-IOは、画像やテキストなど異なるモダリティの入出力を一括で扱う統合的トランスフォーマーモデル。

具体例(3つ)

画像から物体検出結果をテキストで出力し、続けてその要約を別のテキストとして生成
テキスト入力を画像生成に使い、さらに生成した画像に対して文章キャプションを出力
音声を入力し文字起こしを行った後、その文字情報を別のタスク（Q&Aなど）に転用

詳細な説明
Unified-IOは、マルチモーダル入力（画像、テキスト、音声など）を統合し、同じモデル内部で多様なタスクを処理できるフレームワークを目指す。たとえば画像を解析してテキスト化し、さらに生成したテキストを別のタスクに入力する、といった複数プロセスを一貫して扱う。これにより従来は別々のモデルやパイプラインが必要だった処理を、一つのモデルで完結させられる可能性がある。
Unified-IO unifies different modal inputs and outputs (e.g., images, text, audio) within a single Transformer-based architecture, enabling a single model to handle various tasks in a seamless fashion. By converting image data to text or vice versa internally, it avoids switching between specialized models, simplifying complex multi-modal workflows.

F32-8 zero-shot

キーワード
zero-shot

定義(1行)
zero-shotは、未学習の新クラスや新タスクに対して、一度もラベル付きデータを与えずに推論する学習スタイル。

具体例(3つ)

ImageNetで学習したモデルを新たな動物カテゴリに転用し、ラベルなしで分類
テキスト分類で学習時に見ていない感情ラベルに対応
事前学習言語モデルにプロンプトを与えて未訓練タスクを実行

詳細な説明
zero-shotでは、学習時にそのクラスやタスクの例を一切用いないにもかかわらず、既存の知識や特徴表現を活かして推論を行う。多くは大規模事前学習モデルの汎化能力に依存し、プロンプトや類似概念から対応を導くアプローチが広まっている。
Zero-shot learning relies on a model’s ability to generalize to unseen classes or tasks without seeing labeled examples for them. This is typically achieved by leveraging large pretrained representations and inferring relationships via prompts or semantic similarities.

F32-9 基盤モデル

キーワード
基盤モデル

定義(1行)
基盤モデルは、大規模データと計算資源を用いて学習され、幅広いタスクへ転用可能な汎用的AIモデル。

具体例(3つ)

GPTやBERTのように多様なNLPタスクに流用
CLIPやViTによる画像と言語の横断的応用
マルチモーダル分野で汎用フレームワークとして活躍

詳細な説明
基盤モデルとは、巨大なパラメータ数と大規模コーパスで学習し、高度な表現力を持った汎用モジュールのこと。自然言語や画像、音声など、多岐にわたるタスクへ再学習やプロンプト設計のみで適応が可能になり、AI開発の基盤として注目される。
A foundation model is a high-capacity module trained on vast data, providing generic representations transferable to many tasks with minimal additional training. It underpins modern AI pipelines across NLP, vision, and multimodal domains, reshaping how we build AI solutions.

F32-10 マルチタスク学習

キーワード
マルチタスク学習

定義(1行)
マルチタスク学習は、関連する複数のタスクを同時に学習することで、タスク間の共通情報を活用して精度を向上させる方法。

具体例(3つ)

同じ文章で感情分析とトピック分類を並行学習
オブジェクト検出とセマンティックセグメンテーションを統合
音声認識と話者識別を同時に扱う

詳細な説明
マルチタスク学習は、タスク間でパラメータや表現を共有することで、単独学習より汎化性能が向上する。特徴抽出や中間層を共有すると、データ効率が上がり相互補完的に学習可能となる。
By training multiple related tasks together, the model can leverage shared representations and improve overall performance compared to learning each task separately. Multi-task learning efficiently reuses features, enhancing data efficiency and synergy among tasks.

F33-1 CAM

キーワード
CAM

定義(1行)
Class Activation Mapping(CAM)は、CNNの出力に影響する領域を可視化し、分類根拠を示す手法。

具体例(3つ)

画像中で「犬」と判定した部分がどこかをヒートマップで表示
VGGなどの最終畳み込み層の重みを用いて可視化
物体検出でないが、何が特征になっているかを説明

詳細な説明
CAMは、グローバルプーリング後に全結合を行うネット構造で、クラス固有の活性を位置ごとに測定できるようにした技術。ユーザが黒箱モデルの判断根拠を理解するための重要ステップ。
Class activation mapping highlights the spatial regions most influential for a CNN’s classification. By using global pooling and weighting feature maps, CAM helps interpret which pixels drive class decisions.

F33-2 Grad-CAM

キーワード
Grad-CAM

定義(1行)
Grad-CAMは、最終畳み込み層の勾配情報を用いて、重要な画素領域をヒートマップで可視化する説明可能AI技術。

具体例(3つ)

CNNで「猫」と判定時のグラディエント分布
ImageNetモデルが犬の耳に注目していたことを可視化
不適切な学習が行われていないか検証

詳細な説明
Grad-CAMは逆伝播で得られる勾配を活用し、どのフィルタがどの領域に強く反応しているかを推定する。従来のCAMと違い、構造制約なく多数のCNNアーキテクチャで使用でき、視覚的な解釈を提供する。
Grad-CAM uses gradients from backpropagation to localize which features contributed most to a CNN’s decision, offering a visual explanation of the model’s focus without major architectural constraints.

F33-3 LIME

キーワード
LIME

定義(1行)
LIME(Local Interpretable Model-Agnostic Explanations)は、入力周辺の摂動によるモデル出力変化を局所線形で近似し、判定根拠を可視化する手法。

具体例(3つ)

ある画像からピクセルをマスクしながらモデル応答を分析
テキスト分類で単語を消去し出力スコアの変化を計測
回帰モデルでも特定特徴の影響度合いを評価

詳細な説明
LIMEはモデル非依存で、個別の予測事例に対して局所的に入力を変化させ、その影響を線形モデルでフィットする。特徴の重要度を直感的に理解できるが、局所的解析であり全体説明を得るには別のアプローチが必要。
By perturbing the input around a specific instance and fitting a local linear model, LIME measures how each feature affects the model’s output. It’s model-agnostic, highlighting feature importance for individual predictions, but does not provide a global explanation.

F33-4 Permutation Importance

キーワード
Permutation Importance

定義(1行)
Permutation Importanceは、学習済みモデルに対して特定特徴をシャッフルし、予測精度の低下量から特徴の重要度を測る手法。

具体例(3つ)

ランダムフォレストで気温をシャッフルして温度予測の精度変化を評価
アンサンブル回帰で株価モデルの一番影響度が高い指標を特定
シャッフルしても精度がほぼ変わらない特徴は不要と判断

詳細な説明
Permutation Importanceは、特徴を無作為に入れ替えてモデルが出す予測精度がどれだけ落ちるかを見る。特徴量がモデル性能に占める寄与度を簡便に調べられるが、相関する特徴が多い場合は解釈に注意。
This method randomly permutes each feature in turn and measures how much accuracy degrades, indicating its contribution to the model’s performance. While straightforward, correlated features can complicate interpretation.

F33-5 SHAP

キーワード
SHAP

定義(1行)
SHAPは、ゲーム理論ベースのShapley値を用いて各特徴の寄与度を定量化し、モデル予測を説明する手法。

具体例(3つ)

XGBoost回帰で家の価格を予測した際の部屋数や立地の影響度を算出
深層ネットの入力ピクセル単位でSHAP値を可視化
不正検知で取引金額や履歴回数の貢献度を評価

詳細な説明
SHAP (SHapley Additive exPlanations)は、各特徴の組み合わせを考慮しつつ、どれだけ予測値を増減させるかを公平に割り当てる。計算コストは高いが、理論的妥当性があり近年人気の説明可能AI手法として利用されている。
SHAP calculates feature contributions by distributing the difference between the model’s prediction and a baseline across features, grounded in Shapley values from game theory. It offers theoretically sound explanations but can be computationally expensive.

F33-6 説明可能 AI (XAI)

キーワード
説明可能 AI (XAI)

定義(1行)
XAIは、AIの推論過程や判断根拠をわかりやすく示し、人間が結果を理解・信頼できるようにする研究領域。

具体例(3つ)

医療診断支援でAIがなぜ特定疾患を疑うかの根拠を提示
金融リスク評価モデルで各属性の影響度を可視化
自動運転で衝突回避判断の理由を人間が検証

詳細な説明
XAIは、ブラックボックス化しがちな深層学習や複雑モデルに対し、人間が理解できる形で説明を行う手法群を指す。規制や倫理面での透明性確保にも重要で、ローカル手法(LIME, SHAP)や可視化手法(Grad-CAM)などが含まれる。
Explainable AI encompasses methods enabling human-interpretable reasoning for complex models like deep nets. It’s crucial for trust and compliance, using local interpretability (LIME, SHAP) or visual methods (Grad-CAM) to clarify how decisions are reached.

F34-1 エッジ AI

キーワード
エッジ AI

定義(1行)
エッジAIは、クラウドではなく端末側(エッジデバイス)でモデル推論や学習を行い、低遅延やプライバシーを実現する技術。

具体例(3つ)

スマートフォンで音声アシスタントがオフライン動作
工場のカメラ映像をリアルタイム検品
自動運転車のオンボードコンピュータで推論実行

詳細な説明
エッジAIはネットワーク環境に依存せず、デバイス自身が計算処理を担うため、リアルタイム性やセキュリティが高まる。一方で演算資源やメモリが限られるため、モデル軽量化や最適化が鍵となる。
Edge AI processes data locally on devices, minimizing latency and privacy concerns. However, restricted computational resources demand efficient, lightweight models and hardware optimization to achieve real-time inference.

F34-2 蒸留

キーワード
蒸留

定義(1行)
モデル蒸留は、大きな教師モデルの出力や中間表現を小型モデルに伝えることで、高性能を継承しつつモデルを軽量化する手法。

具体例(3つ)

BERT LargeからMobileBERTへ知識蒸留
ResNet大型モデルを教師に小型ネットを学習
正解ラベルだけでなくソフトラベル(確率分布)も利用

詳細な説明
蒸留(Knowledge Distillation)は、教師モデルのソフトラベル(確率出力)を生徒モデルが学習することで、正解ラベルにない情報を継承し精度を維持する。同時にパラメータ削減や推論高速化を実現できる。
Knowledge distillation transfers knowledge from a large teacher model to a smaller student by training on the teacher’s probability outputs. This retains performance while reducing parameters and enabling faster inference.

F34-3 宝くじ仮説

キーワード
宝くじ仮説

定義(1行)
宝くじ仮説は、大規模ネットワーク内に初期化時点で既に良好なサブネット(宝くじチケット)が存在し、それを残せば高性能が得られるという仮説。

具体例(3つ)

ランダム初期化されたResNetを部分的に刈り取り再学習でも同等性能
Sparse化したネットワークが元の大きさに近い精度を発揮
初期重量パターンが重要で再初期化すると性能低下

詳細な説明
宝くじ仮説（Lottery Ticket Hypothesis）は、深いネットワークは巨大でも、実はある特定の接続パターンが有利な初期値を持ち、そこを取り出して再学習すると同等以上の性能を達成可能という考え。モデル圧縮や軽量化の理論的裏付けとして研究が進んでいる。
The lottery ticket hypothesis posits that within large networks, certain sub-networks with “lucky” initial weights can train to high performance, comparable to the full model. Identifying and preserving these “winning tickets” is a key step toward model compression.

F34-4 プルーニング

キーワード
プルーニング

定義(1行)
プルーニングは、不要な重みやニューロンを切り落とし、モデルのサイズや計算量を削減する手法。

具体例(3つ)

重みが小さい順に刈り込みスパースモデルを作る
畳み込みフィルタ単位でチャネルを削除
既定の精度を維持しつつモデルを数分の1に圧縮

詳細な説明
プルーニングは推論速度向上とメモリ節約のために行われ、構造的プルーニング(フィルタやチャネルを削除)や非構造的プルーニング(個別重みを0化)がある。圧縮後も適度な再学習を行うことで性能を保持できる。
Pruning removes unimportant weights or neurons to reduce model size and computational load. Approaches include structured pruning (filter/channel removal) or unstructured pruning (zeroing individual weights). A fine-tuning step often recovers accuracy.

F34-5 モデル圧縮

キーワード
モデル圧縮

定義(1行)
モデル圧縮は、大きなニューラルネットを効率化し、メモリや演算コストを下げる技術総称。

具体例(3つ)

蒸留やプルーニングでパラメータを削減
量子化で各重みを低ビット表現に
TensorFlow LiteやONNXで軽量推論モデルを生成

詳細な説明
モデル圧縮は、プルーニング、量子化、蒸留など多様な手法を組み合わせ、推論デバイスのリソース制限をクリアしながら十分な精度を出すことを目指す。組込みやエッジAIで特に重要。
Model compression encompasses pruning, quantization, and distillation to reduce computational or memory overhead while retaining adequate accuracy, vital for resource-constrained edge or embedded scenarios.

F34-6 量子化

キーワード
量子化

定義(1行)
量子化は、モデルの重みやアクティベーションを低ビット幅(8bitなど)に変換し、サイズと推論速度を改善する手法。

具体例(3つ)

32bit浮動小数を8bit整数に置き換える
モバイルAIでFP16やint8実装により高速化
一部レイヤーのみ量子化(ミックス精度)

詳細な説明
量子化はビット幅を削減することで演算量やメモリ使用量を大幅に下げる。int8やFP16へ変換しても適切なスケーリングや再学習(Quantization-Aware Training)を行えば高い精度を維持可能。
Quantization reduces bit-width for weights and activations, decreasing memory and computational demands. With appropriate scaling or quantization-aware training, int8 or FP16 models can retain near-original accuracy.