見出し画像

【H.AI に必要な数理・統計知識】AIを一言で伝える技術〜G検定完全対応〜

次の用語について、説明してください。
[STEP1] 一言で説明する。
[STEP2] 具体例を説明する。(可能なら3つ)
[STEP3] 用語を英語で言い換える。
[STEP4] 英語で一言で説明する。
[STEP5] 英語で具体例を説明する。(可能なら3つ)


H37-1 移動平均

キーワード
移動平均

定義(1行)
一定区間内のデータを平均して時系列の平滑化を行う手法。 A moving average smooths a time series by computing the average over a fixed window of recent data points.

具体例(3つ)

  1. 株価の短期・長期移動平均線を利用してトレンドを把握
    Using short- and long-term moving averages of stock prices to identify trends

  2. 温度データを日ごとに7日移動平均をとり季節変動を見やすく
    Taking a 7-day moving average of daily temperature data for clearer seasonal patterns

  3. ウェブアクセス数の移動平均で週末の変動をならし需要予測に活用
    Using moving averages of website traffic to level out weekend fluctuations for demand forecasting

詳細な説明
移動平均はウィンドウサイズを決め、その範囲に含まれる値の平均を取り続けることで短期的な変動をならし、全体的な傾向を把握しやすくする。時系列分析や金融分野でトレンド検出に広く使われる。
A moving average involves selecting a window size and calculating the average of data within that window as it shifts over the time series. This reduces short-term fluctuations and reveals overall trends, frequently used in time series analysis and finance.


H37-2 確率分布

キーワード
確率分布

定義(1行)
確率分布は、乱数変数が取りうる値とそれに対応する確率の割り当てを表す。 A probability distribution describes all possible values of a random variable and their associated probabilities.

具体例(3つ)

  1. サイコロ投げで1~6の出目がそれぞれ1/6
    A fair die roll where each side (1–6) has a probability of 1/6

  2. コイントスで表と裏がそれぞれ0.5
    A coin toss with heads and tails each having a probability of 0.5

  3. 正規分布や一様分布など連続・離散問わず多様な分布
    Various distributions like normal or uniform, across discrete or continuous domains

詳細な説明
確率分布は、離散型・連続型問わず、ある乱数変数がどの値をどの頻度で取り得るかを定量化したもの。統計学や機械学習の基盤概念であり、データの生成過程をモデル化する際に不可欠な役割を担う。
A probability distribution quantifies how often a random variable takes certain values, whether discrete or continuous. It’s fundamental in statistics and machine learning, modeling how data is generated.


H37-3 確率変数

キーワード
確率変数

定義(1行)
確率変数は、不確定な実験結果を数値で表す変数で、確率分布を持つ。 A random variable assigns numerical values to the outcomes of an uncertain experiment, following a probability distribution.

具体例(3つ)

  1. サイコロ投げの出目を 1~6 とする変数X
    A die roll outcome variable X from 1 to 6

  2. コイントスで表を1、裏を0とする二値変数
    A binary variable taking 1 for heads and 0 for tails

  3. 実数値を取る正規分布に従う連続変数
    A continuous variable that follows a normal distribution

詳細な説明
確率変数は、偶然の要素を数値化した概念で、各値に対し確率が割り当てられる。離散的にも連続的にも定義でき、機械学習や統計推定の理論基盤となる。
A random variable captures uncertainty numerically, assigning probabilities to its possible outcomes. It can be discrete or continuous, forming a theoretical basis for statistical inference and machine learning.


H37-4 確率密度

キーワード
確率密度

定義(1行)
確率密度は、連続確率変数において、その値近辺の発生しやすさを示す関数。 Probability density indicates the likelihood of a continuous random variable taking values near a certain point.

具体例(3つ)

  1. 正規分布の釣鐘型カーブ
    The bell curve of a normal distribution

  2. 一様分布で一定高さの確率密度
    A uniform distribution with a constant density across its interval

  3. カーネル密度推定によるデータの滑らかな外挿
    Kernel density estimation providing a smooth approximation of observed data

詳細な説明
連続分布では、厳密な点の確率は0だが、確率密度関数の積分で区間内の確率が求まる。グラフ上の面積が1になるように正規化されている。
For continuous variables, the probability at a single point is zero. Instead, the probability over an interval is the integral of the density, ensuring the total area under the curve is 1.


H37-5 疑似相関

キーワード
疑似相関

定義(1行)
疑似相関は、実際には因果関係がないにもかかわらず、データ上は高い相関が見られる現象。 A spurious correlation appears when data shows a strong correlation without any true causal relationship.

具体例(3つ)

  1. アイスクリーム販売量と水難事故数の相関
    Ice cream sales and drowning incidents showing correlation

  2. 歴年映画出演者数と電気消費量が偶然一致
    Coincidental alignment between annual number of film actors and electricity usage

  3. ある株価と海水温度が似た変動パターンを示す
    Stock prices and sea temperatures exhibiting similar trends

詳細な説明
疑似相関は、第三の要因や単なる偶然により数値が動くことで発生しやすい。相関を根拠に因果関係を主張する際には注意が必要であり、実験設計や回帰モデルなどで確認することが重要。
Spurious correlations often emerge due to hidden factors or mere coincidence. One must confirm any apparent relationship through robust experimental design or regression analysis before inferring causality.


H37-6 期待値

キーワード
期待値

定義(1行)
期待値は、確率変数の平均的な値を表し、多くの試行を行った場合の平均結果を指す。 An expectation is the average outcome of a random variable, representing its long-run mean over many trials.

具体例(3つ)

  1. サイコロ出目Xの期待値は (1+2+3+4+5+6)/6 = 3.5
    A fair die roll X has an expected value of (1+2+3+4+5+6)/6 = 3.5

  2. コイントスの表(1)/裏(0)の期待値=0.5
    A coin toss with heads(1)/tails(0) has expectation 0.5

  3. 正規分布N(μ,σ²)の期待値=μ
    A normal distribution N(μ,σ²) has expectation μ

詳細な説明
期待値は、無限回の試行の平均値という考え方でもあり、離散型のときは値×確率の総和、連続型のときは積分で計算される。機械学習の損失関数でも期待値概念が重要となる。
The expectation can be viewed as the mean outcome over infinitely many trials. For discrete variables, it’s the sum of (value × probability); for continuous variables, an integral. It’s also central to ML loss function calculations.


H37-7 帰無仮説

キーワード
帰無仮説

定義(1行)
帰無仮説は、統計検定で「差異や効果が存在しない」という仮定として設定される。 In statistical hypothesis testing, the null hypothesis assumes no difference or effect exists.

具体例(3つ)

  1. 新薬とプラセボで効果差がないと仮定
    Assuming no effectiveness difference between a new drug and a placebo

  2. ある広告手法と従来手法のCVRが同じとする
    Treating two ad strategies as having the same conversion rate

  3. A/Bテストで新UIが既存UIと性能差なし
    Testing that a new UI performs no better than the old UI

詳細な説明
帰無仮説を棄却できるか否かを判定するのが統計検定の基本枠組み。帰無仮説が棄却されると「差がある」と考えられるが、棄却できない場合に確定的に「差がない」とは言えない点に注意が必要。
Statistical tests revolve around rejecting or failing to reject the null hypothesis. Rejection indicates a significant difference, while non-rejection doesn't definitively prove no difference.


H37-8 共分散

キーワード
共分散

定義(1行)
共分散は、2つの変数が平均からどのように同時に変動するかを数値化した指標。 Covariance measures how two variables vary together relative to their means.

具体例(3つ)

  1. 気温が高いとき売上も高くなる→正の共分散
    High temperatures and sales both increasing → positive covariance

  2. 金利が上がると株価が下がる→負の共分散
    Rising interest rates leading to falling stock prices → negative covariance

  3. 無関係だと共分散はおおむね0近く
    Unrelated variables yield covariance near 0

詳細な説明
共分散は、正なら正の相関、負なら負の相関を示すが、数値のスケールに依存する欠点がある。標準化した共分散が相関係数となり、-1~1の範囲で関係性を把握しやすくなる。
A positive covariance indicates a positive association; negative means inverse association. Its scale dependency is addressed by correlation coefficients, which normalize covariance to a -1 to 1 range.


H37-9 コサイン類似度

キーワード
コサイン類似度

定義(1行)
コサイン類似度は、ベクトルの角度に基づき類似性を測る指標で、値が1に近いほど方向が近い。 Cosine similarity measures how similar two vectors are by their angle, approaching 1 if their directions are nearly identical.

具体例(3つ)

  1. 文書ベクトル同士の類似度を評価する
    Evaluating text document similarity using vectors

  2. ワード埋め込みの類似度で単語の意味的近さを測る
    Assessing semantic closeness of words in an embedding space

  3. ユーザー嗜好ベクトルと商品ベクトルのマッチング
    Matching a user’s preference vector with a product vector

詳細な説明
コサイン類似度は、2つのベクトルの内積をそれぞれのノルムの積で割ったもので、長さの影響を排除し方向性のみを見るため、テキストマイニングやレコメンドでよく使われる。
Cosine similarity is the dot product of two vectors divided by the product of their magnitudes, isolating directional similarity rather than magnitude, making it popular in text mining and recommendation systems.


H37-10 最小二乗法

キーワード
最小二乗法

定義(1行)
最小二乗法は、誤差(実測値と予測値の差)の二乗和を最小にするパラメータを求める手法。 The least squares method finds parameters that minimize the sum of squared errors between observed and predicted values.

具体例(3つ)

  1. 直線回帰でデータ点との垂直距離二乗和を最小化
    Linear regression minimizing the sum of squared vertical distances to data points

  2. ポリノミナル回帰で曲線近似
    Polynomial regression to fit a curve

  3. 時系列予測で二乗誤差を基準とするモデル最適化
    Optimizing a time series forecast model based on squared error

詳細な説明
最小二乗法は線形回帰の基本技術で、解析解(正規方程式)を持つ場合もある。誤差平方和を通じて外れ値を強く重視してしまう特性があるため、ロバスト回帰なども開発されている。
Least squares underpins linear regression. It often has a closed-form solution (normal equations). However, the squared error can overly weight outliers, prompting techniques like robust regression.


H37-11 最頻値

キーワード
最頻値

定義(1行)
最頻値は、分布やデータセット内で最も頻繁に現れる値を指す。 The mode is the value that occurs most frequently in a dataset or distribution.

具体例(3つ)

  1. アンケート回答で最多選択肢が最頻値
    In a survey, the most chosen option is the mode

  2. 離散分布で確率質量が最大の値
    A discrete distribution’s value with the highest probability mass

  3. 連続分布でも山頂となる点を最頻値と呼ぶ
    In a continuous distribution, the peak can be considered the mode

詳細な説明
最頻値は、平均・中央値とともに代表値の一つ。カテゴリ型データでも容易に定義でき、外れ値の影響を受けにくいが、複数の最頻値を持つ多峰分布などでは解釈に注意が必要。
Along with mean and median, the mode is a measure of central tendency. It applies easily to categorical data, unaffected by outliers. However, multi-modal distributions can have multiple modes, complicating interpretation.


H37-12 最尤法

キーワード
最尤法

定義(1行)
最尤法は、与えられた観測データが最も起こりやすくなるパラメータを求める推定手法。 The maximum likelihood estimation (MLE) finds parameters that maximize the probability of observing the given data.

具体例(3つ)

  1. ガウス分布N(μ,σ²)のデータでμやσ²を推定
    Estimating μ and σ² for a Gaussian distribution N(μ,σ²)

  2. ロジスティック回帰でパラメータの対数尤度を最大化
    Maximizing log-likelihood to fit logistic regression parameters

  3. HMMで観測系列の尤度を最大にする遷移・出力確率を学習
    Learning transition and emission probabilities in an HMM that maximize sequence likelihood

詳細な説明
最尤法はモデルのパラメータを微分方程式や数値計算で解き、データを最もうまく説明する値を得る。大標本サイズで良好な性質を示し、多くの統計モデルや機械学習で広く使われる。
MLE solves for model parameters (via differentiation or numerical optimization) that best explain observed data. It has good large-sample properties and is extensively used across statistical modeling and machine learning.


H37-13 条件付き確率

キーワード
条件付き確率

定義(1行)
条件付き確率は、ある事象が起きたという情報を前提に、他の事象が起きる確率を表す。 Conditional probability measures the probability of an event given that another event has already occurred.

具体例(3つ)

  1. カードを1枚引いてハートとわかっている場合に、絵札である確率
    Probability a card is a face card given it’s a heart

  2. 患者が発熱しているときにインフルエンザである確率
    Probability of influenza given the patient has a fever

  3. コイントスで1枚が表だったとき、もう1枚も表である確率
    Probability the second coin is heads given the first coin is heads

詳細な説明
条件付き確率P(A|B)はP(A∩B)/P(B)で定義され、ベイズ定理などで重要な役割を果たす。機械学習の確率モデルやベイジアン推論でも広く活用される概念。
Conditional probability P(A|B) = P(A∩B)/P(B). It’s fundamental to Bayes’ theorem, frequently applied in probabilistic models and Bayesian inference for machine learning.


H37-14 正規分布

キーワード
正規分布

定義(1行)
正規分布(ガウス分布)は、連続分布の代表例で釣鐘型の曲線をもち、平均μと分散σ²で決まる。 The normal (Gaussian) distribution is a bell-shaped continuous distribution determined by mean μ and variance σ².

具体例(3つ)

  1. 身長や体重など自然界の多くの測定量
    Heights or weights in nature often approximate a normal distribution

  2. 誤差分布や誤差逆伝播の前提モデル
    Error distributions in measurement or backprop assumption

  3. 中心極限定理で多変数の和が正規近似
    The central limit theorem ensures sum of many variables approximates normal

詳細な説明
正規分布は中心極限定理などから多くの実データで近似可能な分布として重要視され、推定や検定など統計手法の根幹を成す。形状は平均を中心に対称で、標準正規分布に標準化できる。
The normal distribution is pivotal in statistics due to the central limit theorem, approximating many real-world phenomena. It is symmetric around the mean and can be standardized to a mean 0, variance 1 form.


H37-15 相関係数

キーワード
相関係数

定義(1行)
相関係数は、2変数の線形関係の強さと向きを-1~1で表す指標。 A correlation coefficient quantifies the strength and direction of a linear relationship between two variables on a scale from -1 to 1.

具体例(3つ)

  1. Pearsonの相関係数が0.8なら強い正の相関
    A Pearson correlation of 0.8 indicates a strong positive relationship

  2. 0に近いと線形依存が小さい
    Near 0 implies minimal linear dependence

  3. -0.7は負の傾きがあり比較的強い相関
    -0.7 suggests a relatively strong negative slope

詳細な説明
相関係数が正に大きければ一方が増加すると他方も増加しやすく、負なら逆に一方が増加すれば他方は減少する傾向。相関は因果ではなく、相関だけで原因を断定できない点に注意。
A large positive correlation implies both variables rise together, while a negative value suggests one decreases as the other increases. Correlation doesn’t imply causation, so further analysis is needed before inferring cause.


H37-16 相互情報量

キーワード
相互情報量

定義(1行)
相互情報量は、2つの確率変数間で共有される情報量を測る指標で、共通要素の多さを示す。 Mutual information measures the amount of shared information between two random variables.

具体例(3つ)

  1. 画像の画素とラベルにおける相互依存度
    The dependency between image pixels and class labels

  2. テキスト中の単語出現と文書トピックとの関連
    The correlation between a word’s occurrence and the document’s topic

  3. 遺伝子発現プロファイルと疾患分類
    The relationship between gene expression profiles and disease categories

詳細な説明
相互情報量が大きいほど、一方の値を知ることで他方に関する不確実性が大幅に減る。相関係数では捉えにくい非線形関係でも捕捉可能で、特徴選択や情報理論的分析に用いられる。
High mutual information indicates that knowledge of one variable greatly reduces uncertainty about the other. Unlike a correlation coefficient, it can capture nonlinear dependencies, useful in feature selection and information-theoretic analysis.


H37-17 対立仮説

キーワード
対立仮説

定義(1行)
対立仮説は、統計検定において「差異や効果が存在する」と主張する仮説で、帰無仮説の否定を目指す。 In statistical hypothesis testing, the alternative hypothesis asserts that a difference or effect exists, contradicting the null hypothesis.

具体例(3つ)

  1. 新薬の効果がプラセボより高い
    New drug is more effective than placebo

  2. A/Bテストで新デザインがCVRを向上させる
    New UI design has a higher conversion rate than the old design

  3. ある連続変数の平均が特定の値と異なる
    A variable’s mean differs from a specified constant

詳細な説明
対立仮説は「帰無仮説に対し差がある・効果がある」との主張を包含する。統計学では、p値が十分小さいと帰無仮説を棄却し、対立仮説を支持する。ただし「真に正しい」と断定するわけではない。
The alternative hypothesis contends that “some difference or effect exists.” If the p-value is sufficiently low, we reject the null hypothesis in favor of this alternative. Yet, it does not conclusively prove the alternative is correct.


H37-18 中央値

キーワード
中央値

定義(1行)
中央値は、データを小さい順に並べたとき、真ん中に位置する値で外れ値に頑健な指標。 The median is the midpoint of ordered data, making it robust to outliers.

具体例(3つ)

  1. 対象人数が奇数のテストスコアで真ん中の人の点数
    The middle test score for an odd number of participants

  2. 偶数の場合は2つの中央要素の平均
    The average of the two middle elements if the dataset size is even

  3. 家賃分布が偏る場合、平均より中央値が実態を反映
    For skewed rent distributions, the median can better represent typical values

詳細な説明
中央値は、順番に並べたとき50%がそれ以下、50%がそれ以上になる位置で、平均が大きく歪められる場合でも代表値として重宝される。特に非対称分布や外れ値があるときの指標として有用。
Because half the data lies below and half above, the median is unaffected by extreme values. It’s a preferred measure of central tendency for skewed distributions or when outliers can unduly influence the mean.


H37-19 度数分布

キーワード
度数分布

定義(1行)
度数分布は、変数の値ごとの出現回数(度数)を区間やカテゴリにまとめた集計表または可視化。 A frequency distribution tabulates the counts (frequencies) of data falling into different values, intervals, or categories.

具体例(3つ)

  1. 年齢を10歳刻みで区分して人数を集計
    Summarizing population by decade ranges in age

  2. テスト点数を5点刻みのビンに振り分けてヒストグラム表示
    Plotting a histogram grouping test scores into 5-point bins

  3. アンケートの選択肢別回答数を棒グラフに可視化
    Visualizing the number of respondents choosing each survey option in a bar chart

詳細な説明
度数分布はデータの全体像を掴む基本的な方法で、ヒストグラムや棒グラフなどで可視化される。連続変数の場合はビン区切り、離散やカテゴリの場合は各値の度数をリストアップし、データの偏りや傾向を把握するのに役立つ。
Frequency distributions provide an overview of data by enumerating counts of each bin or category. Histograms for continuous variables or bar charts for discrete categories reveal patterns, skewness, or clusters in the data.


H37-20 二項分布

キーワード
二項分布

定義(1行)
二項分布は、独立なベルヌーイ試行をn回行ったときに成功回数が従う離散分布。 A binomial distribution arises from the number of successes in n independent Bernoulli trials.

具体例(3つ)

  1. コインを10回投げて表が出る回数
    Flipping a fair coin 10 times, counting heads

  2. 製品検査でn個中何個が不良か
    Counting defective items out of n inspected products

  3. メール10通中スパムがいくつあるか
    The count of spam emails among 10 messages

詳細な説明
二項分布は、確率pで成功する試行をn回行うとき、成功回数Xがとり得る値k(0 ≤ k ≤ n)の確率を与える。平均np、分散np(1–p)となる。多くの離散現象をモデル化できる基本的分布。
In a binomial scenario with success probability p repeated n times, the distribution provides the probability of k successes. It has mean np and variance np(1–p), modeling a broad range of discrete events.


H37-21 外れ値

キーワード
外れ値

定義(1行)
外れ値は、他のデータ点から大きく逸脱しており、統計分析やモデルに影響を与える可能性がある値。 An outlier is a data point significantly deviating from the rest, potentially distorting statistical analysis or modeling.

具体例(3つ)

  1. 収入データで極端に高い値
    An exceptionally high salary in an income dataset

  2. 温度計の故障で異常に高温を記録
    A thermometer malfunction reading an unrealistic high temperature

  3. スキャン誤差により桁外れのセンサー値
    A sensor glitch yielding an implausibly large measurement

詳細な説明
外れ値は、計測エラーや異常事象、特殊事例などが原因となる。平均や分散が大きく影響を受けるため、外れ値を除外またはロバスト統計手法を使うなどの対策がある。
Outliers can stem from measurement errors, anomalies, or special cases, heavily impacting means or variances. Mitigation includes outlier removal or applying robust methods that reduce sensitivity to extreme values.


H37-22 標準偏差

キーワード
標準偏差

定義(1行)
標準偏差は、データのばらつきを示す指標で、分散の平方根として定義される。 The standard deviation quantifies data spread and is defined as the square root of the variance.

具体例(3つ)

  1. 収入データにおける年間収入の変動の大きさ
    Variation of annual incomes in a dataset

  2. テスト得点で平均点から離れ具合を把握
    Gauging how far student test scores deviate from the mean

  3. 製造ラインの製品寸法精度を評価
    Evaluating product dimensional consistency in manufacturing

詳細な説明
標準偏差はデータが平均周辺でどの程度散らばっているかを示す。値が大きいほど散らばりが大きく、標準化や正規分布を扱う際に重要な要素。分散は二乗で扱うため、元の単位に戻すために平方根をとる。
The standard deviation reveals how much data clusters around the mean. A larger value indicates more dispersion. It’s crucial in standardizing variables and working with normal distributions, computed as the square root of the variance to retain the original measurement units.


H37-23 平均

キーワード
平均

定義(1行)
平均は、データや分布の中心を表す代表値で、要素の総和をサンプル数で割って求める。 The mean is a central measure of data or a distribution, calculated as the sum of elements divided by the sample size.

具体例(3つ)

  1. テスト得点を合計し受験者数で割る
    Summing test scores and dividing by the number of students

  2. 年齢の平均を使って集団の傾向を捉える
    Using average age to characterize a population

  3. レビュー評価(1~5)の平均で商品満足度を測る
    Summarizing product satisfaction using an average rating from 1 to 5

詳細な説明
平均は「最も基本的な代表値」だが、外れ値に弱いという欠点がある。データ分布が対称に近い場合には有効な指標であり、統計解析や機械学習でしばしば用いられる。
A mean is the simplest measure of central tendency but is highly sensitive to outliers. It’s effective with roughly symmetric data and commonly employed in statistical and ML contexts.


H37-24 分散

キーワード
分散

定義(1行)
分散は、データの散らばり具合を二乗誤差の平均として数値化した指標。 Variance quantifies data spread as the average of squared deviations from the mean.

具体例(3つ)

  1. テスト得点の分散が大きいと成績の差が激しい
    A large variance in test scores indicates wide performance gaps

  2. 製品寸法のバラつきを数値化
    Measuring the scatter in product dimensions

  3. 市場リターンの変動リスク評価
    Assessing the variability of market returns for risk analysis

詳細な説明
分散は (各値 - 平均)² の平均として定義されるため、ばらつきが大きいほど値が大きくなる。平方根をとった値が標準偏差であり、もとの単位に合わせたばらつきを把握できる。
Variance is the mean of squared deviations from the mean, increasing with greater data spread. Taking its square root yields the standard deviation, aligning measurement units with the original data.


H37-25 偏相関係数

キーワード
偏相関係数

定義(1行)
偏相関係数は、他の変数の影響を取り除いたうえで、2変数間の線形関係を測る指標。 A partial correlation measures the linear relationship between two variables while controlling for other variables.

具体例(3つ)

  1. 収入と健康度合いの相関を年齢や職業を固定して算出
    Computing correlation of income and health while holding age and occupation constant

  2. コレステロールと血圧の関係から体重の影響を除去
    Removing weight’s influence to examine cholesterol-blood pressure correlation

  3. 複数回帰モデルの各変数間の純粋な関連性評価
    Evaluating pure associations among variables in a multiple regression context

詳細な説明
単純相関では、他の変数が共通して変動要因となっている場合、誤った関連が見える可能性がある。偏相関係数は、線形モデルで制御変数を考慮することにより、純粋な2変数関係を抽出できる。
Simple correlations can be misleading if other variables confound the relationship. Partial correlations control for these confounders, isolating the direct linear link between the two variables of interest.


H37-26 ベルヌーイ分布

キーワード
ベルヌーイ分布

定義(1行)
ベルヌーイ分布は、成功(1)か失敗(0)の二値を確率pで生じる単一試行の離散分布。 A Bernoulli distribution represents a single binary trial (success or failure) with probability p.

具体例(3つ)

  1. コイントスの表(成功)確率p=0.5
    A fair coin toss success probability p=0.5

  2. 広告がクリックされるか否か
    Whether an online ad is clicked or not

  3. 試作品が合格(1)/不合格(0)になる確率
    A prototype passing (1) or failing (0) with probability p

詳細な説明
ベルヌーイ分布は確率pで1、(1-p)で0となる単純な分布。二項分布やロジスティック回帰など多くのモデルの基礎であり、確率pを推定する形で様々な応用に使われる。
The Bernoulli distribution yields 1 with probability p or 0 with probability 1−p. It underlies binomial processes, logistic models, and many fundamental applications where outcomes are binary.


H37-27 ポアソン分布

キーワード
ポアソン分布

定義(1行)
ポアソン分布は、単位時間や空間あたりの稀な事象の発生回数を表し、平均λで決まる離散分布。 A Poisson distribution models the count of rare events in a given time or space interval, governed by mean rate λ.

具体例(3つ)

  1. 一定期間の顧客来店数
    The number of customers arriving in a fixed time

  2. 電話交換局にかかる電話本数
    The count of calls at a telephone exchange

  3. 放射性崩壊で一定時間に観測される粒子数
    The detected particles from radioactive decay over a time period

詳細な説明
ポアソン分布は平均λで事象が独立に発生する場合に用いられる。事象が頻繁すぎない状況で近似として適合し、二項分布の n が大きく p が小さい極限としても導かれる。
In scenarios of relatively infrequent independent events with mean rate λ, the Poisson distribution fits. It also emerges as a limit of the binomial distribution when n is large and p is small.


H37-28 マハラノビス距離

キーワード
マハラノビス距離

定義(1行)
マハラノビス距離は、共分散を考慮した多次元データ間の距離指標で、標準化された空間上の距離を示す。 The Mahalanobis distance is a measure of distance for multivariate data that accounts for covariance, reflecting standardized separation in feature space.

具体例(3つ)

  1. 外れ値検出で特徴ベクトル同士の異常度を評価
    Evaluating abnormality in feature vectors for outlier detection

  2. LDAやQDAでクラス間の判別に利用
    Used in linear discriminant analysis or quadratic discriminant analysis for classification

  3. 多変量正規分布における等値面を円(楕円)として理解
    Interpreting iso-probability contours of a multivariate normal as ellipsoids

詳細な説明
マハラノビス距離は、変数間の相関やスケールを反映し、互いに相関のある特徴が存在する場合でも適切な距離を測ることができる。単純なユークリッド距離だと相関を無視してしまう場合に有効。
The Mahalanobis distance incorporates correlations among features and scales data appropriately, overcoming the limitations of Euclidean distance in correlated datasets.


H37-29 ユークリッド距離

キーワード
ユークリッド距離

定義(1行)
ユークリッド距離は、幾何学上の空間で2点間の最短直線距離を表す基本的な指標。 Euclidean distance is the fundamental straight-line distance between two points in a geometric space.

具体例(3つ)

  1. 2次元平面上の(0,0)と(3,4)の距離=5
    Distance between (0,0) and (3,4) in 2D = 5

  2. 画像特徴ベクトル同士の類似度測定
    Comparing image feature vectors for similarity

  3. k近傍法(k-NN)で最近傍を探す基準
    A standard metric in k-nearest neighbors to find closest points

詳細な説明
ユークリッド距離は最も直感的な距離の定義だが、多次元で特徴が相関している場合には問題が生じることもある。高次元空間では距離がほぼ一定になる「次元の呪い」もあり、用途に応じた距離選択が重要。
This distance is the most intuitive measure in geometric terms, yet can be inadequate if features are correlated or in high-dimensional spaces where distances converge (the curse of dimensionality). Choosing an appropriate metric per application is essential.

いいなと思ったら応援しよう!