deviation は「偏差」と訳されます。いつものように英和辞典から。
deviation 名 1《基準などからの》逸脱(行為)、脱線 2〘統計〙偏差〈値〉
ウィズダム英和辞典(一部省略) 次に日本語版 Wikipedia から。
偏差(へんさ、英: deviation)とは、統計学において、データの1つの値に対して、基準値(平均値や中央値など)との差のことである。偏差はデータの各値に対して定まるものである。
https://ja.wikipedia.org/wiki/%E5%81%8F%E5%B7%AE 「基準との差」という部分は英和辞典の説明とおんなじですね。「基準」とは具体的には平均値や中央値のことだとわかります。どっちも偏差というなら、その違いについて、あるいは、単に「偏差」というときにはどっちを使うかについて、何か書いてあって欲しいと思いますが、ありません。
では、英語版の Wikipedia で。単に Deviation を調べるとたくさんあるので、その中から Deviation(statistics) を参照します。 ところが、冒頭からややこしい話になっていまして、
Not to be confused with Deviance (statistics) or Deviate (statistics).
https://en.wikipedia.org/wiki/Deviation_%28statistics%29 これ、DeepLにつっこむとどうなるかというと、「Deviance(統計)、Deviate(統計)と混同しないように」というものすごーく親切な訳が出てきて笑えます。しかたないから英和辞典を引きますと、 deviance 名 逸脱 deviate 動 《基準などから》逸脱する と、ひざの力が抜けるわけです。辞書引かなくても、単語の頭がみんな同じなんだから、当然なんですが。 とすると、3つのよく似た用語をいっぺんに調べないといけなくなるので、思い切りスルーします。リードパラグラフの前に注釈が割り込んでいます。
This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.
引用文献が示されていないから、信頼できる文献を示せときました。そんなこと言われても。スルーして本文を読みます。
In mathematics and statistics, deviation is a measure of difference between the observed value of a variable and some other value, often that variable's mean. The sign of the deviation reports the direction of that difference (the deviation is positive when the observed value exceeds the reference value). The magnitude of the value indicates the size of the difference. 数学と統計学において、偏差とは、ある変数の観測値と他の値(多くの場合、その変数の平均値)との差を表す尺度である。偏差値の符号は、その差の方向を示す(観測値が基準値を上回った場合、偏差値は正となる)。値の大きさは、その差の大きさを示す。
https://en.wikipedia.org/wiki/Deviation_%28statistics%29 ようやくたどり着きました。わたしが持っている知識と寸分たがわぬ(言いすぎか?)説明がここで展開されています。引用文献がないって冒頭で文句を言われていますが、どうなのかなあ? 普通に教科書に書かれていそうな気がしますが。 日本語版のWikiと比較すると、符号は差の方向を示していて、大きさは差の大きさを示しているよ、と、丁寧に説明してあるところがGood。
なあんだ。簡単じゃん。と思いきや。
Types Main article: Errors and residuals A deviation that is a difference between an observed value and the true value of a quantity of interest (where true value denotes the Expected Value, such as the population mean) is an error. A deviation that is the difference between the observed value and an estimate of the true value (e.g. the sample mean; the Expected Value of a sample can be used as an estimate of the Expected Value of the population) is a residual. These concepts are applicable for data at the interval and ratio levels of measurement. 種類 主な項目 誤差と残差 観測値と目的量の真の値(真の値は母平均などの期待値を表す)との差である偏差は誤差である。 観測値と真の値の推定値(例えば標本平均;標本の期待値は母集団の期待値の推定値として使用できる)との間の差である偏差は残差である。これらの概念は、区間レベルや比率レベルの測定データに適用できる。
同上 すごいじゃありませんか。 短い説明の後にいきなり「種類」ってあって、前の説明で「他の値」とあったところ(日本語版では「基準値」)が、何であるかによって、偏差の呼び方は異なっていて、基準値が「目的量の真の値」であるときはーー>「誤差」といいます 基準値が「真の値の推定値」であるときはーー>「残差」といいます というわけです。つまり、「誤差」とか「残差」とかいうときには、データと何の値との偏差であるか を、すでに示していることになります。 この文脈で考えると、「偏差」という名称は一般的すぎるので使用されていないように見えます。
さて、Types の続きの説明です。
Unsigned or absolute deviation See also: Average absolute deviation and Least absolute deviation In statistics, the absolute deviation of an element of a data set is the absolute difference between that element and a given point. Typically the deviation is reckoned from the central value, being construed as some type of average, most often the median or sometimes the mean of the data set: D_i = | x_i - m(X) | where D_i is the absolute deviation, x_i is the data element, m(X) is the chosen measure of central tendency of the data set—sometimes the mean, but most often the median. 符号なしまたは絶対値偏差(平均絶対偏差、最小絶対偏差も参照) 統計学では、データセットの要素の絶対偏差は、その要素と与えられた点との間の絶対的な差である。通常、偏差は中心値から計算される。中心値はある種のaverageとして算出されるもので、ほとんどの場合はデータセットの中央値で、平均値であることもある。 D_i = | x_i - m(X) |。 ここで D_iは絶対偏差、x_iはデータ要素、m(X)はデータセットの中心傾向尺度であり、平均値のこともあるが、ほとんどの場合、中央値が選ばれる。
ここで突然、符号なし偏差が登場します。つまり偏差の絶対値ですね。どうして絶対値で考えるのか、つまりどうして符号を考えないのか、について明快な説明はありません。が、平均絶対偏差や最小絶対偏差も参照せよとあるので、これを使って別の指標を計算するのに使うんだからね、ということなのでしょう。 ここで、偏差の基準となる値について、central value とか、some type of average とか、慎重な言い方をしているところが面白いですね。
続いて。
Mean signed deviation Main article: Mean signed deviation For an unbiased estimator, the average of the signed deviations across the entire set of all observations from the unobserved population parameter value averages zero over an arbitrarily large number of samples. However, by construction the average of signed deviations of values from the sample mean value is always zero, though the average signed deviation from another measure of central tendency, such as the sample median, need not be zero. 平均値符号付き偏差値(主な項目 平均符号付き偏差) 不偏推定量を考えると、観測されない母集団値(母数)からのすべての観測値集合において、符号付き偏差の平均は,任意の大きさの標本でゼロとなる。しかし,構成上,標本平均値からの値の符号付き偏差の平均は常にゼロであるが,標本中央値のような、他の中心傾向尺度からの符号付き偏差の平均は、ゼロである必要はない。
と思いきや今度は符号つきの偏差にもどって、その平均についての説明。ここはよく聴く話で、平均からの偏差の平均は常に0だけれど、中央値からの偏差はそうじゃない。だからどうなの? というところまでは突っ込んでないのがちょっと不満ではあるんですが。
そして、また別の用語が出てきます。
Dispersion Statistics of the distribution of deviations are used as measures of statistical dispersion. - Standard deviation is the frequently used measure of dispersion: it uses squared deviations, and has desirable properties, but is not robust. - Average absolute deviation, is the sum of absolute values of the deviations divided by the number of observations. - Median absolute deviation is a robust statistic, which uses the median, not the mean, of absolute deviations. - Maximum absolute deviation is a highly non-robust measure, which uses the maximum absolute deviation. 分散 統計的分散の指標として、偏差の分布の統計が用いられる。 ・標準偏差はよく使われる分散指標で、偏差の2乗を使用し、望ましい特性を持っているが、頑健ではない。 ・平均絶対偏差は、偏差の絶対値の合計を観測値の数で割ったものである。 ・中央値絶対偏差は、絶対偏差の平均値ではなく、中央値を使用するロバスト統計です。 ・最大絶対偏差は、非常に非頑健的な指標で、最大絶対偏差を使用します。
Dispersion は、統計の教科書ではほぼ目にしない単語だと思うのですが、ばらつき、散らばりの意味です。英和辞典を引きます。
dispersion 名 1 (群衆などの)分散、解散;(物などの)散布、分散、消散 2 〘物理〙(光・電磁波の)分散;〘数〙分散
ウィズダム英和辞典 なるほど。名詞なのですが、動きを感じる名詞ですね。群衆などが解散してあちこちに散らばっていく、光や電磁波が四方へ散らばっていく、その「動き」を指している名詞のように感じられます。 じゃあ、統計学で通常「分散」を指す英単語である variance って何?という疑問がわきます。 それから、散らばりの指標として4つ挙げられていて、標準偏差(いいやつなんだが安定しない)、偏差の絶対値の平均(コメントなし?)、偏差の絶対値の中央値(めちゃ安定)、偏差の絶対値の最大値(めちゃ不安定)がそれ。どうしてここに、いわゆる「分散」(分散の平方根が標準偏差なので、同じといえば同じなんだが)がないのだろう? あと、少し前の説明で、偏差絶対値の最小値も参照してねと書いておきながら、ここではそれに触れないで偏差絶対値の最大値を出しておいてからの、highly non-robust とか思い切りディスっているのはなぜ?
さて、まとまりません。困ったものです。
日本語の「偏差」のページがあまりにも簡素な反面、英語版ではあれこれ話題が拡散していて要領を得ない。そんな感じですね。 でも、偏差が偏差だけで何かの役に立っているというよりは、偏差を符号なしにして、つまり絶対値にして、それの平均をとる、中央値をとる、最小値や最大値をとると、何かしら意味を持たせることができるみたいな感じはしてきました。次はこいつらを調べることにしましょう。