「-1≤相関係数≤1」を高校生に説明する

こんにちは。

僕は普段は積分をしたり、またある時には中高生に勉強を教えたりしている。

数か月前、数Ⅰの「データの分析」のところで相関係数の性質について説明したことをふと思い出した。それと同時に、相関係数の説明に関して一つ気になることができた。


まず、この記事の前提知識なので、一応説明しておこう。(ピアソンの積率)相関係数は以下のように定義される量である;

2種類の変量$${x_1, x_2, \cdots, x_n}$$と$${y_1, y_2, \cdots, y_n}$$に対し、この2変量$${x}$$と$${y}$$の(積率)相関係数$${r_{xy}}$$を
$${r_{xy}:=\displaystyle\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2}}}$$

この相関係数$${r_{xy}}$$の重要な性質として、次が成り立つことが数Ⅰの教科書に書かれている。

相関係数$${r_{xy}}$$は常に次を満たす;
$${-1 \leq r_{xy} \leq 1}$$


この性質なのだが、数Ⅰの教科書には証明が書いていない。
ほとんどの参考書にも書いていない。

しかし、正しい態度で数学と向き合っている高校生なら、当然こう質問してくる。「なんで$${-1 \leq r_{xy} \leq 1}$$が成り立つんですか?」と。
高校1年生的には別に全然自明じゃない
から当たり前だ。




-1≤r≤1を説明する

PART1:コーシー・シュワルツの不等式を用いる

一番手っ取り早く説明できそうなのがこの方法だろう。コーシー・シュワルツの不等式の主張は次である。

実数$${x_1, \cdots, x_n}$$と$${y_1, \cdots, y_n}$$について、次のコーシー・シュワルツの不等式が成り立つ;
$${\bigg\lparen\displaystyle\sum_{i=1}^nx_iy_i\bigg\rparen^2 \leq \bigg\lparen\displaystyle\sum_{i=1}^nx_i^2\bigg\rparen \bigg\lparen\displaystyle\sum_{i=1}^ny_i^2\bigg\rparen}$$

これを知っていると、先ほどの$${-1 \leq r_{xy} \leq 1}$$という式は突然当たり前の式に見えてくる。実際、各$${x_i-\bar{x}}$$と$${y_i-\bar{y}}$$にコーシー・シュワルツの不等式を適用すれば

$${\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\biggl\}^2 \leq \bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2\bigg\} \bigg\{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2\bigg\}}$$

両辺を非負実数$${\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2\bigg\} \bigg\{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2\bigg\}}$$で割れば

$${\displaystyle\frac{\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\biggl\}^2}{\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2\bigg\} \bigg\{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2\bigg\}} \leq 1}$$

$${\Bigg\{\displaystyle\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2}}\Bigg\}^2 \leq 1}$$

$${\therefore r_{xy}^2 \leq 1}$$

ここから$${|r_{xy}| \leq 1}$$、すなわち$${-1 \leq r_{xy} \leq 1}$$を得る。


これで無事数Ⅰの授業で説明できるかというと、実はそんなに簡単な話ではない。そもそもこれで解決するなら改めて記事を書こうとは思わない。

この説明には「コーシー・シュワルツの不等式の証明は数Ⅱで扱うので、特殊な教育課程でない限りは数Ⅰの段階でコーシー・シュワルツの不等式自体は既知の定理とできない」という教育的な不都合がある。

すなわち、真面目な態度で数学をするならば、補題としてコーシー・シュワルツの不等式を数Ⅰの範囲内で証明してから、上記の説明を行う必要がある。


ひとまず数Ⅱの範囲で考えてみよう。多くの数Ⅱの教科書では$${n=2}$$の場合を以下のように証明している。

$${(x_1^2+x_2^2)(y_1^2+y_2^2)-(x_1y_1+x_2y_2)^2}$$
$${=(x_1^2y_1^2+x_1^2y_2^2+x_2^2y_1^2+x_2^2y_2^2)-(x_1^2y_1^2+2x_1x_2y_1y_2+x_2^2y_2^2)}$$
$${=x_1^2y_2^2+x_2^2y_1^2-2x_1x_2y_1y_2}$$
$${=(x_1y_2-x_2y_1)^2 \geq 0}$$
$${\therefore (x_1^2+x_2^2)(y_1^2+y_2^2) \geq (x_1y_1+x_2y_2)^2}$$

この程度なら数Ⅰしか学んでいない高校生でも理解できそうな気もするが、しかし学習指導要領的には不等式の証明は数Ⅱの範囲なのだ。しかも一般の$${n}$$に成り立つことも示せていない

特に前者は大問題で、とにかく不等式を証明した瞬間に数Ⅱの範囲と判定されてしまう。つまり、数Ⅰの範囲でコーシー・シュワルツの不等式を証明するのは不可能なのだ。

これは困った。そこで「数Ⅰの範囲で証明」の定義を「既知とする事実を数Ⅰで学習するものに限って証明すること」に変更したいと思う。そうすれば、不等式の性質は数Ⅰで学習するため、前述の証明でも問題ない。これくらいの妥協は許してほしい。そもそも相関係数のとり得る範囲の証明を聞いてくる生徒への説明を想定しているのだから、これくらいしてもよいだろう。


せっかく「数Ⅰの範囲で証明」の定義を変更したので、数Ⅰの範囲で一般の$${n}$$についても証明しよう。ちなみにずっと和の記号$${\Sigma}$$を使っているが、これは単に記事を書く時に和を書き並べるのが面倒だからで、授業の場では普通に書き並べて説明することを想定している(和の記号$${\Sigma}$$は数Bの範囲)。

実数$${t}$$についての以下の2次方程式を考える;

$${\bigg\lparen \displaystyle\sum_{i=1}^nx_i^2 \bigg\rparen t^2-2\bigg\lparen\displaystyle\sum_{i=1}^nx_iy_i \bigg\rparen t^2+\bigg\lparen \displaystyle\sum_{i=1}^ny_i^2 \bigg\rparen=0}$$

これは以下のように変形できる;

$${\displaystyle\sum_{i=1}^n(x_it-y_i)^2=0}$$

この左辺の和の各項は$${(x_it-y_i)^2 \geq 0}$$となるので、この2次方程式の実数解は高々1つである。すなわち、この2次方程式の判別式を$${D}$$とすると

$${D \leq 0}$$

となる。

$${\displaystyle\frac{D}{4}=\bigg\lparen-\displaystyle\sum_{i=1}^nx_iy_i \bigg\rparen^2-\bigg\lparen \displaystyle\sum_{i=1}^nx_i^2 \bigg\rparen\bigg\lparen \displaystyle\sum_{i=1}^ny_i^2 \bigg\rparen }$$

であるから、

$${\bigg\lparen\displaystyle\sum_{i=1}^nx_iy_i \bigg\rparen^2-\bigg\lparen \displaystyle\sum_{i=1}^nx_i^2 \bigg\rparen\bigg\lparen \displaystyle\sum_{i=1}^ny_i^2 \bigg\rparen \leq 0}$$

すなわち

$${\bigg\lparen\displaystyle\sum_{i=1}^nx_iy_i \bigg\rparen^2 \leq \bigg\lparen \displaystyle\sum_{i=1}^nx_i^2 \bigg\rparen\bigg\lparen \displaystyle\sum_{i=1}^ny_i^2 \bigg\rparen}$$

が成り立つ。これは一般の$${n}$$に対するコーシー・シュワルツの不等式である。



PART2:直接証明する

一般の$${n}$$についてコーシー・シュワルツの不等式を証明したが、これができるなら別にあえてコーシー・シュワルツの不等式を経由する必要がない。コーシー・シュワルツの不等式を持ち出すのは、あくまでコーシー・シュワルツの不等式が既知であるとするなら面倒なことをせずに済むからである。

直接証明する方法は、コーシー・シュワルツの不等式とほぼ同じである。コピペして少し書き換えるだけなので大変楽だ。

実数$${t}$$についての以下の2次方程式を考える;

$${\bigg\{ \displaystyle\sum_{i=1}^n(x_i-\bar{x})^2 \bigg\} t^2-2\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) \bigg\} t^2+\bigg\{ \displaystyle\sum_{i=1}^n(y_i-\bar{y})^2 \bigg\}=0}$$

これは以下のように変形できる;

$${\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})t-(y_i-\bar{y})\}^2=0}$$

この左辺の和の各項は$${\{(x_i-\bar{x})t-(y_i-\bar{y})\}^2 \geq 0}$$となるので、この2次方程式の実数解は高々1つである。すなわち、この2次方程式の判別式を$${D}$$とすると

$${D \leq 0}$$

となる。

$${\displaystyle\frac{D}{4}=\bigg\{-\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) \bigg\}^2-\bigg\{ \displaystyle\sum_{i=1}^n(x_i-\bar{x})^2 \bigg\}\bigg\{ \displaystyle\sum_{i=1}^n(y_i-\bar{y})^2 \bigg\} }$$

であるから、

$${\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) \bigg\}^2-\bigg\{ \displaystyle\sum_{i=1}^n(x_i-\bar{x})^2 \bigg\}\bigg\{ \displaystyle\sum_{i=1}^n(y_i-\bar{y})^2 \bigg\}\leq0}$$

すなわち

$${\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) \bigg\}^2 \leq \bigg\{ \displaystyle\sum_{i=1}^n(x_i-\bar{x})^2 \bigg\}\bigg\{ \displaystyle\sum_{i=1}^n(y_i-\bar{y})^2 \bigg\}}$$

が成り立つ。この両辺を非負実数$${\bigg\{ \displaystyle\sum_{i=1}^n(x_i-\bar{x})^2 \bigg\}\bigg\{ \displaystyle\sum_{i=1}^n(y_i-\bar{y})^2 \bigg\}}$$で割ると

$${\displaystyle\frac{\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\biggl\}^2}{\bigg\{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2\bigg\} \bigg\{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2\bigg\}} \leq 1}$$

$${\Bigg\{\displaystyle\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2}}\Bigg\}^2 \leq 1}$$

$${\therefore r_{xy}^2 \leq 1}$$

したがって

$${-1 \leq r_{xy} \leq 1}$$


こうして数Ⅰの知識のみを使って直接証明できたが、コーシー・シュワルツの不等式を介さないととたんに非自明な式になってしまう。僕が高校生で相関係数のとり得る値の範囲の証明を聞いた時に、もしこれを説明されたとしたら、何とも言えない気持ちが晴れないままの気がしてならない。



PART3:「相関係数=コサイン」の事実を用いる

そこで白羽の矢が立つのが次の関係式である;

2種類の変量$${x_1, \cdots, x_n}$$と$${y_1, \cdots, y_n}$$について、第$${i}$$成分が$${x_i-\bar{x}}$$である$${n}$$次元ベクトル$${\textbf x}$$と第$${i}$$成分が$${y_i-\bar{y}}$$である$${n}$$次元ベクトル$${\textbf y}$$のなす角を$${\theta}$$とすると
$${r_{xy}=\cos \theta}$$

数Ⅰの範囲どころか線形代数の話になってしまった。しかし$${n=2}$$の時なら数Ⅰの範囲で容易に理解可能である。

座標平面上に、点$${X(x_1,x_2)}$$と点$${Y(y_1,y_2)}$$をとる。このとき、$${180\degree}$$以下の角$${\angle XOY}$$を$${\theta}$$とすると、余弦定理から

$${(x_1-y_1)^2+(x_2-y_2)^2}$$
$${=(x_1^2+x_2^2)+(y_1^2+y_2^2)-2\sqrt{x_1^2+x_2^2}\sqrt{y_1^2+y_2^2}\cos \theta}$$

$${\cos \theta =\displaystyle\frac{(x_1-y_1)^2+(x_2-y_2)^2-\{(x_1^2+x_2^2)+(y_1^2+y_2^2)\}}{-2\sqrt{x_1^2+x_2^2}\sqrt{y_1^2+y_2^2}}}$$

すなわち

$${\cos \theta=\displaystyle\frac{x_1y_1+x_2y_2}{\sqrt{x_1^2+x_2^2}\sqrt{y_1^2+y_2^2}}=r_{xy}}$$

が成り立つ。

空間座標を考えれば、$${n=3}$$の場合も同様に示せる。面倒だが気合でやってみよう。

座標空間上に、点$${X(x_1,x_2,x_3)}$$と点$${Y(y_1,y_2,y_3)}$$をとる。このとき、$${180\degree}$$以下の角$${\angle XOY}$$を$${\theta}$$とすると、余弦定理から

$${(x_1-y_1)^2+(x_2-y_2)^2+(x_3-y_3)^2}$$
$${=(x_1^2+x_2^2+x_3^2)+(y_1^2+y_2^2+y_3^2)-2\sqrt{x_1^2+x_2^2+x_3^2}\sqrt{y_1^2+y_2^2+y_3^2}\cos \theta}$$

$${\cos \theta =\displaystyle\frac{(x_1-y_1)^2+(x_2-y_2)^2+(x_3-y_3)^2-\{(x_1^2+x_2^2+x_3^2)+(y_1^2+y_2^2+y_3^2)\}}{-2\sqrt{x_1^2+x_2^2+x_3^2}\sqrt{y_1^2+y_2^2+y_3^2}}}$$

すなわち

$${\cos \theta=\displaystyle\frac{x_1y_1+x_2y_2+x_3y_3}{\sqrt{x_1^2+x_2^2+x_3^2}\sqrt{y_1^2+y_2^2+y_3^2}}=r_{xy}}$$

が成り立つ。


ほぼ$${n=2}$$の時と同様に$${n=3}$$の場合も示せたので、同様にすれば一般の$${n}$$についても成り立ちそうだ。コーシー・シュワルツの不等式を$${n=2}$$の場合を示してから「コーシー・シュワルツの不等式は実はより一般の$${n}$$でも成り立つ」と言われるよりは全然納得がいく。しかも$${-1 \leq \cos \theta \leq 1}$$はよく知られた事実なので、$${-1 \leq r_{xy} \leq 1}$$という式にも親しみが湧く納得感が最も得られそうな説明がこの方法である気がしてきた。


こういうわけで僕はこれまで、数学がある程度得意な生徒にはこの説明をしてきたし、今後もそうするつもりだった。




「相関係数=コサイン」は救世主なのか?

しかし、本当に「相関係数=コサイン」の説明がすべてを解決してくれるのだろうか?

先ほど安易に「一般の$${n}$$についても成り立ちそうだ」と書いたが、本当にそうだろうか?

$${\cos\theta=\displaystyle\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2}}}$$だとして、一般の$${n}$$次元空間で常に$${-1 \leq \cos\theta \leq 1}$$が本当に成り立つのだろうか?

そもそも$${n}$$次元空間の2つのベクトル$${\textbf x, \textbf y}$$のなす角とは何なのだろうか?

我々が直感的に理解できるのは3次元空間までなのでこれは難しい問いである。当然だが高校数学の教科書はこのことについて教えてくれない。


そこで、これらについて詳しく考えていくことにする。



n次元ユークリッド空間とユークリッドノルム、ユークリッド内積

まず準備として、距離空間としてのn次元ユークリッド空間を構成しよう。

距離空間とは、次のように定義されるものである;

集合$${X}$$と写像
$${d:X \times X \longrightarrow \mathbb R}$$
の組$${(X, d)}$$が距離空間であるとは、写像$${d}$$が次の3つ(距離の公理)をともに満たすことである;
①$${\forall x,y \in X, d(x,y)=0 \Longleftrightarrow x=y}$$
②$${\forall x,y \in X, d(x,y)=d(y,x)}$$
③$${\forall x,y,z \in X, d(x,y)+d(y,z) \geq d(x,z)}$$
また、この$${d}$$を、$${X}$$上の距離という。

暗に各変量は実数としてきたので、n個の変量の組$${\textbf x = ^{t}(x_1-\bar{x},\cdots, x_n-\bar{x})}$$や$${\textbf y = ^{t}(y_1-\bar{y},\cdots, y_n-\bar{y})}$$は$${\textbf x, \textbf y \in \mathbb R^n}$$である、

そこに距離$${d:\mathbb R^n \times \mathbb R^n  \ni (\mathbf x,\mathbf y) \longmapsto d(\mathbf x, \mathbf y) \in \mathbb R}$$を

$${d(\mathbf x,\mathbf y):=\sqrt{\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})-(y_i-\bar{y})\}^2}}$$

で与えると、$${(\mathbb R^n,d)}$$は距離空間となる。この距離空間のことを特に$${n}$$次元ユークリッド空間という。

実際にこれが距離空間であることを示そう。


まず、平方根の定義から

$${\sqrt{\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})-(y_i-\bar{y})\}^2} \geq 0}$$

である。これにより、

$${d(\mathbf x, \mathbf y)=0}$$
$${\Longleftrightarrow \sqrt{\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})-(y_i-\bar{y})\}^2}=0}$$
$${\Longleftrightarrow (x_i-\bar{x})-(y_i-\bar{y})=0   (\text {for}  \forall i)}$$
$${\Longleftrightarrow x_i-\bar{x}=y_i-\bar{y}   (\text {for}  \forall i)}$$
$${\Longleftrightarrow \textbf x =\textbf y}$$

が成り立つ。


$${d(\textbf x, \textbf y)=\sqrt{\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})-(y_i-\bar{y})\}^2}=\sqrt{\displaystyle\sum_{i=1}^n\{(y_i-\bar{y})-(x_i-\bar{x})\}^2}=d(\textbf y, \textbf x)}$$


$${(x_i-\bar{x})-(y_i-\bar{y})=:a_i, (y_i-\bar{y})-(z_i-\bar{z})=:b_i}$$とすると、$${(x_i-\bar{x})-(z_i-\bar{z})=a_i+b_i}$$となる。このとき

$${\{d(\textbf x,\textbf z)\}^2}$$
$${=\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})-(z_i-\bar{z})\}^2}$$
$${=\displaystyle\sum_{i=1}^n(a_i+b_i)^2}$$
$${=\displaystyle\sum_{i=1}^na_i^2+2\displaystyle\sum_{i=1}^na_ib_i+\displaystyle\sum_{i=1}^nb_i^2}$$
$${\leq \displaystyle\sum_{i=1}^na_i^2+2\sqrt{\bigg\lparen\displaystyle\sum_{i=1}^na_i^2\bigg\rparen \bigg\lparen\displaystyle\sum_{i=1}^nb_i^2 \bigg\rparen}+\displaystyle\sum_{i=1}^nb_i^2}$$($${\because}$$コーシー・シュワルツの不等式)
$${=\bigg\lparen \sqrt{\displaystyle\sum_{i=1}^na_i^2}+\sqrt{\displaystyle\sum_{i=1}^nb_i^2}\bigg\rparen ^2}$$
$${=\bigg\lparen \sqrt{\displaystyle\sum_{i=1}^n\{(x_i-\bar{x})-(y_i-\bar{y})\}^2}+\sqrt{\displaystyle\sum_{i=1}^n\{(y_i-\bar{y})-(z_i-\bar{z})\}^2}\bigg\rparen ^2}$$
$${=\{d(\textbf x, \textbf y)+d(\textbf y, \textbf z)\}^2}$$

よって$${d(\textbf x,\textbf y)+d(\textbf y,\textbf z) \geq d(\textbf x,\textbf z)}$$


さて、この距離の公理は$${d}$$に「距離と呼ぶのにふさわしいこと」を要請する。①は「2点間の距離が0であることと2点が同一のものであることは同値」という意味だし、②は「一方から他方に向かって測った距離は、その逆向きに測った距離と等しい」、③は「点$${x}$$から点$${z}$$に向かうときに、点$${y}$$に寄り道すると距離は同じか長くなる」ことを意味する。2次元や3次元の空間で考えると、確かにこれは「距離」が満たしてほしい性質だ。

すなわち、上による距離空間$${(\mathbb R^n,d)}$$を構成したことで、僕らは$${\mathbb R^n}$$上の「距離」を測れるようになったのだ。これでn次元の空間において、ひとまず距離を考えることができる。


以下、面倒なので$${x_i-\bar{x}=:x_i',  y_i-\bar{y}=:y_i'}$$と書くことにする。

また、この距離$${d}$$に関して、特に$${d(\mathbf x, \mathbf 0)}$$をユークリッドノルムという。

$${\textbf x =(x_1',\cdots,x_n') \in \mathbb R^n}$$に対し、そのユークリッドノルム$${\|\textbf x\|}$$を以下のように定める;
$${\| \textbf x \| :=\sqrt{\displaystyle\sum_{i=1}^nx_i^{\prime 2}}}$$

$${d(\textbf x, \textbf 0)}$$ということは、これはn次元の空間におけるベクトル$${\textbf x}$$の「大きさ」を表している。


次に、ユークリッド内積を定義しよう。

$${\textbf x=(x_1^{\prime},\cdots,x_n^{\prime}),  \textbf y=(y_1^{\prime},\cdots, y_n^{\prime})}$$とする。このとき、$${\textbf x, \textbf y}$$のユークリッド内積$${\langle \textbf x, \textbf y \rangle}$$を以下のように定める;
$${\langle \textbf x, \textbf y \rangle := \displaystyle\sum_{i=1}^nx'_iy'_i}$$

これらを用いると、相関係数は、$${\textbf x= (x_1^{\prime},\cdots,x_n^{\prime}),  \textbf y=(y_1^{\prime},\cdots, y_n^{\prime})}$$によって

$${r_{xy}=\displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}}$$

と書ける。


次に、ノルムと内積の関係を探っていく。

$${\| \textbf x -\textbf y\|^2}$$について考えよう。これは、ノルムと内積の定義から

$${\| \textbf x -\textbf y\|^2}$$
$${=\displaystyle\sum_{i=1}^n(x_i^{\prime}-y_i^{\prime})^2}$$
$${=\displaystyle\sum_{i=1}^nx_i^{\prime 2}-2\displaystyle\sum_{i=1}^nx_i^{\prime}y_i^{\prime}+\displaystyle\sum_{i=1}^ny_i^{\prime 2}}$$
$${=\|\textbf x \| ^2 +\| \textbf y \| ^2 -2 \langle \textbf x, \textbf y \rangle}$$

となり、次の等式が成り立つ;

$${\| \textbf x -\textbf y\|^2=\|\textbf x \| ^2 +\| \textbf y \| ^2 -2 \langle \textbf x, \textbf y \rangle}$$



n次元空間上のベクトルのなす角とは

次に、n次元空間上のベクトルのなす角について考えていきたい。

なす角$${\theta}$$を考えたいのだが、$${\theta}$$は直接扱うのではなく三角関数を経由して考える方が楽なことが多い。ここでは$${\cos \theta}$$を介して考えよう。

位置ベクトルがそれぞれ$${\textbf x, \textbf y}$$である点$${X, Y}$$を考えよう。この点と原点を繋いでできる$${\triangle OXY}$$についても余弦定理は成り立っていてほしい(※本当に僕らが想像するような三角形ができ上がるかはよく分からないが、三角形らしきものはきっとできるはずである)。さらに、$${XY^2= \| \textbf x-\textbf y\|^2}$$であることから、$${\textbf x}$$と$${\textbf y}$$のなす角を$${\theta}$$とすると

$${\| \textbf x-\textbf y\|^2=\|\textbf x\|^2+\|\textbf y \|^2-2\|\textbf x\|\|\textbf y\|\cos\theta}$$

となる。

ここで先ほど導出した

$${\| \textbf x -\textbf y\|^2=\|\textbf x \| ^2 +\| \textbf y \| ^2 -2 \langle \textbf x, \textbf y \rangle}$$

と右辺どうしを見比べてみたい。すると、

$${2\|\textbf x\|\|\textbf y\|\cos\theta=2 \langle \textbf x, \textbf y \rangle}$$

という式が得られる。すなわち、次が成り立ちそうだ;

$${\cos\theta=\displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}}$$

ただ、余弦定理がどうだとかいうのは少しばかり幾何的なイメージに頼りすぎている。僕らはn次元空間について想像がつかないのだから、数学という学問はむしろこの関係式の方をなす角$${\theta}$$の定義にしてしまおうと考える。すなわち、なす角$${\theta}$$は次のように定義される;

$${\textbf x, \textbf y \in \mathbb R^n}$$のなす角$${\theta}$$を次のように定める;
$${\theta = \arccos \displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}}$$

ただし、主値は$${0\degree \leq \theta \leq 180\degree}$$とすることが多い。



再考:arccosの定義域と相関係数の値の範囲

これでn次元空間でのなす角$${\theta}$$とその余弦も考えられるようなったから、無事一般の$${n}$$についても$${-1 \leq r_{xy} \leq 1}$$が言えた、めでたしめでたし……となるかというと、まだそんなことはない。

上記の議論はまだ詰めが甘い。ひとつ重要なことを忘れている。

それは

$${\arccos}$$は区間$${[-1,1]}$$でしか定義されない

ということだ。

つまり、$${\theta = \arccos \displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}}$$という定義で上手く運用できるためには、任意の$${\textbf x, \textbf y}$$の組について$${-1 \leq\displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}\le 1}$$が成り立っている必要がある


そこで、今度は$${-1 \leq\displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}\le 1}$$が常に成り立つことを確認しよう。



……


………


…………あれ?


これは今まさに僕らが説明したかった

$${-1 \leq r_{xy} \leq 1}$$

という不等式そのものではないだろうか?



「相関係数=コサイン」による説明は、実は説明になっていないのではないか

以上の議論から、n次元空間内のベクトルどうしのなす角$${\theta}$$を$${\theta = \arccos \displaystyle\frac{\langle \textbf x, \textbf y \rangle}{\|\textbf x \|\|\textbf y\|}}$$の形で良い感じに定義するためには「$${-1 \leq r_{xy} \leq 1}$$」という事実を確認する必要が出てくるため、少なくともこの形で$${\theta}$$を定義する限りは、「$${-1 \leq r_{xy} \leq 1}$$」という結論を出す道具として「相関係数=コサイン」という事実と「$${-1 \leq \cos\theta \leq 1}$$」という事実を使うことはできないように思える。


数Ⅰ範囲ではこのような形で角度を定義してないし、それでも問題なく運用できるから「相関係数=コサイン」による説明でも問題が生じない。

しかしそれを一般化させて「より一般の$${n}$$でも成り立つから…」と言ったとたんにこの問題が生じてしまう。


一般化させても納得感のある説明のために「相関係数=コサイン」という事実を持ち出しているのに、一般化させると議論が循環してしまうのは大問題だ。




結局数学的に誤魔化さないためには直接証明するしかないのか

ここまでの議論から、一般の$${n}$$に対して$${-1\leq r_{xy}\leq1}$$が成り立つのを示すためには、この事実を直接証明するほか内容に思えてきた。

あるいはnが2や3のときのみ説明して数学的な丁寧さを犠牲にし、誤魔化さなければならない気がしてきた。


n次元空間のベクトルのなす角を別な形で定義すれば問題は回避できるかもしれない。

たとえば弧度法では角度を弧の長さで定義したように、n次元空間の曲線の長さで角度は上手く定義できるのかもしれない。

しかし僕はその方法について知らないし、ネットや手元の書籍を漁っても、n次元空間のなす角は上述の方法でしか定義されていない。


そうなると、もし上手く循環論法を回避して定義できたとしても難しくなってしまい、結局「高校生に説明する」という目的の達成には向かないだろう。



このことが突然気になってしまい、調べても結局循環論法を回避する方法にたどり着けなかったため、打開策が出るまでは当分、僕は諦めて直接証明することにする。


いいなと思ったら応援しよう!