
変分原理
みなさんこんにちは、ずんだもん博士なのだ。みなさんは、座標変換をしたことはありますか?僕は具体的な座標変換は極座標変換と、いくつかの線形変換ぐらいしかしたことないかもしれません。問題を解くときに、カッコイイ座標変換が見つかると嬉しいもんです。
さてニュートンの運動方程式の座標変換を考えてみましょう。アレは二階微分があるせいで、大抵の座標変換はしちめんどくさいことになります。例えば以前、万有引力の運動方程式を解いたとき、極座標変換しましたが、あれも
$$
\begin{align*}
\ddot{r}\cos(\theta)-2\dot{r}\dot{\theta}\sin(\theta)+r(-\ddot{\theta}\sin(\theta)-\dot{\theta}^2\cos(\theta))=&-k\cos(\theta)/r^2\\
\ddot{r}\sin(\theta)+2\dot{r}\dot{\theta}\cos(\theta)+r(\ddot{\theta}\cos(\theta)-\dot{\theta}^2\sin(\theta))=&-k\sin(\theta)/r^2\\
\end{align*}
$$
という一見おぞましい方程式になってしまいました。これは右辺、すなわち力場$${F}$$がキレイな形してるので、うまく変形していってキレイな方程式に持っていけましたが、一般にそうとは限りません。
そもそも座標変換というのは、空間の各点を別の写像で表しているにすぎません。ところがニュートンがとった座標系$${(x,y,z)}$$というのは、人間の恣意がふんだんに盛り込まれています(この恣意をニュートンの第一法則:慣性の法則だと言う人もいた気がします)。じゃあこの人間のご都合にすぎない座標の取り方に依存しない方程式のほうが、座標変換のときに便利だろうし、物理学の本質に近づくんではないでしょうか?考察していきましょう。
フェルマーの原理をまねる
フェルマーの原理、あるいは最速降下曲線を求めたときの指導原理は以下のようなものでした:
求めたい質点の軌跡を少しだけズラすと、求めたい質点の軌跡ではなくなる。その分、求めたい質点の軌跡では、何かの値が極小値になっている。
極小値になる「何かの値」というのは、フェルマーの原理でも最速降下曲線でも「2点間を移動するのにかかる時間」でした。
さて、ニュートンの運動方程式を満たす質点の軌跡も「2点間を移動するのにかかる時間」を極小にするでしょうか?これは明らかに違います。といいますのも、極端な例ですが、二次元平面に一様な重力場$${F=(0,-mg)}$$がかかっているとしましょう。このとき、下図のような二点A,Bを結ぶ軌跡自体があり得ません:

最速降下曲線のときは、「重力のみによって一番早く移動できる『レール』を敷け」と言っていたのでこれが可能でしたが、ニュートンの運動方程式にはレールなんてないです。どうしたもんでしょうかね。
問題設定を見直す
どうやら質点の移動先も変数として認めねばならないでしょう。それでも求めたい経路を微小変形して、何かを極小値にしたいとなったとき、問題設定を見直す必要が出てきましょう。言い方を少し変えてやればいいです:
質点には$${F(r(t))}$$の力がかかっていて、質点はニュートンの運動方程式に従って運動するとする。また、質点は時刻$${t=t_A}$$で点$${r(t_A)=A}$$にあり、そのときの速度は$${v_A}$$であるとする。このとき、時刻$${t=t_B(>t_A)}$$における質点の位置$${B}$$と、$${t_A\sim t_B}$$に至る質点の軌跡を求めよ。
この問題設定では、時刻$${t_A,t_B}$$と、時刻$${t_A}$$における位置$${r(t_A)=A}$$だけが固定されており、位置$${r(t_B)=B}$$がどこに行くのかは、求めるべき点であるとしています。以下、すごく数学屋っぽい議論をします。
力$${F}$$はいわゆるベクトル場とみた力場と考えていて、数学的には可微分写像
$$
\begin{align*}
F:\mathbb{R}^3\rightarrow\mathbb{R}^3
\end{align*}
$$
に過ぎないです。もしかしたら万有引力やクーロンの法則のように$${\mathbb{R}^3-\{0\}}$$などの開集合上のベクトル場かもしれないですが、物理の一般論的に本質的な問題ではないので、いったん$${\mathbb{R}^3}$$上のベクトル場で許してください…。大事なのは、$${\mathbb{R}^3}$$の座標の取り方をまだ指定していない(利根川)ということです。数学屋に向けて言えば、ただの可微分多様体上のベクトル場です。
そうすると質点の軌跡というのは、閉区間$${I=[t_A,t_B]\subset \mathbb{R}}$$から$${\mathbb{R}^3}$$への可微分写像
$$
\begin{align*}
r:I\rightarrow\mathbb{R}^3
\end{align*}
$$
に過ぎないです。これまた、$${\mathbb{R}^3}$$の座標の取り方をまだ指定していない(利根川)です。
質点がニュートンの運動方程式を満たすというのは、言ってしまえば
$$
\begin{align*}
F\circ r=m\ddot{r}
\end{align*}
$$
という方程式を、質点の軌跡$${r}$$が満たしますよ、と言ってるに過ぎないですな。$${\ddot{r}}$$も可微分写像$${\ddot{r}:I\rightarrow\mathbb{R}^3}$$なのでmake senseです(ルー大柴)。
ただこの微分方程式に対して、$${r\rightarrow r+\delta r}$$という変分を考えるのは微妙かもしれません。あ、そういえば、軌跡のわずかな変形$${r+\delta r}$$を取ることは、軌道$${r}$$の変分を取る、といって、$${\delta r}$$をその変分といいます。
いや、これの変分取るのが筋悪いっていうのは、そもそも目標がこのニュートンの運動方程式だからなんですよね。つまり、何か別の関数が、軌跡$${r}$$の変分をとった結果、極値を取ってますーって論法から、ニュートンの運動方程式を導きたいんです!
ポテンシャルから考える
そこでポテンシャルから考えましょう。ポテンシャルというのは
$$
\begin{align*}
\nabla U=-F
\end{align*}
$$
を満たす$${\mathbb{R}^3}$$上の可微分関数なのでした。ここで$${\nabla}$$ (今更ですがナブラと呼びます)は
$$
\begin{align*}
\nabla=\left(\frac{\partial}{\partial x},\frac{\partial}{\partial y},\frac{\partial}{\partial z}\right)
\end{align*}
$$
という微分作用素でできたベクトルっぽいもので、$${\nabla U}$$というのは
$$
\begin{align*}
\nabla U=\left(\frac{\partial U}{\partial x},\frac{\partial U}{\partial y},\frac{\partial U}{\partial z}\right)
\end{align*}
$$
というまごうことなきベクトル場を表しています。
ここで$${\nabla}$$を定義するために直行座標を取ってしまいました!これでは「座標変換で不変な運動方程式を作りたい」という当初の目的からズレそうです。でも安心してください。座標変換で$${\nabla}$$も一緒に変化するもんなんだと、そう考えてください…!
ちなみに人生で一回やれば十分な計算の一つに、三次元の極座標変換に対する$${\nabla}$$ (およびラプラシアン$${\nabla^2}$$)の変形があります。$${\nabla}$$は大したことないですが、ラプラシアンはだいぶしんどいのでもう二度とやりたくないです(;^ω^)。
もとい。ポテンシャルが存在するための力場の条件もいくつかありましたが、いったん有るとしましょう。また今回は面倒くさいのでいったんポテンシャルは時間に依存しないとしましょう。
なんでこれで都合がいいかというと、運動方程式にまず代入してみますね:
$$
\begin{align*}
-(\nabla U)\circ r=m\ddot{r}
\end{align*}
$$
例によって(?)両辺に$${\dot{r}}$$を内積してみます:
$$
\begin{align*}
-\{(\nabla U)\circ r\}\cdot \dot{r}&=m\ddot{r}\cdot\dot{r}=\frac12m\frac{d\dot{r}^2}{dt}
\end{align*}
$$
ところでいったん直交座標をとり、$${r(t)=(x(t),y(t),z(t))}$$というふうにおくことによって、合成関数の微分法則によって
$$
\begin{align*}
\frac{d U(r(t))}{dt}&=\frac{\partial U(r(t))}{\partial x}\dot{x}(t)+\frac{\partial U(r(t))}{\partial y}\dot{y}(t)+\frac{\partial U(r(t))}{\partial z}\dot{z}(t)\\
&=((\nabla U)\circ r)(t)\cdot\dot{r}(t)
\end{align*}
$$
となっておりまして、てかこれが目的でして、運動方程式に代入すると
$$
\begin{align*}
&-\frac{d (U\circ r)}{dt}=\frac12m\frac{d\dot{r}^2}{dt}\\
&\frac{d}{dt}\left(U\circ r+\frac12m\dot{r}^2\right)=0
\end{align*}
$$
となり…おっとこれは…単なるエネルギー保存則ですな。もう知ってるのでうれしくないです…いや!エネルギーが軌道の変分で動いちゃうかも!?じゃあ、求める軌道はエネルギーを極小にしているのかもしれない!
エネルギー保存則から攻める
$$
\begin{align*}
E(r,\dot{r}):=U\circ r+\frac12m\dot{r}^2
\end{align*}
$$
とおきましょう。そして、前のように$${r\rightarrow r+\delta r}$$の変分を取って、
$$
\begin{align*}
E(r+\delta r,\dot{r}+\delta\dot{r})-E(r,\dot{r})=0
\end{align*}
$$
になるんだと信じてみましょう。それでは結局失敗する計算をしましょう:
$$
\begin{align*}
0=&E(r+\delta r,\dot{r}+\delta\dot{r})-E(r,\dot{r})\\
=&U\circ (r+\delta r)+\frac12m(\dot{r}+\delta\dot{r})^2-U\circ r-\frac12m\dot{r}^2\\
=&\frac{\partial (U\circ r)}{\partial x}\delta x+\frac{\partial (U\circ r)}{\partial r}\delta r+\frac{\partial (U\circ r)}{\partial z}\delta z+m\dot{r}\cdot\delta\dot{r}\\
=&((\nabla U)\circ r)\cdot \delta r+m\dot{r}\cdot\delta\dot{r}\\
=&-(F\circ r)\cdot \delta r+m\dot{r}\cdot\delta\dot{r}
\end{align*}
$$
ここでは$${(\delta\dot{r})^2}$$なんてほぼ0でしょ、というおおらかな気持ちと、$${U}$$がポテンシャルだったことを使っています。
さて最速降下曲線のときは、ここから先も部分積分で計算を進めることができましたが、今回は積分はないです。なので単にそれだけの理由で$${t}$$で積分しましょうか。理由なんて後からこじつけるのだ!以下では前回同様、$${\delta r(t_A)=\delta r(t_B)=0}$$を使っていきます。
$$
\begin{align*}
0=&\int_{t_A}^{t_B}\{-(F\circ r)\cdot \delta r+m\dot{r}\cdot\delta\dot{r}\}dt\\
=&-\int_{t_A}^{t_B}(F\circ r)\cdot \delta rdt+m\int_{t_A}^{t_B}\dot{r}\cdot\delta\dot{r}dt\\
=&-\int_{t_A}^{t_B}(F\circ r)\cdot \delta rdt+m\int_{t_A}^{t_B}\dot{r}\cdot\delta\dot{r}dt\\
=&-\int_{t_A}^{t_B}(F\circ r)\cdot \delta rdt+m\left[\dot{r}\cdot\delta r\right]_{t=t_A}^{t=t_B}-m\int_{t_A}^{t_B}\ddot{r}\cdot\delta rdt\\
=&-\int_{t_A}^{t_B}(F\circ r+m\ddot{r})\cdot \delta rdt
\end{align*}
$$
$${\delta r}$$は任意の動き方をするので、
$$
\begin{align*}
F\circ r+m\ddot{r}=0
\end{align*}
$$
でないといけない…惜しい!!!符号が…符号がひっくり返っておる!
こじつけて正解していく
なぜこうなったんでしょう…というか、ここまでの計算を真面目に追ってくれてた人には一瞬でわかりますね。例えばこうすりゃいいです:
$$
\begin{align*}
L(r,\dot{r}):=-U\circ r+\frac12m\dot{r}^2
\end{align*}
$$
とおくとき、
$$
\begin{align*}
S(r):=\int_{t_A}^{t_B}L(r,\dot{r})dt
\end{align*}
$$
これが極小になるとき、ニュートンの運動方程式が出てくるはずです。一応検算してみますか。
…もっと都合よく考えましょう。もともと僕たちは座標変換で見た目が変わらない運動方程式を求めていたのでした。なので$${r(t)\in\mathbb{R}^3}$$というのは「一般的な座標系を用いてますよー」と強調するぐらいの意味で、
$$
\begin{align*}
r(t)=(q_1(t),q_2(t),q_3(t))
\end{align*}
$$
とおきましょう。$${(q_1,q_2,q_3)}$$は極座標$${(r,\theta,\varphi)}$$かもしれないですし、他の意味不明な座標系かもしれません。とにかく3つの独立した関数
$$
\begin{align*}
q_1,q_2,q_3:\mathbb{R}^3\rightarrow\mathbb{R}
\end{align*}
$$
によって1点が定まると考えるのです。
すると、ポテンシャル$${U}$$も$${q_1,q_2,q_3}$$という$${\mathbb{R}^3}$$の一般的な座標による関数と思って差し支えないし、運動エネルギーの項も$${\dot{q_1},\dot{q_2},\dot{q_3}}$$の関数です。
セットアップはこれくらいにして、$${\delta S=S(r+\delta r)-S(r)}$$を計算してゆきましょう:
$$
\begin{align*}
0&=S(r+\delta r)-S(r)\\
&=\int_{t_A}^{t_B}\{L(r+\delta r,\dot{r}+\delta\dot{r})-L(r,\dot{r})\}dt\\
&=\int_{t_A}^{t_B}\left(\sum_{i=1}^3\frac{\partial L}{\partial q_i}\delta q_i+\sum_{i=1}^3\frac{\partial L}{\partial \dot{q_i}}\delta \dot{q_i}\right)dt\\
&=\int_{t_A}^{t_B}\left\{\sum_{i=1}^3\frac{\partial L}{\partial q_i}\delta q_i-\sum_{i=1}^3\frac{d}{dt}\left(\frac{\partial L}{\partial \dot{q_i}}\right)\delta q_i\right\}dt+\left[\sum_{i=1}^3\frac{\partial L}{\partial \dot{q_i}}\delta q_i\right]_{t=t_A}^{t=t_B}\\
&=\sum_{i=1}^3\int_{t_A}^{t_B}\left\{\frac{\partial L}{\partial q_i}-\frac{d}{dt}\left(\frac{\partial L}{\partial \dot{q_i}}\right)\right\}\delta q_idt\\
\end{align*}
$$
まあもう皆さん慣れたもんでしょうから、この式変形の解説はナシです。ここから先も同じです。例えば$${\delta q_2=\delta q_3=0}$$のまま$${\delta q_1}$$をめちゃくちゃに動かしてやっても0になるというのだから$${i=1}$$の項の積分の中身も0になってないとだめです。$${i=2,3}$$も同じですから
$$
\begin{align*}
\frac{\partial L}{\partial q_i}-\frac{d}{dt}\left(\frac{\partial L}{\partial \dot{q_i}}\right)=0\;\;\;(i=1,2,3)
\end{align*}
$$
が成立するはずです。$${q_i}$$は一般的な座標系だったので、例えば直交座標
$$
\begin{align*}
\left\{\begin{array}{l} q_1=x\\ q_2=y\\ q_3=z \end{array}\right.
\end{align*}
$$
を代入すれば、きっとニュートンの運動方程式が導かれるはずです。やってみましょう!例えば$${q_1=x}$$に対して
$$
\begin{align*}
&\frac{\partial L}{\partial x}=-\frac{\partial (U\circ r)}{\partial x}\\
&\frac{\partial L}{\partial \dot{x}}=m\dot{x}\\
\therefore\;&\frac{\partial L}{\partial x}-\frac{d}{dt}\frac{\partial L}{\partial \dot{x}}=-\frac{\partial (U\circ r)}{\partial x}-m\ddot{x}
\end{align*}
$$
以下同様に
$$
\begin{align*}
\frac{\partial L}{\partial y}-\frac{d}{dt}\frac{\partial L}{\partial \dot{y}}&=-\frac{\partial (U\circ r)}{\partial y}-m\ddot{y}\\
\frac{\partial L}{\partial z}-\frac{d}{dt}\frac{\partial L}{\partial \dot{z}}&=-\frac{\partial (U\circ r)}{\partial z}-m\ddot{z}
\end{align*}
$$
ですので、ベクトルの形にまとめ上げれば、$${\nabla U=-F}$$を思い出してあげて
$$
\begin{align*}
&F\circ r-m\ddot{r}=0\\
\iff& F\circ r=m\ddot{r}
\end{align*}
$$
やりました!ニュートンの運動方程式になりました!!!
変分原理
で、Lって何?Sって何?
経路$${q:I=[t_A,t_B]\rightarrow\mathbb{R}^3}$$を引数にとって、区間$${I}$$上の関数を返す…写像?
$$
\begin{align*}
L=L(q,\dot{q},t)
\end{align*}
$$
にはラグランジアンという名前が付いています。さっきのラグランジアンは時間に依存しませんでしたが、別に時間に依存しても良いです。して、その時間積分
$$
\begin{align*}
S(r)=\int_{t_A}^{t_B}L(r,\dot{r})dt
\end{align*}
$$
は作用とか作用積分と呼びます。
質点の軌跡は、作用が極値を取る経路をとるべきだという要請を「変分原理」と呼ばれています。「最小作用の原理」とも呼ばれますが、極値を取るべきなんだから「極小作用の原理」じゃね?とか思ったので、変分原理でいきます。
ほんで、変分原理から出てきた方程式たち
$$
\frac{\partial L}{\partial q_i}-\frac{d}{dt}\left(\frac{\partial L}{\partial \dot{q_i}}\right)=0\;\;\;(i=1,2,3)
$$
はオイラー・ラグランジュ方程式と呼ばれています。ちなみに座標の取り方も最初から一般的にとっていたので、座標変換でこの形が変わろうはずもありません!
物理学は変分原理のたまもの
ここまでは名前を付けただけです。実は変分原理は物理学すべての根底といってもいいぐらいの原理なのです。物理学では、基本的には質点に与えられた状況(系)で考えて、実験結果に基づいて未来を予想する学問です。
ラグランジアンには、「経路を引数にとる謎の関数」ぐらいの意味しかありません。逆に言えばそのことが、物理の根幹たらしめる要因の一つだと思います。実験結果をよく表すなら、好きにラグランジアンを決めちゃっていい(んだと思います…)。例えば今回はたまたま
$$
\begin{align*}
L=-U\circ r+\frac12m\dot{r}^2
\end{align*}
$$
というふうに設定すれば、変分原理によってニュートン力学と等価な物理理論が現れました。
またラグランジアン「密度」なるものを考えれば、変分原理によって電磁気学が出てきます。超有名数学者ヒルベルトは、一般相対性理論が出てくるラグランジアン密度を発見しています。クライン・ゴルドン方程式や、ディラック方程式を導くラグランジアンもあります。つまり、現代の場の量子論の初手は、基本、ラグランジアン密度から始まります。
世の中には基本的な4つの力があると言われています。すんごい雑なこと言うと、この4つの力とそれらの相互作用を表す一本の巨大なラグランジアンを作って、変分原理だけでそれらを統一しようとしていたことがあるようです。その先まで行くと、門外漢の僕は適当な理解しかしてないので怒られそうなので…やめときます。
ネーターの定理
ラグランジアンを使うメリットはまだまだあります。代表的なのはネーターの定理でしょう。可換環論界隈の人なら耳にタコができるほど聞いたであろうあのネーターは、物理学にも多大な貢献をしています。
さてその内容なんですが、ザックリ言うと、ある連続的な座標変換によって作用積分が不変な場合、その変換に対応する不変量が作れる、ということを言っています。
例えば…適当に$${a\in\mathbb{R}}$$をパラメータとする時間の連続変換
$$
\begin{align*}
t=t'+a
\end{align*}
$$
によって作用が不変、つまり
$$
\begin{align*}
S(r)=\int_{t_A}^{t_B}L(q,\dot{q},t)dt=\int_{t_A-a}^{t_B-a}L(q,\dot{q},t'+a)dt'
\end{align*}
$$
が成り立つなら、ここからエネルギーという不変量を作り出すことができます。強い。
また空間並進対称性から運動量保存則が、空間がある軸を中心に回転対称なら角運動量保存則が、といった具合に。これについては僕もまた勉強しなおして記事にしたいと思いますー(;^ω^)
まとめ
今回はこれくらいで。まとめると、物理法則を統一していきたいなら、なにかラグランジアンを作って、変分原理からオイラー・ラグランジュ方程式に持ち込んで、それが実験事実に合っていれば大体いいんじゃない?っていうお話でした。
作用積分にも、ネーターの定理絡みで重要そうなものでした。あ、あとゲージ変換っていうのがあって…もう疲れた!!!
みんなもいっぱいラグランジアン、作ってみてね・・・!