クロスエントロピー
はじめに
機械学習では損失関数にしばしば「交差エントロピー誤差」が用いられます。自身の研究で用いるモデルの損失関数にもこれを用いており、今回はその基本概念であるクロスエントロピーの意味について「しくみがわかる深層学習(2018, 朝倉書店)」を参考に調べました。
情報量
ある出来事の起こりにくさを情報量といいます。出来事$${x}$$の情報量を測る関数$${L}$$が存在するとき、$${x}$$が発生する確率を$${p(x)}$$とすると、$${L(p(x))}$$となります。詳細は参考書に譲るとして、$${L}$$を自然対数とすると、情報量は$${L(p(x))=-\log p(x)}$$で表されます。マイナスを掛けて出来事が起こりにくいほど値が大きくなるようにします。
エントロピー
分布$${p}$$による情報量の期待値のことをエントロピーといい、$${H(p)}$$で表します。
$$
H(p)=E_{p(x)}[-\log p(x)]=- \int p(x) \log p(x) dx
$$
クロスエントロピー
最後にクロスエントロピーについての説明です。実際には分布$${q(x)}$$で出来事が発生しているのに、分布$${p(x)}$$でエントロピーを計算したときの値$${H(q,p)}$$は、
$$
H(q, p) = E_{q(x)}[-\log p(x)]=-\int q(x) \log p(x) dx
$$
で表され、これをクロスエントロピーといいます。二つのエントロピーをクロスさせていることが名前の由来です。
おわりに
クロスエントロピーの概念は機械学習を扱う人にとって理解しておくべき内容であり、非常に勉強になりました。機械学習をツールとして使うだけでなく、結果を解釈できるように理論も固めていきたいです。
参考文献
しくみがわかる深層学習(2018, 朝倉書店)