「大規模言語モデルは新たな知能か」の前に,LLMの凄さの秘密を問いたい
ChatGPTが世界を変えた,そして変え続けているのは確かだろう.あの流暢な文章生成能力,間違えながらも何にでも回答する能力,他のサービスと連携することで際限なく拡張できる能力など,とんでもなく凄まじい.
昨日(2023/7/21),私が企画担当の1人であった某研究会で,国立情報研究所所長(京都大学教授)の黒橋先生に大規模言語モデルの現状,仕組み,将来について講演していただいた.講演後の質疑応答とその後の討論会では,黒橋先生が質問攻めにあわれていた.皆,とても強い興味を持っていることがわかる.しかし,まるで理解できていないという人も多いだろう.研究者や技術者ではなく,数学を避けてきたような人達にとっては尚更だろう.
本書「大規模言語モデルは新たな知能か」は,著者が書いている通り,一般向けであり,数式は一切出てこないので,とにかくイメージだけでいいから掴んでおきたいという人にはうってつけのテキストだろう.
私自身は,大規模言語モデルがこれほど凄まじい能力を獲得したのは何故なのかがわからないでいる.Attentionの効果などは表面的に理解できても,単語列に続く単語を予測するという問題をひたすら学習するだけで,なぜこれほどの芸当をやってのけられるのかがピンとこない.本書でもいくつかの仮説が示されているが,まだ研究が進んでいる段階とのことで,今のところ明確な回答はないようだ.
べき乗則が働く大規模言語モデル(LLM)は,1)モデルの学習に使う訓練データの量,2)モデルのパラメータの数,3)学習に投入する計算の量,が増えれば増えるほど性能が向上することが知られている.これを言語モデルの「べき乗則」という.2)の性質は従来の機械学習モデルとはまるで異なり,闇雲に言語モデルを大きくすれば,過学習することなく,汎化性能が向上するということを言っている.信じがたいが,そうなのだ.
このため,まだまだ性能を向上させる余地があるということになる.問題は,超高性能な計算機を動かせるだけの資源が地球にあるのかということになるだろうか.
もちろん,大規模言語モデルが使われることについては様々なリスクがある.既に顕在化しているリスクもあれば,まだ人類が気付いていないリスクもあるだろう.それらへの対応は不可欠であるが,我々はこの新しい技術を使いこなしていく必要がある.そのためにも,正しい知識を得る努力は怠れない.
© 2023 Manabu KANO.