ChatGPTと「要約力」

2023年6月29日 23:40

　「日本人の五割くらいは五行以上の長文を読んで意味が取れない」「若者は本を読まなくなった」と揶揄されるように、近年「活字離れ」が叫ばれて久しい。もちろんその真偽のほどは定かではないにしても、たしかに昔に比べると本を読む人は減っている気がするし、かく言う私もその一人であろう。ネットに跋扈する「読書家」によると、どうやら最近の若者は、「本も読まず」「映画も早送りで見る」ようになり、「知的能力が低下している」らしいし、それはそれで的を射ている気もする。ならば具体的にどんな「知的能力」が低下しているのだろうか。こう問うた際に必ずと言っていいほど言及されるのが、「要約力・読解力の低下」という問題である。確かにネット上では「ビジネス書要約」や「ファスト映画」のyoutube動画が人気であるようだし、最近ではChatGPTなるものも登場して、もはやAIが要約されたネット記事をさらに要約してくれるという徹底ぶりであるから、昔にくらべて「読解・要約する」機会は減っているのかもしれない。が、本当にそうであろうか。「読解・要約力が低下」したのは本当にここ数年の話なのだろうか。いや、そもそも「読解・要約力」は本当に低下しているのだろうか。ここで結論から言ってしまえば、そもそも「読解・要約力」の前に「翻訳力」が欠如したのが根源的な問題ではないかということである。以下、順を追って説明しよう。まずそもそも、読書して文意をとるという作業は、それに慣れていない人からすれば大変な苦痛を伴うものである。一定時間同じ姿勢を保ち、目の前のテキストに集中し続けなければならないし、ただ眼を右から左へと流せばよいというわけではなく、文脈に応じて多義語の意味を確定したり、論理構造を把握しなければならない。その間にいろいろな内部の誘惑が立ち上がるし（お腹がすいて何か食べたい、眠い、お手洗いに行きたい、etc...）、外部からのノイズも入ってくる（騒音がうるさい、虫が飛んできて視界に入るし羽音が気になる、小さい弟が足を引っ張る、etc...）。さらに「文章読んでいる自分」をメタ認知しすぎてはだめで、一定以上は文章に「没入」して、「無私・無我」の状態にならねばならない。こう書いていくと、これは大変な作業であるような気がしてくる。これができているなんて人間はなんて高度な生き物なんだろう。人間を礼賛したくなってきたぞ...だが待てよ、「要約」に関していえば先ほど述べたChatGPTもできるというではないか。どうやらこれは人間だけの特権ではなくなってきているらしい。とはいえ、ChatGPTは「無私・無我」になる必要はない。というのも彼（ChatGPT）にたとえ自我があっても、彼は純粋にデータとして情報を処理しているのであるから、そこには先ほど述べた「外部からのノイズ」は入る余地がないからである。また、もし自我がないなら、「内部からの誘惑」もないのである。いや、もしかすると「外部からのノイズ」が「内部からの欲望」としての自我を生み出しているのかもしれないが、いずれにせよ、要約する作業においては人間よりも彼のほうが幾分か「まし」で「楽」なようである。となると、まずはChatGPTの要約行為がどのようなプログラムで行われているのかを見ることで、翻って人間の「要約力の低下」問題の核心が見えてくるかもしれない。

　というわけでChatGPTの内部構造の話に入っていこう。とはいってもこの文章を読まれる方の中にはプログラミングに親しみを持てていない方もいるであろうから、あくまでも要点だけ、できる限り専門用語を用いずに話していこうと思う。もちろん専門的な話を知りたいという意欲旺盛な方は、ぜひ以下に紹介する論文を実際に原文で読んでいただきたい。また一応専門の方のために断っておくと、今回私が問題にしているのはGPT4以前のモデルについてであるので、今のところ最新とはいえ、今後変わっていく可能性は十分にある。また、GPT-4 Technical Reportによると、Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.ということだそうなので、そのプログラムの詳細については不明で、GPT4は一種のプロプライエタリソフトウェアとして機能しているということを事前に明記しておきたい。つまり、以下の考察は2023/6/29時点の、あくまでも公式でない私の予測に基づくものであるということを断っておきたい。なぜGPTだけ取り上げるのかという批判もあるかと思うが、（googleのbardなどはどうして取り上げないのか等々）それは第一に、ChatGPTの月間アクティブユーザー数は2ケ月で1億人に到達し、これはInstagramがその達成まで2年半かかったことからもわかるように、ChatGPTが驚異的な注目を集めていることを意味するので、その注目度という観点から選んだためである。第二に、後述するように、そこで用いられていると予測されるプログラムが非常に普遍的かつ様々なモデルで利用されているものだからである。

　さて、そもそもGPTとはなんの略であるか、という基本的なところから始めたい。それはGenerative（生成）Pretrained（事前学習）Transformer（後述する）の略である。つまり、「Transformerをもちいて大量のテキストデータを事前に学習させ、文章を生成するAI」という含意がそこにあるのだ。では、Transformerとは何か。単純に訳せば「変形するもの」といったところだが、実はここでは違う意味で使われている。それは、「Transformerモデル」という意味である。これは深層ニューラルネットワークモデル（DNN）の一つとして、2017年にgoogleの社の論文「Attention Is All You Need」で提案されたものである。その詳細は各種解説、そして何より上記論文で参照してほしいが、このモデルは PaLM, LLaMA, OPT, BLOOMをはじめ、ChatGPT以外にも主要な言語モデルのほぼ全てで採用されている。つまり、Transformerモデルとはニューラルネットワークを用いたAI技術において最重要技術といっても過言ではないものなのである。そして、何を隠そう、このTransformerという技術は元々、主に機械「翻訳」のために提案・開発されたモデルなのだ。

　Transformerモデルの詳細な解説はしないといったものの、何も語らないようではこのモデルと「翻訳」の関係性を十分に示せたとは言えないと思うので、まずは「言語モデル」とは何かという話をし、次に「（多層）ニューラル言語モデル」は何かという話をして、最後に「Transformerモデルの概略」へとつなげ、「翻訳」と「要約」の関係性にプログラムという観点から迫っていこうと思う。まず、「言語モデル」とは、大量の文章データを解析して作られた確率モデルのことで、与えられた文脈に対して次の単語が何になるかの予測確率をモデル化したものである。例えば、「私はA大学の…」という文の次に来る単語は、「学生」が90％、「教師」が10％、といったような感じで、言語モデルとはこれをとてつもなく大量に学習して確率をモデル化したものなのである。が、もうお気づきかもしれないが、これだけでは難点がある。つまり、このモデルだと一単語ずつ前から順に生成していくことしかできないのである。ここで登場するのが「（多層）ニューラル言語モデル」で、これは一単語ずつ積み重ねていく「言語モデル」とは違って、文章中の全単語を対象として学習させる仕組みを取り入れている。（ものすごく簡単に言っています）それゆえ、非常に抽象的に言えばそれまでの全単語の関係性（「文脈」のようなもの）から次の語を予測し、その予測確率をモデル化したものなのである。しかしこれでもまだ問題があった。つまり文章を右から左へ生成するという点ではただの「言語モデル」と同じで、効率が悪かったのだ。（パソコンに使われているGPUという部品の並列処理を十分に生かし切れていないという問題があった）そこで現れたのが、（Self）Attention mechanism（注意機構）という文中のどこに注目するかを学ぶ仕組みを最大限活用した「Transformerモデル」だったのだ。（ちなみに、この理由から先ほど述べたgoogleの論文のタイトルはAttention Is All You Needなのである）これによって全単語同時並行処理ができるようになり、劇的に生成速度が向上し、また生成した文が、右から左へと論点がずれることなく、全体としてまとまりあるものになったのだ。さて、生成という観点で今のところ語ってしまっているので、これらのモデルはもとより文章生成のために作られたと勘違いされてしまうかもしれない。が、先ほども述べた通り、もともとは翻訳のためにこのモデルは作られたのである。これを技術的な用語なく説明するのは難しいが、例えば文中で「it」という単語が出てきた際に、単純にそれを「それ」と辞書的に訳してよいとは限らない。この時にAttention mechanismを使っていると、itという一語にかかわりが深いと思われる語や、このitの主述関係などがモデル化されており、（このように複数の層に分けてAttentionを適用することをMulti-Head Attentiionという）これによってより正確に訳語が決められるのである。つまり結論から言ってみれば、このような「翻訳」で使っている「文脈」を読み、全体を踏まえて多義語の意味を確定させていく技術が「要約」や「文章生成」にも応用できるということなのだ。（実際にChatGPTの流暢さがそれを物語っている）そしてこれは、そっくりそのままとまではいかなくとも、人間にも当てはめて考えることができる。私たちが文章を「要約」したり「生成」する行為の前に、「翻訳」があるのではないか。

　福沢諭吉は海外の言葉を訳すとき、「経済」や「自由」という新しい言葉を作り出したという功績で名高い。が、考えてみれば「自由」という言葉の制作を福沢がしなければならなかったのは、まさしく旧来の日本語で語っていくと膨大になってしまう「自由」という概念を、「自由」という一語に「要約」した、とも言い換えられるのではないか。つまり「翻訳」から「要約」の必要性に迫られた、といえるのではないか。翻訳という作業は、今眼前にあるものを見た際に、各々の個人が思い浮かべる概念をすり合わせる作業である。走り回っている動物を見たときに、日本人と違って外国人は「自由（freedom）」という単語を思い浮かべたのかも知れない。そしてそうした外国人の言葉を訳すとき、日本人は初めてその現象に「自由」という概念を見出すのだ。「要約」が事物を深く知った上に成り立つものならば、まさしく「翻訳」はそうして事物を深く知っていく作業の一つなのではないか。外国人という「他者」の目を通して、「物自体」を見つめること、その行為こそ「翻訳」という行為の根本にあるものではないか。ドゥルーズの「devenir」を「生成変化」と「翻訳」するとき、そこにまさしく概念がうまれるのだ。そしてまさしくドゥルーズが言うように「哲学」が概念を生み出す営為ならば、「翻訳」もまた「哲学」と比肩するほどの重大な作業なのであって、「要約」のまえに先立って「翻訳」があり、「哲学」があるのではないか。

　「要約力」の低下が叫ばれて久しい現代にあって、途端にあわてて「要約」練習をさせたって容易にその力は回復しないだろう。そもそもわれわれは「要約」以前に、明治維新の時代なら多くの国民が（たとえそれが見栄であれ）行っていた「翻訳」という行為をとうの昔に忘れてしまっているのではないか。その力を回復しない限り、きっと「要約力」は失われたままであるし、「哲学」もその地位を回復しないであろう。これは単に二種の言語間に限った話ではない。後述する本の中で、ドイツ文学者で作家の古井由吉は「かな」と「漢字」の「翻訳・変換」という話をしているが、思えば「かな」から「漢字」へ、あるいは「漢字」から「かな」へのやり取りもまた広義の「翻訳」かもしれず、それを考えたとき、ChatGPTなどなくとも現代はまさに「自動変換」で「漢字忘れ」の時代であることが思い起こされるのである。なお、漢字は表意文字であり、ひらがなは表音文字であるから、ひらがなでの入力に慣れることは表音文字中心の生活になることでもある。表音文字たるアルファベットにデリダが慎重であった(『グラマトロジーについて』参照)ことは、重要な示唆として現代においてこそ捉え返すべきかもしれない。

　と、また長々と書いてしまったが、この話をとある方にさせていただいたとき、咄嗟にその方が「古井由吉の文章というのも彼のドイツ語翻訳の影響があるかもしれない」という応答をしてくださった。実はその時私の脳内では、次は古井由吉の話をしようと思っていたところであり、実際にがその方が話された内容もその話に非常に近かったので、その偶然の一致に驚いて「古井由吉！」と叫んでしまったのだが、では私は何を思い浮かべていたのかというと、数年前に読んだ彼の集成『書く、読む、生きる』所収の「言葉について」で述べられ、同書の帯にも刻まれている、「言葉っていうのは、自分一人だけのものではないんです。今の時代だけのものでもない。大勢の他人の、これまでになくなった人も含めた長い長い歴史からできあがったもので、自分の勝手にならない代わりに、自分が追い詰められたときに支えになってくれる。」という彼の言葉だったのである。言葉というのは自分を超えて、脈々と受け継がれてきたものであるし、自分の言語の使い方というのは母や父、そして今まで自分が読んできた文章に大きく影響されているものであって、「自分の勝手にならない」ものなのだ。だが、だからといってその言葉の大きな流れに身を任せて、他人の言葉、他人の「要約」、他人の「翻訳」で満足してしまっていいのだろうか。まさしく古井由吉のように、「自分が追い詰められる」ほどに自分の言葉を探求したうえで、初めて他者の言葉に開かれるべきではないのか。いや、別にそれらを並行したってかまわないだろう。けれど、「自分を追い詰める」行為なしに他者の言葉を丸のみにしてよいのか。博物学者であるビュフォンは言っている「文体は人そのもの（文は人なり）」。ChatGPTに唯一欠けているものがあるとすれば、それは彼独自の「文体」であり、「母国語」である。やくざ言葉で話してくれ、英語で話してくれと言ったらとっさに対応してくれる彼は確かに素晴らしいツールではあるかもしれないが、そこにはどこか空虚さが残る。今や文の内容はすでに語られ、どんな知識人もChatGPTの知識量を超え得ない。私たちに残されたのはただ文体の創造だけである。小林敏明は言う、「独創性にあふれた書き手というのはその独創性に見合った固有の文体をもっているものである。それをもっとも先鋭な形で示しているのが詩人である。…それは彼らのすべてが託された、いわば結晶体のようなものである。…あるいはそこではシニフィエとシニフィアンの結合が恣意から必然へ転じるといってもよいかもしれない。…小説家もまた同じで、…まったく同様のことが哲学者にも当てはまる」と。歴史に名を遺すような偉大な言葉の先達たちは、それぞれ自分の母国語と文体をもって思想を語り、それが「翻訳」されて受け継がれてきた歴史がある。今、未曽有の「翻訳力」の危機の時代にあって、その歴史を安易に手放してよいとは、私には到底思えない。

ChatGPTと「要約力」

いいなと思ったら応援しよう！