ChatGPTに言語「学」が分かるのか
この記事は「生成AI Advent Calendar 2023」の20日目の記事です。
ChatGPTは大規模「言語」モデルを利用しています。私の専門は言語学・音声学ですが,ChatGPTの登場で生成文法はもう終わりだぐらいに言われたりもしますが,それはまた別のトピックなので今は置いときましょう。
ChatGPTは言語に関わる様々な処理がかなり得意で,そこには当然言語学で使う処理も入っています。例えば用例に単語(非専門家向けにこう書きます)単位で意味を分かち書きするグロスというのを振るのもかなり自動的にやってくれます。
それではもっと言語学的な分析をすることはできるでしょうか。言語学の大学院入試を受けると,専門の問題に形態音韻論の問題が出ることがあります。これは言語データから一般化し,それを規則などの形で述べるというもので,言語学的な一般化の能力を見ます。最近だと「言語学オリンピック」が有名になっていますが,あそこにもよく出されています。
例題の解説
今回,お試しと思い次のような架空の言語データを用意しました(スペース節約のために横に並べます)。
これはかなり言語学の問題としては簡単な部類です。最初の3つ(frog, monkey, lion)を見ると複数は名詞に-imを加えることでできています。しかし,rat, cat, pigを見ると名詞が母音で終わっているものは複数では末尾の母音がなくなっていることが分かります。つまり母音削除規則があります。
さらに,bird,horse,dogを見ると,単数では無声音で終わっているものには複数で有声音になっているものがあります。
これだけだと無声音が有声音になったと思うかもしれません。しかし,rabbitとbearを見ると,複数形でも名詞の語末部分が無声音です。
ということはこれはロシア語などに見られる「末尾の有声阻害音は無声音になる」という無声化が起こったものだと解釈されます。
ChatGPT 3.5の回答
どの作業でもChatGPTではプロンプトをどう書くかが重要です。いきなり「分析してください」だけでは何も見えないので,ここではステップを踏んで分析するようにしました。次がプロンプトです。
いきなり分析を始めないよう返答を制限しています。このあと,データを出して表に整理してもらいました。
次に,分析の手順を示してもらい,その後は1つずつ進めていくようにしました。
分析の手順は悪くないと思います。では結果はどうか。
複数が単数に-imを足すことで作れることは見いだせています。しかし,母音削除と無声化は分かっていません。
しかも検証でkanabimをkanapimとしています。分析としてはかなり問題があるでしょう。
ChatGPT 4の回答
同じことをChatGPT 4で行いました。
こちらも方向は悪くなさそうです。
有声音と無声音の交替は気づいています。ただ,音声の特徴(kやpが声門閉鎖音で,gやbが摩擦音)などが誤っていますし,やはり単数から複数を作るという方向で固定されています。このあと,架空の単語を出して検証もするのですが,だいぶ方向がズレてしまったので割愛します。
やはりChatGPT4でも言語学的な分析をさせるのは厳しいように思えます。もう少しヒントを出してみました。
分析案は採用され,複数形に見られる形から単数形の形に変わるという分析を一応しています。でも可能性ですが。
ただ,母音については何も言ってません。示唆してみるとどうでしょうか?
「連続した母音は前を削除」というのは難しいのでしょうか。
もちろん生成AI(ChatGPT)はあくまでco-pilotとして使うもので,メインとなる分析をさせている時点で「適切な」使い方になっていないということでもあると思います。