
某メディア用にテキストチェックGPTを作ってみたよ
かわうそ→カワウソ?
テキストチェックを担当することになった某メディアでは、記事内で表記する「いっしょ→一緒」とか「美味しい→おいしい」みたいな漢字の"閉じひらき"に関するレギュレーションが、277もあるそうな。イヌは犬で、ウサギはうさぎで、サルは猿。
こちとら加齢で記憶も朧げ。一生覚えられんのだわ。「かわうそ→カワウソ」まであるし。カワウソ、今まで何回記事に出てきた?
レギュレーションを眺め、覚えることを一瞬であきらめ、AIになんとかしてもらおうじゃないの。ということで始まった、My GPTを作っちゃおう企画〜
ChatGPTのプロンプトに置換ルールを含めれば、素直に校正結果を出力してくれそうな気配はあるものの、なにせルールが多すぎる。というか、データを学習させるファインチューニングっていうのをやってみたかったのよね〜(いそいそ)
学習データってどう作るんだろ?
作り出す前からふわぁ〜っと思っていたのだが、学習データってどう作るんだろ。形式はCSVか何かでアップロードするとして、A列とB列に正誤を書けばいいのか、単にA列に「かわうそ→カワウソ」と書くだけでいいものか?ちょっとよくわからんので「かわうそ→カワウソ」形式で書いたレギュレーションをアーップ。
レッツ 校正!
Instructionsもそれっぽく書いて保存。

ダミーのテキストを、出来立てほやほやのレギュチェ君(言いにくい)に投げます。

それっぽく始まったぞ!

3回もエラーでた!

勝手に学習データを修正してくれんだね!ありがとね!

置換ルール、めっちゃ無視されるんだけど?

…見落とすんじゃないよ。

え。「学習」するわけではないの??思ってたんと違うんだが。
しかしながら弊社はAI情報が日々飛び交うIT企業であるので、私は知っているのだ。AIには多少厳しく接しても大丈夫、むしろ厳しく接するべきだということを..!

気を取り直してもう一度校正だ〜〜〜!

今度はきちんと「いっしょ→一緒」「美味しい→おいしい」に置換してくれました。厳しく言った方がいい系?
まだまだ続くよチューニング
というわけで、なんとなく動くものは作れたのだが、怪しい挙動をすることもちらほら。
固有名詞の理解のさせ方(ルールに一致した場合は置換されてしまう)
動詞の活用形に対してルールが適用されない
それなりの頻度で解析エラーになる
チューニングはまだまだ続く!