GPT detectors are biased against non-native English writers

2023年4月20日 00:46

GPT detectors are biased against non-native English writers という論文をざっと読んだ。論文というより、読み物という感じだったが。

最近の、論文の読み方

最近は、論文を読んでその論文の中身の式についてしっかり考える機会がめっぽう減ってしまった。それどころか、論文をじっくり読むことも少なくなってしまった。良くないと思う一方で、全く論文を読まないよりは少しでも触れたほうが良いだろうとも思う。

論文を探すのには、以下のサイトを使っている。
あとは、チームメンバーがSlackに投げ込んでくれた情報をチラ見している(*)。

その後、論文を以下の手順で理解していく

paperswithcodeを眺めながら、興味ある論文を開いてみる。
DeepL でAbstractを翻訳
ChatPDF
- 以前も何度も紹介したPDFと対話ができるサービス
- 類似のサービスは、Github上にいくつも公開されている
  - https://github.com/bhaskatripathi/pdfGPT
  - https://github.com/dotvignesh/PDFChat
- ローカルで毎回サーバーを立てるのがめんどくさいし $5 / month だったので、ChatPDF に課金することにした
図を見る。表を見る。
https://www.arxiv-vanity.com/
- 論文のPDFは、基本的に翻訳とかかけるのが大変だ。
  - このサイトは、PDFのURLを投げると、本文を抽出してHTML化してくれる
  - それを、Google 翻訳 or DeepLで日本語に

今回も、こんな感じで論文を読んでみた。

*) 本当は、もっとしっかり情報を追ったほうが良いのだろうが、最近できているのはこれぐらい。リハビリも兼ねて、Noteにメモ的な記事をいっぱい書いている次第だ。

タイトル通りで恐縮だが、「ネイティブでない人が書いた文章は、GPT判定機で誤検知されやすい」という論文だ。
直接的な理由は、ネイティブでないスピーカーの場合

が小さいことが原因だという。

この論文ではGPT-2 を判定機としていたが、GPT-4で作成した流暢な英語は、GPT-2 ベースの判定機では偽陰性になるケースが圧倒的に多かったと報告されている。

日常生活を送っていて、「これ、Generative AI で作られたものかな？」と考えることなどあまりないが、学校教育の現場だとこれが必要になるかも。と言われていて、なるほど！と思った。

もし自分がアメリカの大学に留学すると、めちゃくちゃGPT検出器の被害を被ると思うと、この問題は早く解消されてほしい。というか、そもそも、解消することは可能なのだろうか。自分には、よくわからない。

この記事が気に入ったらサポートをしてみませんか？