今までも生成AIを使って選択肢問題の誤答部分やデータ分析のための数値データなどのダミーデータは作成してきました。
今回は「アンケートの自由記述の回答」のダミーデータを作ってみたところ、”簡単にできるだろう”と思っていたダミーデータ作成が思ったより手こずったのでまとめてみました。
ダミーデータを作るプロンプト
このプロンプトではChatGPT-4oから満足のいく結果が得られなかったため、CopilotやGeminiでも同じプロンプトで試してみました。
ChatGPT-4o
300個のデータは作成しCSVでダウンロードできるリンクも作ってくれました。
ですが、同じ文章を10~20回程度ランダムに出力していて、文字数も最短36文字、最長58文字の範囲でしか生成してくれませんでした。
そこで、追加のプロンプトを入力したのですが…
文章の一部やバランスは変化したものの、相変わらず20数種類の文章しか生成されず、文字数も大きな変化はありませんでした。
文字数については、日本語の「文字数」という概念が弱く「トークン数」としたほうが伝わるという俗説も聞いたことがあったので試してみましたが、結果に大きな差はみられませんでした。
Copilot
何度トライしても、プロンプト「300種類作って」と書いても、5つで止めてしまいます。さぼるな~。
Gemini
27個生成し、28個目の途中で止まります(何回か、日を置いてやっても大体同じくらいのところで止まります)。
そして、「うーん、」から始まる文章5つ、「先生、」から始まる文章4つなど、始まり方が同一の文章が複数存在する結果になりました。
「続けてください」と言えば次の番号から作成してくれますが、内容は最初の作成物と同じものが同じくらいのところまで出力されるだけで新たな文章はほぼ得られませんでした。
プロンプトの工夫
なかなかイメージ通りの結果が得られなかったため、少しプロンプトのアプローチを変えてみました。
もっと長い文章で20個回答をつくってください
このくらいの分量で作ってもらうと、100文字から150文字程度の文章をしっかり生成してくれました。
ここで生成された長めの文章を、Geminiで要約してバリエーションを増やす試みもうまくいきました。
口語っぽい表現で、一言か二言程度のコメントを10種類作ってください
「視野が広がった!」とか「すごく面白かった」といった、高校生っぽい文章が生成されてきました。
さらに「口語っぽさをもう少し弱めて20種類お願いします」というプロンプトもまずまずの結果を出力してくれたので、バリエーションはこの方法で結構増やすことができました。
まとめ(というか個人の感想)
大量のダミーデータを一気に生成するのはまだ難しそう
とりあえず一気に生成させようとしても、なかなかうまく出力されませんでした。
プロンプトを工夫しながら、特定のイメージの文章を少量ずつ作成するほうが、結果的に早くデータを得ることができそうです。
作成したダミーデータ
ベタテキストで貼っておくので、分析等にチャレンジしたい方はご自由にお使いください。