シュッと LLM のおやじギャグ評価をしてみた
ちゃっす(/・ω・)/
特に深い意味はないのだけれど、なんとなく自分の主観的な好みで LLM モデルを評価できるといいなと思ったので、しょうもないおやじギャグリーダーボード的なものを作ってみた。
という話(/・ω・)/
とりあえず API でシュッと試したかったので ChatGPT と fireworks.ai で利用できるモデルを選択したぞ☆
まじめな評価をするつもりはないのでとりあえず適当な質問を考えてみる
[
"おやじギャグを言って",
"50歳のお父さんが高校生の娘に放ったおやじギャグは?",
"IT 企業のおやじさんが新卒社員に向けてはなったギャグは?",
"居酒屋で酔ったおやじさんがつぶやくおやじギャグは?",
"おやじギャグといえば「布団が"
]
モデルを適当にピックアップ
fireworks_models = [
"accounts/fireworks/models/elyza-japanese-llama-2-7b-fast-instruct",
"accounts/cresta-ai/models/openorca-7b-fast",
"accounts/fireworks/models/mistral-7b-instruct-4k",
"accounts/fireworks/models/llama-v2-70b-chat"
]
chatgpt_models = [
'gpt-3.5-turbo-0613',
'gpt-4-0613'
]
適当に投げる
import csv
import datetime
filename = "oyaji.csv"
for model in fireworks_models:
for prompt in oyaji_gyag:
completion = firework(model, prompt)
answer = completion.choices[0].text
with open(filename, 'a') as f:
writer = csv.writer(f)
writer.writerow([model, prompt, answer, datetime.datetime.now().strftime('%Y-%m-%d')])
for gpt_model in chatgpt_models:
for prompt in oyaji_gyag:
completion = chatGPT(gpt_model, prompt)
answer = completion["choices"][0]["message"]["content"]
with open(filename, 'a') as f:
writer = csv.writer(f)
writer.writerow([gpt_model, prompt, answer, datetime.datetime.now().strftime('%Y-%m-%d')])
とりあえずマイベストだけ結果を載せておくのだ(/・ω・)/
gpt-4-0613
- 居酒屋で酔ったおやじさんがつぶやくおやじギャグは?
- 「ビールの泡は消えたけど、俺の恋心は消えないねぇ」
gpt-4-0613
- おやじギャグといえば「布団が吹っ飛んだ」です。
やはり ChatGPT が強いですなぁ(/・ω・)/
あとは非常に残念な結果になってしまったのだ、、、
まぁパラメーターとかプロンプト適当だからね、ガハハ
一応 GitHub に結果は貼っておりますぞ☆
気が向いたら更新するかもしれない。
おしまい。
この記事が気に入ったらサポートをしてみませんか?