60種類のLLM をベンチマーク
60種類のLLMに対して 20個の質問を投げて、その回答を比較するベンチマークモニターが公開されました。
これまでにもHellaSwagなどLLM向けベンチマークは存在してました。
しかし実際のワークフローでどれだけ性能が出るのかを感じるには少し抽象的すぎる部分も指摘されていました。基本的な推論力、指示に従う能力、創造性をテストするプロンプトを約60のモデルに尋ねるスクリプトを書くというアイデアを思いつきました。これらのモデルは推論APIを通じて手に入れることができます。
スクリプトはすべての回答をSQLiteデータベースに保存し、それが生の結果です。
例えばこんな質問も投げます。
Explain the bug in the following code:
```
from time import sleep
from multiprocessing.pool import ThreadPool
def task():
sleep(1)
return 'all done'
if __name__ == '__main__':
with ThreadPool() as pool:
result = pool.apply_async(task())
value = result.get()
print(value)
```
このコードのバグを指摘させるよう指示すると、
GPT4
残り60種類のLLMの結果はこちらでご覧いただけます。
様々なLLMの結果が出ていますが、GPT4の一人勝ちというわけでもないことが鮮明になってきています。