昨今、さまざまな無料のLLM(大規模言語モデル)が公開されています。その中でも、特に注目すべきは国産であり、最近公開された「Tanuki-8B-dpo-v1.0」です。本記事では、このモデルを少し試してみた感想をお伝えします。
実際に使ってみたところ、ハルシネーションが部分的に見られるものの、かなり実用的であると感じました。OpenAIの「GPT-3.5 Turbo」と同等以上の性能と言われていますが、その評価にも納得です。特に、機械的な回答ではなく、人間らしい回答を返す点が印象的でした。モデルの説明には、作文能力や共感力が特徴とありますが、確かにその点を強く感じました。
ためし方
お手軽なのは以下、huggingfaceに公開されているものを使用する方法です。
下記サイトにアクセスして使用できます。ログインは不要です。
ちなみに、自分のiPhoneのSafariではうまく動作しませんでしたので、PC(mac)から使用しました。
ほか、Google Colabでも使用できます。無料で使える範囲でも、エラーになることなく動作させることができました。(ケチって使えます)
以下のブログで公開されているノートブックを使用しました。
さらに、MacBookでも動作させることができます。ただし、上記GPU RAMが16ギガ近く使用されることにご留意ください。(メモリが足りないとSSDとのスワップが気がかりです。寿命がね。)
ということで、現時点でローカル環境では試していませんが、近日中にチャレンジしてみたいです。Windowsでも動作できるので、こちらもチャレンジしてみたいです。
LLMの名前
LLMの名前についてですが、どうやら単に多数決で決められたようです。しかし、「名は体を表す」と言います。たぬきは日本固有種ではありませんが、日本の民話や伝説に頻繁に登場します。そのため、変身能力やいたずら好きの性質を持つたぬきが、柔軟で適応力の高い日本産AIモデルを象徴する名前としても機能するのではないでしょうか。
非常にセンスのいい名前なんだなも。
対話
以下にこちらの質問と、Tanukiの返答をまとめます。何となく難易度順です。
(省略)と記載があるものは、こちらでカットしています。huggingfaceに公開されているもので、パラメータはデフォルトです。
上記のように曖昧な質問ではハルシネーションを起こしやすいようです。公開初期のChatGPTを思い出します。
以下、上記の質問に続けての質問です。
以下は難易度関係なしに聞いてみたものです。
以下、Claude 3.5の回答です。
この程度の質問であれば、回答に差は感じません。しかし、改めてローカル環境でこの回答は凄いですね。
変な回答
LLMの宿命です。LLM睡眠不足説もありますが、人間も寝不足だと大体こんな感じです。
しりとり、に関してはルールや例を教えてあげることで精度は向上します。
執筆
以下のプロンプトで執筆を頼みます。比較用にClaude 3.5と、ChatGPT-4oの結果も掲載します。
好みの問題ですが、この結果の中ではChatGPT-4oが好きです。
ただ、具体的な時刻を入れてくる、Claude3.5も捨てがたく、これらをハイブリッドに執筆し直すのもいいかもしれません。
具体的な時刻を主人公目線で入れると、その人の規則正しさが見て取れます。にも関わらず、不意に電車を降りるのであれば、そのイレギュラーさが際立ちます。ほか、序盤は温和なテイストで進めて、後半は主人公が単なるストーカーとなる、ホラーチックにも繋がりそうで、そういう妄想が捗ります😎
色々試しましたが、忖度なしに常用できるLLMだと思えました。スタンドアロンで動作するLLMがこの品質というのは未来を感じます。
おまけ