arxivに投稿された論文を時々読んで面白いモノをメモっているのですが、LLMのハルシネーション抑制にどんな手法が有効かを調べた「 Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models」という論文が、とても良くまとまっていたので、簡単に知見を整理してみました。
多様性(Temperature)を上げて自己整合性(SC)を使う
Macbook Pro M1上で、ggmlを使っていろいろな大規模言語モデルを動かしてみました。
結論として、今回試した感じ、gpt-neoxベースのもの(今回試した日本語LLM)を対象にした場合、Macbook Pro M1で遊べるのは、30億パラメータ(3bの表記)がギリギリで、70億(7b)だと結構厳しいということが分かりました。ただし、llama.cppを使った場合は、Appleシリコンの最適化が利くせいか、70億パラメータ(7b)でも良い感じに動きます。
ローカル