
LlamaIndex での LLMの互換性
以下の記事が面白かったので、かるくまとめました。
1. LlamaIndex での LLMの互換性
「LlamaIndex」は、ほぼすべてのLLMと統合することができますが、LLMがそのままで問題なく機能するかどうか、またはさらにカスタマイズが必要かどうかが不明瞭な場合があります。
以下の表は、さまざまな LLMのさまざまなLlamaIndexの機能の初期エクスペリエンスを検証することを試みています。一般に、OpenAIやAnthropicなどの有料APIはより信頼できると見なされています。ただし、カスタマイズ可能性と透明性へのアプローチにより、ローカルのオープンソース モデルの人気が高まっています。
2. 有料LLM API の互換性
英語入力での評価になります。


・gpt-3.5-turbo
・gpt-3.5-turbo-instruct
データエージェントでのツールの使用法は不安定に思えます。
・gpt-4
・claude-2
ツールの入力にハルシネーションを起こしやすい。
・claude-instant-1.2
ツールの入力にハルシネーションを起こしやすい。
3. オープンソースLLM の互換性

・llama2-chat-7b 4bit
「Llama2」は非常におしゃべりすぎようで、構造化出力の解析が困難になっています。構造化出力のパフォーマンスを向上させるには、ファインチューニングとプロンプト調整が必要になる可能性があります。
・llama2-13b-chat
ReActプロンプトは構造化出力を期待していますが、「llama-13b」はそれに苦戦しています。
・llama2-70b-chat
特にPydanticプログラムの場合、構造化出力の解析にはまだいくつかの問題があります。
・Mistral-7B-instruct-v0.1 4bit
「Mistral」は「Llama2」と比較して、構造化出力の信頼性がわずかに高いようです。おそらく、プロンプト調整を行うことで、より良い結果が得られる可能性があります。
・zephyr-7b-alpha
全体として、「zyphyr-7b-alpha」は、このサイズの他のオープンソースモデルよりも信頼性が高いと思われます。エージェントとしては、まだ少しハルシネーションがありますが。
・zephyr-7b-beta
「zyphyr-7b-alpha」と比較すると、「zyphyr-7b-beta」はエージェントとしてはうまく機能するように見えますが、Pydanticプログラムでは機能しません。
・stablelm-zephyr-3b
「stacklm-zephyr-3b」は、特に構造化出力に対して (はるかに大規模なモデルを上回って) 驚くほどうまく機能します。 text-to-SQLやツールの使用には少し苦労します。