Chroma: LLMのEmbeddingに使えるデータベース
なぜEmbeddingが必要か?ChatGPTやGPT-3.5などの大規模言語モデルを使って実際に大規模なドキュメントを扱うときに、大きな壁としてToken数の制限があります(GPT-3.5 Turboでは4,096 tokensなので日本語で3000文字くらい)。
この制限を超えたデータを扱うために使われるテクニックがドキュメントを細かくChunkに分割してEmbeddingを作るIndexingと呼ばれる方法です。
事前に大規模なドキュメントに対してIndexingを行い