chroma dbでセマンティックサーチ
chromaとopenaiのチャットAPIだけで、シンプルにセマンティックサーチができるじゃないかと、実装してみた。
できた。
他のライブラリを使うよりも、すごくシンプル。
だが、
全体のデータ量がそれほど多くないといいけど、
300ページものPDFデータだと、抽出精度が低い低い。
エンべティングにデフォルトのchromaを利用しているからだろうか。
チャンクの方法もいろいろ試しているけど。
Llamaインデックスで、以前やったときの方が精度がいい。
セマンティックサーチも、やり方により、精度が違うなあ。
ベクトルの次元数は大きいほうがやはり、精度がいいのかな。
もう少しだけ、精度を求めて実験おきたいけど。
それにしても、
セマンティックサーチは、もう古いかも。一時のものだったかも。