![見出し画像](https://assets.st-note.com/production/uploads/images/118586015/rectangle_large_type_2_e096f82ab61cc93ab25b0250aa6128fb.png?width=1200)
ベクトルデータベースってどれだけ世の中にあるのか?
Clip source: Vector Databases (are All The Rage) | by Christoph Bussler | Google Cloud - Community | Aug, 2023 | Medium
(映像はDalle-Eで作成)
この記事は、昨今AIの浸透で広く知られるようになったベクトルデータベースの動向について調査をしたらすごい量の情報が出てきた、という内容。
ベクトルデータベース、と称してる技術は下記のリストの通り、大量に発生しているのが現状。突然急にこんな量が現れたわけではなく、その背景には、AI技術、特に自然語処理を行うために数値情報をベクトル的に管理する技術が必要になり、それを機能としてサポートしている、というデータベースベンダーの発表が多く現れた、という話。
データをメモリ上に管理する部分(ストレージエンジン)のレベルも含めてベクトルデータに特化したアーキテクチャを持って開発されたものもあれば、従来のRDBやNoSQLのデータベースエンジンの上にベクトルデータの表記と管理ができる技術(ベクトルインデックス)も存在していて、下記のリストはそのミックス。
よく見ると、たいていのデータベース技術が「ベクトル対応」している、という事がわかります。
ベクトルデータベース、というのはベクトル数値の表記/記録はもちろんのこと、そのRead/Writeの性能の高さ、メモリ消費の効率、スケーラビリティ、メタデータ管理機能、バックアップ/リストア機能、データセキュリティ、AIツールとの連携(LangChain、LlamaIndex、ChatGPTプラグイン、等)他との統合(ETL、BI、可視化ツール、等)、等、要件は多岐にわたり、従来のデータベースとは違う特性を要求されるケースが多いです。
この記事でリストアップしたベクトル機能をサポートしているデータベースはこれだけ上がってます。
一つ一つを解説し、それぞれの特徴を調査するのはあまり意味がありません。
まずはこれだけの量が出てきている、ということを認識するリスト、という事で理解しましょう。
この中で、いわゆる純粋にベクトルデータベースとして開発されているものが点在してます。強いてあげれば、その純正ものと、既存データベース技術にベクトル表記機能を追加したもの、の区別くらいはしてもいいかな、と思いますが、それはもう少し時間があった時に、。、、、
ActiveLoop: https://www.activeloop.ai/
AnalyticDB for PostgreSQL: https://www.alibabacloud.com/help/en/analyticdb-for-postgresql/latest/4d5b34
AnnDB: https://anndb.com/
ArcadeDB: https://github.com/ArcadeData/arcadedb
Atlas: https://atlas.nomic.ai/
Azure Cognitive Search: https://azure.microsoft.com/en-us/products/ai-services/cognitive-search
BagelDB: https://www.bageldb.ai/
Chroma: https://www.trychroma.com/
Clarifai: https://www.clarifai.com/blog/finding-what-you-need-a-comprehensive-guide-to-vector-search
ClickHouse: https://clickhouse.com/
CloseVector: https://closevector-docs.getmegaportal.com/
CockroachDB: https://thenewstack.io/cockroach-labs-chief-targets-llms-with-vector-encoding/
DashVector: https://help.aliyun.com/document_detail/2510225.html
DataStax Astra Vector Search: https://docs.datastax.com/en/astra-serverless/docs/vector-search/overview.html
deeplake: https://github.com/activeloopai/deeplake
DocArray Hsnwlib: https://docs.docarray.org/user_guide/storing/index_hnswlib/
DocArray In-Memory: https://docs.docarray.org/user_guide/storing/index_in_memory/
Elastic Search Relevance Engine (ESRE): https://www.elastic.co/enterprise-search/generative-ai
embeddinghub: https://github.com/featureform/featureform/tree/main/embeddinghub
Google Cloud AI: Vertex AI Matching Engine: https://cloud.google.com/vertex-ai/docs/matching-engine/overview
Google Cloud database systems: AlloyDB for PostgreSQL, Cloud SQL for PostgreSQL (based on pgvector)
Google Cloud AlloyDB AI: https://cloud.google.com/alloydb/ai
HyperVectorDB: https://github.com/deatos/HyperVectorDB
JaguarDB: http://www.jaguardb.com/
KDB.AI: https://kx.com/products/kdb-ai/
LanceDB: https://github.com/lancedb/lancedb
Marqo: https://www.marqo.ai/
Meilisearch: https://www.meilisearch.com/
Metal: https://getmetal.io/ (it is noteworthy that their search in documents is based on prompting: https://docs.getmetal.io/introduction)
Milvus: https://milvus.io/
Milvus Lite: https://github.com/milvus-io/milvus-lite
MongoDB Atlas: https://www.mongodb.com/docs/atlas/atlas-search/field-types/knn-vector/
MyScale: https://myscale.com/
MySQL Heatwave: https://blogs.oracle.com/mysql/post/introducing-vector-store-and-generative-ai-in-mysql-heatwave
NucliaDB: https://github.com/nuclia/nucliadb
OpenSearch: https://opensearch.org/platform/search/vector-database.html
Pinecone: https://www.pinecone.io/
pg_embedding: https://github.com/neondatabase/pg_embedding
pgvecto.rs: https://github.com/tensorchord/pgvecto.rs
Qdrant: https://qdrant.tech/
Qwak Vector Store: https://docs-saas.qwak.com/docs/vector-store
Redis: https://redis.io/docs/interact/search-and-query/search/vectors/
RelevanceAI: https://documentation.relevanceai.com/datasets/introduction
Rockset: https://rockset.com/
ScaNN: https://github.com/google-research/google-research/tree/master/scann
scikit-learn: https://scikit-learn.org/stable/
SingleStore: https://www.singlestore.com/
sqlite-vss: https://github.com/asg017/sqlite-vss
StarRocks: https://www.starrocks.io/
supabase: https://supabase.com/
SuperDuperDB: https://github.com/SuperDuperDB/superduperdb
SWIFT Vector Database: https://github.com/Dripfarm/SVDB
Tair: https://www.alibabacloud.com/help/en/tair/product-overview/what-is-tair
Tencent Cloud VectorDB: https://technode.com/2023/07/05/tencent-cloud-unveils-ai-native-vector-database/
TerminusDB: https://terminusdb.com/vectorlink/
Tigris: https://www.tigrisdata.com/docs/quickstarts/quickstart-vector-search/
TileDB: https://tiledb.com/blog/why-tiledb-as-a-vector-database
Timescale Vector: https://www.timescale.com/blog/how-we-made-postgresql-the-best-vector-database/
tinyvector: https://github.com/m1guelpf/tinyvector
typesense: https://typesense.org/
Vald: https://vald.vdaas.org/
vearch: https://github.com/vearch/vearch
vectara: https://vectara.com/
VectorDB: https://github.com/jina-ai/vectordb
Vectorize: https://developers.cloudflare.com/vectorize/
VectorLake: https://github.com/msoedov/vector_lake
vector-storage: https://github.com/nitaiaharoni1/vector-storage
vercel: https://vercel.com/ (via pgvector)
Vespa: https://vespa.ai/
Weaviate: https://weaviate.io/
Xata: https://xata.io/
Zilliz: https://zilliz.com/
後続の記事として、ベクトルデータベース技術の最近の動向について紹介していきます。