Week of 8/21(2023) LangChain Release Notes
リトリーバルにおける新しい出来事
この2週間、検索分野では様々なことが起こった!
・MultiVector Retriever: 文書ごとに複数のベクトルを埋め込むことができる新しい検索アルゴリズム。
・検索システムの評価に関するLangSmithのクックブック
・検索ウェビナーシリーズが続きます!
・ChromaとUnstructuredによる高度な検索
・AirbyteとSweepによるプロダクション・インジェスチョン
・Ragasによるエンド・ツー・エンド評価:RAGパイプラインの評価に関するブログ記事も同時掲載
・最後のウェビナー・シリーズでは、Tavrnの創設者であるPedro氏をお招きしました。私たちは、アプリケーション・ビルダーが検索システムについてどのように考え、どのようにベンチマークしているのか、とても興味深く聞きました。アプリケーションを構築中の方で、今後のウェビナーに参加したい方は、hello@langchain.dev!
・新しい検索ドキュメント:インジェストに必要なものすべて(ロード、分割、埋め込み、保存)と、検索アルゴリズムのコレクション(セルフクエリ、親ドキュメントなど)。
・埋め込みデータのキャッシュ: エンベッディングを保存したり、一時的にキャッシュすることで、再計算の必要がなくなります。
・*CSVデータに対する質問応答のベンチマーク:CSVデータに対する質問応答を行うアプリケーションの改良。
・ノアとの統合 ChatGPT with Google Drive and Notion data: Tavrnチームと共同で、LangChainで構築された、高度にパーソナライズされ、高度にコンテキストを認識する新しいチャットアプリについて書きました。
LangSmithの新機能
今週は、より多くの開発者がエンドツーエンドのアプリケーションを構築できるよう、クックブックに焦点を当てています。
・run_on_dataset ヘルパーを使用して、集約されたメトリクスをベンチマークし、閾値と照合します。
・個々のユニットテストを書いて、データセットのすべての行に対してアサーションを行います。
・オプションのコメントと修正により、ユーザー・スコアをより実用的なものにします。
・LLMベースのプリファレンス・スコアリングでアプリを評価。
・LangSmithを使用してRAGシステムをテストし、LLMアプリケーションの全体的な一貫性を向上させるために、チェーンのパフォーマンスを改善するための迅速な調整を行います。
他にもご覧になりたいレシピがありましたら、@hello@langchain.dev までお知らせください。
・モニタリング・チャート: 各プロジェクトにモニタータブが追加され、トレース数、成功率、レイテンシなどの重要なメトリクスを経時的に追跡できるようになりました。近日中にさらに多くのメトリクスを追加する予定です!
オープンソースの新機能
・LangChain Expression Language (LCEL)にフォールバックを追加: 実稼働可能なLLMアプリケーションでLLM APIの障害を処理するためのより良い方法です。
・エンベッディングのキャッシュ: エンベッディングを保存したり、一時的にキャッシュすることで、再計算の必要がなくなります。
・ChatLangChainの改善: 私たちは "chat langchain "アプリの検索とエージェントメソッドのベンチマークを行っています!ここで新しいベータ版とインタラクトしてください。
・オープンソースLLMガイド:オープンソースのLLM SOTA(概要は以下の図)とローカルで実行する方法(llama.cpp、http://ollama.ai、gpt4all)をカバーしています。
・MultiVector Retriever: ドキュメントごとに複数のベクトル埋め込みを可能にする新しい検索アルゴリズム。
・OpenAIアダプタ:LangChainがサポートする他の様々なモデルのために、OpenAIの呼び出しを簡単に切り替える方法を追加しました。
見逃した場合
・チームLangChainによる微調整をサポートするLangSmithの使用
・LangChainでLLMアプリケーションを構築する LangChainのLance Martinによる講演
・チャットローダー: あなたの声でChatModelを微調整する by Team LangChain
・CSVデータによる質問応答のベンチマーク:CSVデータによる質問応答を行うアプリケーションの改良(コードとオープンソース評価データ、フィードバック収集コード、最終エージェントコードを含む)。
・eparseと大規模言語モデルを使ったExcelスプレッドシートからのデータの要約とクエリ by Chris Pappalardo
私たちが気に入っている使用例
・Noah (by Tavrn): GoogleドライブとNotionドキュメントでChatGPT
・DemoGPT:大規模言語モデル(LLM)ベースのアプリケーション開発の限界を押し広げ続けるオープンソースプロジェクト。
・GPT研究員×LangChain: ウェブ研究はLLMの素晴らしいユースケースです。それをより簡単にするために、GPT ResearcherをOpenAIアダプタと統合し、(1)他のLLMモデルを簡単に使えるようにし、(2)LangSmithで簡単にロギングできるようにしました。
・エージェントの力をウェブにもたらすMultiOn:エージェントを使用して、オンラインインタラクションを自動化し、合理化する。