![見出し画像](https://assets.st-note.com/production/uploads/images/121563928/rectangle_large_type_2_df7dfad2a043be49dc7718118dfd5613.png?width=1200)
LlamaIndex によるOpenAIの新機能を使用・理解するためのガイド
以下の記事が面白かったので、かるくまとめました。
1. 新機能
1-1. Parallel Function Calling
・エージェント
・複数のツールを一度に呼び出す
・順次実行よりも高速 (例: ReAct)
![](https://assets.st-note.com/img/1699825174952-05aPugHFzU.jpg?width=1200)
・構造化データの抽出
・Function Callingを使用して、複数の構造化された出力を一度に抽出 (例: 複数のPydanticオブジェクト)
・Pydanticクラスでラッパーを定義する必要がなくなった
![](https://assets.st-note.com/img/1699825304330-vGzIsxMCe1.jpg?width=1200)
・ガイド
・Structured Data Extraction
・Parallel Function Calling for Agents
1-2. Assistant API Agent
・組み込みの「Retrieval Tool」「Code Interpreter Tool」を使用
・独自の「Vector Store」の持ち込み
![](https://assets.st-note.com/img/1699825418044-1jWCwvmRZQ.jpg?width=1200)
・ガイド
1-3. Function Callingによる高度なRAG
・QA と 要約 のジョイント
・Auto-retrieval
・text-to-SQL と semantic search のジョイント
![](https://assets.st-note.com/img/1699825712243-VHL9FKXoEW.jpg?width=1200)
・ガイド
1-4. マルチモーダルRAG
・マルチモーダルLLM、埋め込み、インデックス
・GPT-4V、LLaVa、Fuyuと統合
・ユーザーのクエリを指定して、取得した画像/テキストを出力
![](https://assets.st-note.com/img/1699825838073-dglQlY1FdA.jpg?width=1200)
・ガイド
・Blog
・Guide
・Multi-modal CLIP Retrieval
・Retrieval-Augmented Image Captioning
1-5. [Draft] GPT Builder (at home)
・「Meta」tools : システムプロンプトの作成、ツールの作成、エージェントの定義
![](https://assets.st-note.com/img/1699826000848-x64Hx6B63Z.jpg?width=1200)
・ガイド
2. 分析
2-1. JSONモード vs Function Calling
・Function Callingは構造化データの抽出に使いやすい (JSONモードは常に有効)
・JSONモードはJSON形式を検証するが、スキーマは強制しない
![](https://assets.st-note.com/img/1699826173200-TppOsHZxGk.jpg?width=1200)
・ガイド
2-2. GPT-4のコンテキスト制限の分析
・長いコンテキストLLM (コンテキストウィンドウのオーバーフローなど) を使用した大規模な要約は依然として困難
・gpt-4 と claude-2 の両方ですべてのコンテキストが同等に扱われるわけではない
![](https://assets.st-note.com/img/1699826317016-ADAw0qanGS.jpg?width=1200)
・ガイド
2-3. Retrieval API のベンチマーク
・「Retrieval API」はどの程度優れているか、デフォルトのtop-k RAGパイプラインと比較。
・驚くべきことに、状況はさらに悪くなる (しかし、より重要なのは、独自のデータに対してスクリプトを実行する必要があること)。
![](https://assets.st-note.com/img/1699826480021-BctLwmXufC.jpg?width=1200)
・ガイド