マガジンのカバー画像

LLM

336
運営しているクリエイター

2023年9月の記事一覧

LangChainでストリーミングを有効にしつつ、会話やRAGのトークン消費数を計測する方法

LangChainでストリーミングを有効にしつつ、会話やRAGのトークン消費数を計測する方法

はじめにこんにちは、@_mkazutakaと申します。今日は、LangChainでストリーミングを有効にしつつ、会話やRAGのトークン消費数を計測する方法について紹介します。

LangChainを使用するときのトークン消費量は、以下のドキュメントに記載されているように `get_openai_callback` 関数を利用すれば簡単に取得できます。しかしこれには注意点があり、この関数はストリーミ

もっとみる
RAGの解説: LLMとベクトルデータベースを活用したアプローチのまとめ

RAGの解説: LLMとベクトルデータベースを活用したアプローチのまとめ

Retrieval Augmented Generation(RAG)は、AIと特に大規模言語モデル(LLM)の分野で注目されている新しい技術です。この記事では、RAGが何であり、どのようにLLMの性能を高めるのか、具体的な実用例とともに解説します。ベクトルデータベースの活用方法や、RAGを実装する際のポイントも紹介します。

1. Retrieval Augmented Generation(R

もっとみる
独自知識を組み込んだチャットボットを作る - OpenAI + Llamaindex + Gradioで遊んでみる

独自知識を組み込んだチャットボットを作る - OpenAI + Llamaindex + Gradioで遊んでみる

データミックスの代表の堅田です。シルバーウィークの1日を使って、気になっていたLlamaindexとGradioを触ってみました。

注意

できるだけ平易な言葉で、かつ技術ワードを避けながら記載しています。その結果、厳密性に欠いた説明になっている部分もありますが、ご容赦ください。

いずれのライブラリ・サービスも記事作成時点のものです。それらがアップデートされることで、記載したコードが動かない、

もっとみる
RAG評価ツール ragas を試す

RAG評価ツール ragas を試す

RAG評価ツール「ragas」を試したので、まとめました。

1. ragas「ragas」は、「RAG」 (Retrieval Augmented Generation) パイプラインを評価するためのフレームワークです。「RAG」は外部データを使用してLLMのコンテキストを拡張するLLMアプリケーションです。「ragas」はこのパイプラインを評価して、パフォーマンスを定量化します。

2. Co

もっとみる
自律言語エージェントを構築するためのフレームワーク Agents を試す

自律言語エージェントを構築するためのフレームワーク Agents を試す

自律言語エージェントを構築するためのフレームワーク「Agents」を試してみたので、まとめました。

1. Agents の概要「Agents」は、自律言語エージェントを構築するためのフレームワークです。

「コンフィグファイル」に自然言語で設定を記述するだけで、「言語エージェント」または「マルチエージェントシステム」をカスタマイズし、「ターミナル」「Gradio」「バックエンドサービス」にデプロ

もっとみる

【勉強メモ】RAG を使用したチャットボット: LangChain の完全なチュートリアル Chatbots with RAG: LangChain Full Walkthrough

Chatbots with RAG: LangChain Full Walkthrough(GPTにて要約)要約

このビデオでは、開始から終了まで、リトリーバル拡張生成(RAG)を使用してチャットボットを構築する方法が詳しく説明されています。このビデオでは、チャットボットの構築について何も知識がないと仮定し、OpenAIのGPT 3.5モデルとLangChainライブラリを使用して、新しいイベン

もっとみる
AIによる再設計でLlama2の15倍高速!?DeciLM登場!

AIによる再設計でLlama2の15倍高速!?DeciLM登場!

Llama2の15倍高速というDeciLMというのが発表された。もう何が何だかわからない。これはデコーダーモデルというやつで、4096トークンに対応

なぜこんなに高速なのかというと、AIが自動設計したから
AutoNAC(自動ニューラルアーキテクチャ構築)というDeci社の技術により、LLMの画期的な高性能化が実現したということらしい。まあ要はLLMは単なるデモに過ぎないということ。

オフィシ

もっとみる
驚愕の2ビット量子化LLM/GGUF

驚愕の2ビット量子化LLM/GGUF

普段VRAMリッチな人生だったのでよくわかってなかったのだが、俺が機内で会話していたLLMは2ビット量子化されたやつだったらしい。マジかよ。2bitって。

llama.cppで2ビット量子化されたELYZA-7Bと会話したのはこんな感じ

{"prompt": "User:宮崎駿とは? Assistant: ","n_predict": 256}' {"content":"宮崎駿は日本のアニメ

もっとみる
Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す

Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す

「Google Colab」で「DeepSpeed」によるLLMの (LoRAではなく) フルパラメータの指示チューニング (Instruction Tuning) を試したので、まとめました。

前回
1. DeepSpeed「DeepSpeed」は、深層学習モデルの学習や推論の処理を高速かつメモリ消費を抑えて実現することができるライブラリです。

HuggingFaceでサポートしている「De

もっとみる
Google Colab で SFTTrainer によるLLMのフルパラメータの指示チューニングを試す

Google Colab で SFTTrainer によるLLMのフルパラメータの指示チューニングを試す

「Google Colab」で「SFTTrainer」によるLLMの (LoRAではなく) フルパラメータの指示チューニング (Instruction Tuning) を試したので、まとめました。

前回
1. モデルとデータセット今回は、LLMとして「OpenCALM-small」、データセットとして「databricks-dolly-15k-ja」を使いました。

2. ファインチューニング前

もっとみる
Google Colab で SFTTrainer によるLLMのフルパラメータのファインチューニングを試す

Google Colab で SFTTrainer によるLLMのフルパラメータのファインチューニングを試す

「Google Colab」で「SFTTrainer」によるLLMの (LoRAではなく) フルパラメータのファインチューニングを試したので、まとめました。

1. SFTTrainer「SFTTrainer」は、LLMを「教師ありファインチューニング」 (SFT : Supervised Fine Tuning) で学習するためのトレーナーです。LLMの学習フレームワーク「trl」で提供されてい

もっとみる

Text generation web UI で Xwin-LM-13B-V0.1-GPTQ を試す。

「Text generation web UI」で「Xwin-LM-13B-V0.1-GPTQ」を試したので、まとめました。

1. Xwin-LM-13B-V0.1-GPTQnpaka 大先生が Google Colab で Xwin-LM を動かしていたので、私はローカルの Text generation web UI で Xwin-LM を動かしてみるチャレンジです。

shi3z さんは 

もっとみる
text-generation-webuiでELYZA-japanese-Llama-2-7b-fast-instructとのチャットを考える

text-generation-webuiでELYZA-japanese-Llama-2-7b-fast-instructとのチャットを考える

text-generation-webuiにはデフォルトでChiharu Yamadaという謎の美少女とチャットできるプリセットが搭載されています

ModeをChatにすると、LLMにはどのようなプロンプトが渡っているのでしょうか。

左下のハンバーガーメニューから「send to default」または「send to notebook」を選ぶと、実際にLLMに渡っているプロンプトを確認するこ

もっとみる
text-generation-webuiで、ELYZA-japanese-Llama-2-7n-fast-instructをExLlamaでロードし、LoRA適用してみる

text-generation-webuiで、ELYZA-japanese-Llama-2-7n-fast-instructをExLlamaでロードし、LoRA適用してみる

text-generation-webuiで、ELYZA-japanese-Llama-2-7n-fast-instructをExLlamaでロードし、LoRA適用してみます。

Exllamaでモデルをロードするために、以下のGPTQモデルをお借りします。

Download model or LoRA画面にdahara1/ELYZA-japanese-Llama-2-7b-fast-instr

もっとみる