マガジンのカバー画像

LLM

336
運営しているクリエイター

#GPT4

OpenAIの新しいマルチエージェント用フレームワークSwarmを試す

OpenAIの新しいマルチエージェント用フレームワークSwarmを試す

Google ColabでSwarmを試したのでまとめました。

1. SwarmOpenAIが新しくマルチエージェント構築のためのフレームワークを作り始めました。まだ実験的なフレームワークで、本番環境での使用を想定していないようで、今の所かなりシンプルな仕組みに見えます。
エージェントの調整と実行を軽量で、制御性が高く、テストしやすいものにすることに重点を置いているようです。

2. Googl

もっとみる
OpenAI API の Evals の概要

OpenAI API の Evals の概要

以下の記事が面白かったので、簡単にまとめました。

1. EvalsAIモデルで開発する場合、出力が正確で有用であることを確認するために、継続的にテストすることが不可欠です。テストデータを使用してモデル出力に対して評価 (Evalsと呼ばれる) を定期的に実行することで、高品質で信頼性の高いAIアプリケーションを構築および維持するのに役立ちます。

OpenAIは、テストデータセットで評価を作成お

もっとみる
OpenAI API の Structured Outputs の使い方

OpenAI API の Structured Outputs の使い方

以下の記事が面白かったので、簡単にまとめました。

1. Structured Outputs昨年のDevDayで、「JSONモード」を導入しました。これは、OpenAIのモデルを使用して信頼性の高いアプリを構築しようとしている開発者にとって便利な構成要素です。「JSONモード」は、有効なJSON出力を生成するためのモデルの信頼性を向上させますが、モデルの応答が特定のスキーマに準拠することを保証す

もっとみる
論文「Self Generated Wargame AI: Double Layer Agent Task Planning Based on Large Language Model」の紹介

論文「Self Generated Wargame AI: Double Layer Agent Task Planning Based on Large Language Model」の紹介

目次
本記事の概要戦略ゲームにおいてChatGPTに意思決定を行わせるAIを提案する論文「Self Generated Wargame AI: Double Layer Agent Task Planning Based on Large Language Model」を紹介する記事となります。

本論文の紹介論文名Self Generated Wargame AI: Double Layer A

もっとみる
RouteLLM: LLM(大規模言語モデル)の使用コストを最適化するフレームワーク

RouteLLM: LLM(大規模言語モデル)の使用コストを最適化するフレームワーク

本記事は、LLM関係の論文を紹介する記事になります。

LLMのルーティングを取り扱った論文先日、以下の記事を書きました。

LLM(大規模言語モデル)をまるでドラゴンボールの「元気玉」のようにみんなで協力し合って作るという論文「The Future of Large Language Model Pre-training is Federated」を紹介したものです。なかなか面白い内容でした。

もっとみる
[論文解説]評価者としてのLLMはバイアスを持っていていて一貫性がない

[論文解説]評価者としてのLLMはバイアスを持っていていて一貫性がない

はじめに昨今、LLMの評価にLLMを用いることが増えています。
そんな中で、評価者としてのLLM(以後、LLM評価者)をバイアスや一貫性という観点から分析を行っている論文を読んだので少しだけブログという形で紹介します。

Large Language Models are Inconsistent and Biased Evaluators

著者

Rickard Stureborg(Gramm

もっとみる
GPT4 より性能がいいオープンソースのモデルについて

GPT4 より性能がいいオープンソースのモデルについて

少し前までは Open AI の GPT4 が支配してた感じがする LLM 界隈も、状況が完全に変わって様々な LLM が跳梁跋扈する戦国時代になっています。

ここではその中でもオープンソースの LLM をメインにして解説してみます

GPT4 よりいいと言われているモデル以下は GPT4 より性能がいいと言われているモデルです(指標によっては同等以上ということです、GPT4 のバージョンによっ

もっとみる
OpenAI の Model Spec の概要

OpenAI の Model Spec の概要

以下の記事が面白かったので、簡単にまとめました。
Exampleは省略してるので元記事で確認してください。

1. Model Spec の概要1-1. Model Spec の概要

これは「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダン

もっとみる
Dify で RAG を試す

Dify で RAG を試す

「Dify」で「RAG」を試したので、まとめました。

前回1. RAG「RAG」(Retrieval Augmented Generation) は、最新の外部知識の習得とハルシネーションの軽減という、LLMの2つの主要課題に対処するためのフレームワークです。開発者はこの技術を利用して、AI搭載のカスタマーボット、企業知識ベース、AI検索エンジンなどをコスト効率よく構築できます。これらのシステム

もっとみる
Dify の ワークフロー の概要

Dify の ワークフロー の概要

以下の記事が面白かったので、簡単にまとめました。

1. ワークフロー1-1. ワークフロー

「ワークフロー」は、複雑なタスクを小さな「ノード」に分割することで、LLMアプリケーションのモデル推論への依存を減らし、システムの説明可能性、安定性、耐障害性を向上させます。

「ワークフロー」の種類は、次のとおりです。

1-2. Chatflow

自然言語入力におけるユーザー意図認識の複雑さに対処

もっとみる

GPT-4とClaude 3 Opusを創作系のタスクで比較し、相互に評価させる

Claude 3 Opus 楽しいですね。
GPT-4が出てから1年、個人的な趣味としてGPT-4にたまに自分用に創作をしてもらっていたのですが、過去にGPT-4とやってきたタスクでClaude 3 OpusとGPT-4両方に出力させ比較してみました。

30のタスクで人間(私)、GPT-4、Claudeの3者で結果を比較評価しました。多数決した結果はGPT-4の勝利でしたが、体感的にはほぼ互角、

もっとみる
【GPT-4とClaude3】キャラクター再現が上手なのはどっち?ずんだもんで検証

【GPT-4とClaude3】キャラクター再現が上手なのはどっち?ずんだもんで検証

AIVtuberシロハナちゃん開発とAIヒロイン研究Pをしているyukiです。

今回はタイトルの通り、GPT-4と最近リリースされたClaude3(Opus)を比較してみようと思います。
ただ、普通に比較するだけなら他の方がしっかりまとめているので、AIヒロイン研究Pとして、キャラクター再現にフォーカスを合わせてまとめたいと思います。

YouTubeでもシロハナちゃんが本記事と同じような内容で

もっとみる
OpenAIの 新モデルの追加 と APIの更新

OpenAIの 新モデルの追加 と APIの更新

2024年1月25日に発表された、OpenAIの 新モデルの追加 と APIの更新 についてまとめました。

1. OpenAIの 新モデルの追加 と APIの更新2024年1月25日、OpenAIの 新モデルの追加 と APIの更新 が発表されました。

2. 新しいEmbeddingモデルの追加2-1. 新しいEmbeddingモデル

2つの新しい「Embeddingモデル」を追加します。

もっとみる
Windows環境で、Llama.cppを用いてローカルLLMを動作させてみた

Windows環境で、Llama.cppを用いてローカルLLMを動作させてみた

本記事は、2024年1/27にて行われた配信にて、視聴者様とともに試行錯誤しながら、Llama.cppを実行した手段をまとめた記事となります。

下記配信は雑談ベースでローカルLLMの話をしていますので是非視聴してみてください。

配信内容:
「AITuberについて」
「なぜか自作PCの話」
「Janってどうなの?」
「実際にJanを動かしてみる」
「LLama.cppってどうなの?」
「実際に

もっとみる