マガジンのカバー画像

LLM

336
運営しているクリエイター

#Llama

わずか1.3GB程度のLlama-3.2-1Bモデルを試して驚いた。

わずか1.3GB程度のLlama-3.2-1Bモデルを試して驚いた。

LMStudioのバージョンアップをしていて、モデルを眺めていたら、Llama-3.2-1Bがありましたので試してみます。

正式名称は、「Llama-3.2-1B-Instruct-Q8_0-GGUF/llama-3.2-1b-instruct-q8_0.gguf」となります。

今回は、LMStudioで試してみました。LMStudioの使い方はこちらをどうぞ。

最初は、英語で自己紹介を依頼

もっとみる
bitnet.cpp で Llama3-8B-1.58-100B-tokens を試す

bitnet.cpp で Llama3-8B-1.58-100B-tokens を試す

「bitnet.cpp」で「Llama3-8B-1.58-100B-tokens」試したのでまとめました。

1. bitnet.cpp「bitnet.cpp」は、Microsoftが開発した1bit LLM用の推論フレームワークです。主な特徴は、次のとおりです。

2. Llama3-8B-1.58-100B-tokens「Llama3-8B-1.58-100B-tokens」は、「Llama-

もっとみる
Llama 3.2 の概要

Llama 3.2 の概要

以下の記事が面白かったので、簡単にまとめました。

1. Llama 3.2「Llama 3.2 11B・90B」は、チャートやグラフを含むドキュメントレベルの理解、画像キャプション、自然言語の説明に基づいて画像内のオブジェクトの方向を正確に特定するなど、画像推論のユースケースをサポートします。

「Llama 3.2 1B・3B」は、多言語テキスト生成とツール呼び出し機能に非常に優れています。こ

もっとみる
Llama 3.2 を試す

Llama 3.2 を試す

tl;dr概要は下記 X のポストの通り

ここではもう一歩踏み込んで解説

Ollama で動かしてみる

transformers で動かしてみる

Llama 3.2 のユースケース今までの発表よりも「どう使うか?」に焦点が当てているようなので、その文脈でまとめる。

Meta イチオシの 11B と 90B は、文書や資料の理解(チャートやグラフを含んだものも)、画像におけるキャプション作

もっとみる
量子化したローカルLLMによるセンチメント分析モデルのpreprintを公開しました

量子化したローカルLLMによるセンチメント分析モデルのpreprintを公開しました

arXivにローカルLLMを用いたモデル提案のpreprintを公開しました。大規模言語モデル、今回はLLaMA-3を量子化したローカルモデルを使ったセンチメント分析手法の提案ですね。

1. タイトルなどTitle: Dynamic Sentiment Analysis with Local Large Language Models using Majority Voting: A Study

もっとみる
Reflection Llama-3.1 70B を試す

Reflection Llama-3.1 70B を試す

tl;drReflection Llama-3.1 70B  がオープン LLM の中で世界最高性能を謳う

Llama 3.1 70B を Reflection-Tuning を用いて事後学習

<output> / <thinking> / (reflection) などのタグを用いて推論

Ollama を使って推論させてみる

Reflection Llama-3.1 70B とはHype

もっとみる
Google Colab で LongWriter を試す

Google Colab で LongWriter を試す

「Google Colab」 で「LongWriter」を試したのでまとめました。

1. LongWriter「LongWriter」は、従来のLLMが生成可能なテキスト長を大幅に超える、最大10,000ワードの文章を生成することが可能なモデルです。一般的なLLMが2,000ワード程度の出力に限られていたのに対して、非常に高品質な長文の生成能力を持ちます。

2. Colabでの実行Colabで

もっとみる
Llama3.1をローカルで動かしてみた。完全版

Llama3.1をローカルで動かしてみた。完全版


ローカルで動かすこともできる最新のオープンソースLLMを動かしました。
モデルは以下の
Llama-3.1-8B-Instruct-Q4_K_M.gguf
です。動かすことはできましたが、普通じゃない動きです。以下レポート。

Metaのサンプルコードを動かす。これが動かない。オリジナルのコードはモデルを自動ダウンロードしてくれないし、CLIでも落とせない。なぜなんでしょうね。他のモデルだと簡単

もっとみる
Llama 3.1発表:無料で商用利用可能な最強のオープンソースAIモデル

Llama 3.1発表:無料で商用利用可能な最強のオープンソースAIモデル

第1章: イントロダクション2024年7月24日、Metaは最新の大規模言語モデル「Llama 3.1」を発表しました。この新モデルは、最大4050億(405B)パラメータを持ち、世界最大かつ最も高性能なオープンソースAIモデルの一つとして注目されています。MetaのオープンソースAI戦略の一環としてリリースされたLlama 3.1は、商用利用が可能でありながらも無料で提供され、開発者や研究者に大

もっとみる
Llama-3.1 の概要

Llama-3.1 の概要

以下の記事が面白かったので、簡単にまとめました。

1. Llama-3.1 の概要「Llama-3.1」は、一般知識、操縦性、数学、ツールの使用、多言語翻訳の最先端の機能に関して、トップクラスのAIモデルに匹敵する、初めてオープンなモデルです。405Bモデルのリリースにより、イノベーションを加速させ、前例のない成長と探求の機会を得る準備が整いました。最新世代の 「Llama」は、合成データ生成に

もっとみる
RouteLLM: LLM(大規模言語モデル)の使用コストを最適化するフレームワーク

RouteLLM: LLM(大規模言語モデル)の使用コストを最適化するフレームワーク

本記事は、LLM関係の論文を紹介する記事になります。

LLMのルーティングを取り扱った論文先日、以下の記事を書きました。

LLM(大規模言語モデル)をまるでドラゴンボールの「元気玉」のようにみんなで協力し合って作るという論文「The Future of Large Language Model Pre-training is Federated」を紹介したものです。なかなか面白い内容でした。

もっとみる
「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました

「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました


本記事のサマリーELYZA は、「Llama-3-ELYZA-JP」シリーズの研究開発成果を公開しました。700億パラメータのモデルは、日本語の生成能力に関するベンチマーク評価 (ELYZA Tasks 100、Japanese MT-Bench) で「GPT-4」を上回る性能を達成しました。各モデルは Meta 社の「Llama 3」シリーズをベースに日本語で追加学習を行なったものです。

もっとみる
GPT4 より性能がいいオープンソースのモデルについて

GPT4 より性能がいいオープンソースのモデルについて

少し前までは Open AI の GPT4 が支配してた感じがする LLM 界隈も、状況が完全に変わって様々な LLM が跳梁跋扈する戦国時代になっています。

ここではその中でもオープンソースの LLM をメインにして解説してみます

GPT4 よりいいと言われているモデル以下は GPT4 より性能がいいと言われているモデルです(指標によっては同等以上ということです、GPT4 のバージョンによっ

もっとみる
Llama3に関する情報と実装事例

Llama3に関する情報と実装事例

LLama 3に関するキーポイントMetaは、オープンソースの大規模言語モデルの最新作であるMeta Llama 3を発表しました。このモデルには8Bおよび70Bのパラメータモデルが搭載されています。

新しいトークナイザー:Llama 3は、128Kのトークン語彙を持つトークナイザーを使用し、Llama 2と比較して15%少ないトークンを生成することで、言語をより効率的にエンコードしています。

もっとみる