マガジンのカバー画像

LLM

336
運営しているクリエイター

2024年2月の記事一覧

WSL2でgemma.cppを試してみる

WSL2でgemma.cppを試してみる

「GoogleのGemma基盤モデル用の軽量のスタンドアロンC++推論エンジン」であるgemma.cppを試してみます。

使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは
・CPU: Intel® Core™ i9-13900HX Processor
・Mem: 64 GB
・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16G

もっとみる
HyenaDNA: ゲノム配列の長距離依存関係を解明する基盤モデル

HyenaDNA: ゲノム配列の長距離依存関係を解明する基盤モデル


大規模言語モデルはゲノムの言語を読み解けるのか?

2003年にヒトのゲノム配列が解読された。それはヒトDNAの配列解読競争の1つの終わりを意味したが、そのATGCの4文字の羅列が何を意味するか?というDNA配列の意味を解読する研究の始まりでもあった。そして、20年ほどたった今もその努力はDNA配列解析として続けられている。

ChatGPTに代表される大規模言語モデル(LLMs)は、大量の言語

もっとみる
WSL2とllama.cppでKARAKURI LMを試してみる

WSL2とllama.cppでKARAKURI LMを試してみる

巷で話題の700億パラメーターLLM「KARAKURI LM」の量子化モデルを試してみます。

追記 - 2024/2/3 15:40
毒性(toxicity)パラメータを0にする方法を「推論時のパラメータ」節に追記しています。

追記 - 2024/2/3 12:30
カラクリの中の方からコメント頂きました。ありがとうございます。
推論結果の質に記載した内容は、毒性バラメータの設定がされていない

もっとみる
Llama.cpp で Karakuri LM を試す

Llama.cpp で Karakuri LM を試す

「Llama.cpp」で「Karakuri LM」を試したので、まとめました。

1. Karakuri LM「Karakuri LM」は、カスタマーサポートDXを推進するカラクリ株式会社が開発したLlama2ベースの70Bの日本語LLMです。「Japanese MT-Bench」の性能評価において、2024年1月26日時点で国産LLMモデルとして最高性能を達成しています。

2. Karakur

もっとみる
ChatGPT はどんな性格?PsychoBench を使った LLM の心理描写のベンチマーク

ChatGPT はどんな性格?PsychoBench を使った LLM の心理描写のベンチマーク

こんにちは、PKSHA Technology の AI Solution 事業本部にてシニアアルゴリズムリードを務めている渡邉です。近年、大規模言語モデル(LLM)をはじめとする人工知能技術が革新的な進化を遂げており、当該領域に対する世の中の関心が非常に高まっています。弊社は創業以来、人工知能技術の研究開発・社会実装を通じて様々な知識を蓄積してきました。その知識を皆様に共有し共に成長していく場とし

もっとみる
今更聞けないLLM解説まとめ②LLMの活用法

今更聞けないLLM解説まとめ②LLMの活用法


始めにどうも、それなニキです。
三日坊主ではいられないので今日も続けて書いていきます。
長すぎて1日では書けませんでした。ぐぬぬ。

今回は松尾研の第二回の講義の要約になります。
相も変わらず自分の脳内整理メモなので、読みづらかったらすみません。

今回は学習済みモデルの活用方法です。
多分この分野の研究をしない一般の方々にとっては一番重要なセクターになるんじゃないかなぁと思います。

1.学習

もっとみる
Gemini の情報源まとめ

Gemini の情報源まとめ

「Gemini」の情報源をまとめました。

1. Gemini「Gemini」(ジェミニ) は、「Google DeepMind」が開発した大規模言語モデルです。テキスト、画像、オーディオ、動画、コードをシームレスに推論できるマルチモダリティ向けにゼロから構築されています。

2. Geminiのモデル一覧「Gemini」は用途別にモデルが提供されています。

2-1. Gemini 1.5 Fl

もっとみる
既存日本語LLMをBitNetで置き換えて実行してみた

既存日本語LLMをBitNetで置き換えて実行してみた

はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。
簡単な概要としては、

既存のLLMが1パラメータをFP16やBF16などのfloat型で扱っているものを、1パラメータで{-1, 0, 1}しか扱わない様にした。

計算に使う情報量を削ることで、処理速度の向上、メモリの節約が叶う。

3B params以上ではベンチマークスコアの平均で同サイズのLlamaを上回る結

もっとみる
LLMによる疑似学習データ生成

LLMによる疑似学習データ生成

はじめに横浜国立大学大学院 理工学府 修士2年の藤井巧朗です。8月から株式会社レトリバにインターンとして参加させていただいております。インターンでの成果の第一段として記事「日本語LLMの推論速度検証」を書かせていただきましたので、そちらもよろしければご覧ください。本記事ではインターンでの成果の第二段として「LLMによる疑似学習データ生成」について紹介します。本記事の内容は言語処理学会第30回年次大

もっとみる
混合混触危険性を大規模言語モデルで予測する:はじめに

混合混触危険性を大規模言語モデルで予測する:はじめに


1.混合混触危険性とは

突然ですが、もしもあなたの知り合いに、化学業界というヤクザな分野に足を踏み入れている奇特な方がいたら、2次会の終わり、なるべく夜更けごろを狙って「混合混触危険性…って知ってるかい?」と尋ねてみてください。相手はきっと、アリバイを聞かれた犯人のような顔をするか、タチの悪い顧客の相手を年中させられているコールセンター勤務員のような目でこちらを見やるか、はたまたマジで知らない

もっとみる
驚異の1ビットLLMを試す。果たして本当に学習できるのか?

驚異の1ビットLLMを試す。果たして本当に学習できるのか?

昨日話題になった「BitNet」という1ビットで推論するLLMがどうしても試したくなったので早速試してみた。

BitNetというのは、1ビット(-1,0,1の三状態を持つ)まで情報を削ぎ落とすことで高速に推論するというアルゴリズム。だから正確には0か1かではなく、-1か0か1ということ。

この手法の行き着くところは、GPUが不要になり新しいハードウェアが出現する世界であると予言されている。マジ

もっとみる
μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

最近、友人から大規模モデルの学習を劇的に効率化しそうな下記の事実(μTransfer)を教えてもらい、こんなことが成り立つことに非常に驚くとともに、それを知らなかったことにちょっとしたショックを受けました。

ここで出てくる μP(Maximal Update Parametrization)というのは、 Tensor Programs (TP)というフレームワークにおいて理論的に導出されたパラメ

もっとみる
Google Colabでの日本語Mambaの事前学習

Google Colabでの日本語Mambaの事前学習

はじめに昨年(2023年)末にMambaアーキテクチャが公開されました。
MambaはS4などと同様の状態空間モデルというもので、Transformerと比べて、

高速な推論

シーケンス長が伸びた際のメモリ効率の良さ

単純なモデル性能の良さ

で優れている様です。
日本語モデルがないので、日本語Mambaの事前学習のコードを作成しました。Google colabで動くことは確認したもののA1

もっとみる