マガジンのカバー画像

LLM

336
運営しているクリエイター

#モデル

Reflection Llama-3.1 70B を試す

Reflection Llama-3.1 70B を試す

tl;drReflection Llama-3.1 70B  がオープン LLM の中で世界最高性能を謳う

Llama 3.1 70B を Reflection-Tuning を用いて事後学習

<output> / <thinking> / (reflection) などのタグを用いて推論

Ollama を使って推論させてみる

Reflection Llama-3.1 70B とはHype

もっとみる
日本語の高性能な文埋め込みモデルを試す

日本語の高性能な文埋め込みモデルを試す

tl;drPKSHA Technologies の矢野さんから GLuCoSE v2 とRoSEtta が公開

名古屋大学の塚越さんから Ruri が公開(合わせて Reranker も)

モデルを動かすサンプルコードの実行手順とそれぞれのモデルを試せるデモアプリケーションを本記事最下部に記載、公開

使用するモデル我流で紹介するより引用の方がわかりやすいので引用させてください。いずれのモデル

もっとみる
モデルマージングの最新動向:大規模言語モデルの融合技術の全貌

モデルマージングの最新動向:大規模言語モデルの融合技術の全貌

モデルマージングは、複数の異なる機械学習モデルを融合し、より汎用的で強力なモデルを構築するための技術として注目されています。この手法は、特に大規模言語モデル(LLM)やマルチモーダル大規模言語モデル(MLLM)において、計算資源を節約しつつも性能を向上させるために広く応用されています。本記事では、モデルマージングに関する最新の研究を詳細に紹介し、技術的な方法論や応用例を網羅的に解説します。

論文

もっとみる
手書き化学構造認識モデルDECIMER V2を解説&動かしてみた

手書き化学構造認識モデルDECIMER V2を解説&動かしてみた

PDFの中に埋もれている化学構造をSMILESなどのコンピュータが扱える形にしたいと思ったことはありますか?

最近だと化学構造を手書きで描いた画像をChatGPTでSMILESに変換させてみようとしましたが、うまくいきませんでした。
ベンゼンぐらいだったらうまくいくSMILESに変換してくれますが、カフェインぐらいになると無理です。

そこで見つけたのが、手書き化学構造認識モデルであるDECIM

もっとみる
Llama.cpp + WandBで始める日本語AI評価:Gemmaモデル(gemma-2-9b-it-Q4_K_M.gguf)のELYZA-tasks-100パフォーマンス分析

Llama.cpp + WandBで始める日本語AI評価:Gemmaモデル(gemma-2-9b-it-Q4_K_M.gguf)のELYZA-tasks-100パフォーマンス分析

はじめにこんにちは!この記事では、Google Colab上でGemmaモデル(gemma-2-9b-it-Q4_K_M.gguf)を使用して、ELYZA-tasks-100データセットの評価を行う方法をご紹介します。この記事は、大規模言語モデルの評価に興味がある初心者の方々向けに書かれています。
この記事を読むことで、以下のことが学べます:

llama.cppの環境構築方法

Gemmaモデル

もっとみる
Google ColabとUnslothを使ってLlama 3 (8B)をファインチューニングし、Ollamaにデプロイする方法

Google ColabとUnslothを使ってLlama 3 (8B)をファインチューニングし、Ollamaにデプロイする方法

このチュートリアルでは、UnslothとGoogle Colabを使って無料でLlama-3をファインチューニングし、独自のチャットボットを作成する方法を段階的に説明します。作成したチャットボットは、Ollamaを使ってローカルコンピュータ上か、Google Colabの無料GPUインスタンス上で実行できます。

完全なガイド(画像付き)はこちら: https://docs.unsloth.ai/

もっとみる
パラメータ効率が圧倒的に高いLLM学習手法ReFT(Representation Finetuning)を試してみた。

パラメータ効率が圧倒的に高いLLM学習手法ReFT(Representation Finetuning)を試してみた。

こんにちは!株式会社IZAI、エンジニアチームです。
今回は従来のLLMファインチューニング手法よりも10~50倍効率的とされているReFT(Representation Finetuning)を試してみます。
現論文はこちら

1. ReFTとはファインチューニング

ReFTとはRepresentation Finetuningの名前の通りファインチューニングにおける学習法です。今回紹介する手

もっとみる
GPT4 より性能がいいオープンソースのモデルについて

GPT4 より性能がいいオープンソースのモデルについて

少し前までは Open AI の GPT4 が支配してた感じがする LLM 界隈も、状況が完全に変わって様々な LLM が跳梁跋扈する戦国時代になっています。

ここではその中でもオープンソースの LLM をメインにして解説してみます

GPT4 よりいいと言われているモデル以下は GPT4 より性能がいいと言われているモデルです(指標によっては同等以上ということです、GPT4 のバージョンによっ

もっとみる
【論文瞬読】大規模言語モデルを特定ドメインに適応させる新手法RAFT

【論文瞬読】大規模言語モデルを特定ドメインに適応させる新手法RAFT

こんにちは!株式会社AI Nest です。
今日は、大規模言語モデル (LLM) を特定ドメインに適応させるための新しい学習レシピ「RAFT」について紹介します。

 RAFTとは?RAFT (Retrieval Augmented Fine Tuning) は、事前学習済みのLLMを特定ドメインのRetrieval Augmented Generation (RAG) タスクに適応させるための手

もっとみる
700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました


はじめにこの度 ELYZA は、新たに開発した700億パラメータの大規模言語モデル (LLM) である「ELYZA-japanese-Llama-2-70b」のデモを公開しました。「ELYZA-japanese-Llama-2-70b」は、前回までに引き続き、英語の言語能力に優れた Meta 社の「Llama 2」シリーズに日本語能力を拡張するプロジェクトの一環で得られた成果物です。

ELYZ

もっとみる
Google Colabでの日本語Mambaの事前学習

Google Colabでの日本語Mambaの事前学習

はじめに昨年(2023年)末にMambaアーキテクチャが公開されました。
MambaはS4などと同様の状態空間モデルというもので、Transformerと比べて、

高速な推論

シーケンス長が伸びた際のメモリ効率の良さ

単純なモデル性能の良さ

で優れている様です。
日本語モデルがないので、日本語Mambaの事前学習のコードを作成しました。Google colabで動くことは確認したもののA1

もっとみる

大規模言語モデルの設計について、scaling lawやアンサンブルをキーワードに考える勉強メモ


はじめに大規模言語モデルを作ろうと思った時に、どういう選択肢があるか、特徴や課題について調べたメモです。分野を網羅しているというわけでは全くありません。

どのモデルを使うべきか?学習を行う上で大切な指標の一つは、計算効率です*。
限られたリソース(FLOP数)で最大限の学習効果を得ることが目的です。
この観点から、本記事では様々なモデルの計算効率を見ていきます。

*計算効率以外にも、推論速度

もっとみる

自宅環境でLLMの環境を作ってみた

背景生成AIはChatGPTを使って、調べごとやお仕事で使っているが、一般公開できない内容をChatGPTでは書くことはできない。生成AIを組み込んで何かできないかのお勉強のため、自宅PCでLLMの環境を作れないかと考えてWeb上で調べていたところ、「LM Studio」というツールの存在を知った。それを使って、自宅PCでLLMの環境を作ってみたのでその手順を個人備忘録として記載。
※今回、初no

もっとみる
AIトレーニングに革命をもたらす:自己報酬型言語モデルの出現

AIトレーニングに革命をもたらす:自己報酬型言語モデルの出現

人工知能の世界において、超人的なエージェントを創造するという探求は、自己報酬型言語モデル(SR-LMs)という画期的なアプローチへと導かれています。この革新的なコンセプトは、MetaとNYUの研究者によって先導され、AIが学習と発展において人間の限界を超える未来を垣間見せてくれます。

論文:現在のトレーニング手法の限界:従来のトレーニング方法は人間の好みに基づく報酬モデルのトレーニングに依存して

もっとみる