【簡単】LLMを理解しよう〜AIに少し詳しくなりたい方へ〜
こんにちは、まさひろです。
本記事の目的は「LLMの説明」をあなたが出来るようになることです。
3分で読めます。
✔なぜこの記事を書くか?
「AIの時代が来る」この事実より僕が知りたいことは「目の前のタスクをAIがどのように効率化してくれるのか?」でした
しかし現実は違います。AIツールが無数に生まれる今「どのサービスを使うべきか分からない、、GPT-4は一応使っとくか」こんな感じです。
この「なんとなくな現状」を打破し、意味を持ってAIを使いこなす為に「そもそもAIとは何か、何ができるのか」を知る必要があると思ってます。なので、ChatGPTが動作する仕組み「LLM」を本記事で簡単に紹介します。
LLMとは?
「Large Language Model」の略。大量の書籍 / サイト / ニュース記事を学習し、テキスト生成、翻訳、要約が可能なモデルのことです。DALLE-3(画像生成モデル)とは別のモデルです。
LLMの3種類
以下の代表的な3種類のLLM名・会社名は頭にぶち込んだ方がいいです。通な人と話すとき役立ちます。ちなみに、ChatGPTはサービス名、GPT-4 Turbo with VisionはLLM名、gpt-4-turboはAPIの名前です。分かりずらいよね
GPT:OpenAI社
裏知識ですが、Microsoft社がOpenAIの株49%持ってるので、Bingブラウザのcopilot機能(無料)の厳密モード(GPT-4)を使えばGPT-4を無料で使えます🤩(MS社の人に直接教えて貰いました…)gpt-4-turbo:GPT-4 Turbo with Vision
gpt-3.5-turbo-instruct:GPT-3.5 Turbo Instruct
gpt-3.5-turbo:GPT 3.5 Turbo
Claude3:Anthropic社
claude-3-opus-20240229:Claude 3 Opus
claude-3-sonnet-20240229:Claude 3 Sonnet
claude-3-haiku-20240307:Claude 3 Haiku
Gemini:Google社
gemini-1.5-pro-latest:Gemini 1.5 Pro
gemini-pro:Gemini 1.0 Pro
gemini-pro-vision:Gemini 1.0 Pro Vision
特徴理解
GPT / Claude3 / Geminiの特徴を簡単に紹介します。
GPT
2024年5月時点で世界最高精度を誇るOpenAIのモデル。GPT-4に課金すると画像生成AIモデル(DALL-E 3:LLMとは別のモデル)も使える。個人感想:自然言語の出力速度 / 精度はClaude3-Opusには劣るが、それ以外の機能が強いイメージ(Excel / Wordファイルの入出力/ブラウジング機能など)Claude3
Anthropicの旗艦モデル。Chatbot Arenaの評価はGPT-4にやや劣るが、長文に対する理解力や日本語の理解などはGPT-4を超えている印象。その性能の高さゆえ、APIコストは非常に高い。。個人感想:Opusモデル(一番いいやつ)だと、出力速度 / 出力数共にGPT-4より早くて正確、GPT-4で3000文字で出力してと入力しても1000文字くらいになったりするが、Claude3-Opusはちゃんと出力してくれる。Gemini:ビデオとオーディオを含む多モーダル機能、高トークンカウント。Chatbot Arenaの評価はGPT-4やClaude 3 Opusに僅差で敗れているものの、100万トークン以上を扱えるのが圧倒的な強み。
利点理解
GPT系 (OpenAI社)
メリット
GPT-4 Turboはブラウジングにとにかく強く、Excel / Wordの入出力やコーディングなど幅広い用途で使うことができて便利。
文章生成、要約、質問への回答など、多様なテキストベースのタスクで効果的(FavTutor)。
デメリット
GPT-4は月額20ドル(2024年4月時点で約3180円)回数制限もある為、コスパ考慮する必要あり (Geeky Gadgets)。
テキスト生成速度 / 言語理解精度 / (画像入出力も?)はClaude3に劣る印象。
Claude3系 (Anthropic社)
メリット
Claude 3のOpusモデルは、テキスト生成速度 / 言語理解精度が神。個人的に、UIが最も良い(Geeky Gadgets)。
OCRや画像理解に関するタスクがめちゃくちゃ強い (TextCortex) (Geeky Gadgets)。
デメリット
APIのコスト高すぎ、Saasを展開する企業にとっては辛い。また、Opusモデルの使用はサブスクリプション必要(TextCortex)。
Excel / Wordの入出力 / ブラウジングできない為超最新情報は分からず..
長文のデータ処理や一部のプロンプト理解に課題を抱えることがある (Beebom) (TextCortex)。
Gemini系 (Google社)
メリット
Gemini 1.5 Proは、ビジュアルタスクとオーディオタスクの処理能力が非常に高く、多モーダル機能が充実している (Geeky Gadgets)。
特に画像と図表の解析に強く、ビジュアル情報の統合が得意 (TextCortex)。
デメリット
Claude 3と比較すると、理論的な推論やOCR能力で劣る場合あり (Geeky Gadgets)。
最先端モデルへのアクセスには追加のサブスクリプション料金がかかる (TextCortex)。
【上級者向け】LLMの仕組みは4段階
初めてLLMを知った方は一発で理解できたら天才です。
1. トレーニングデータ
LLMは大量のテキストデータを使用してトレーニングされます。このデータには、書籍、ウェブページ、ニュース記事などが含まれます。
2. トランスフォーマーアーキテクチャ
トランスフォーマーは、テキストを理解し生成するためのモデルの基盤です。自己注意機構を利用して、文中の単語間の関係を捉えます。
自己注意機構 (Self-Attention Mechanism)
単語が文脈の中でどのように相互作用するかを学習します。どの単語が関連が深いかを判断し、それに基づいて文の意味を把握します。フィードフォワードネットワーク
入力されたデータに対して、さらなる計算を行い、次の単語の予測に必要な情報を提供します。
3. プリトレーニングとファインチューニング
プリトレーニング
モデルは、特定のタスクに依存しない広範囲のテキストデータで初期トレーニングを受けます。ファインチューニング
特定の用途やタスクに合わせ、モデルをさらに調整します。これにより、特定の質問に答え、特定のスタイルでテキスト生成したりする能力が上がります。
4. 出力
トレーニングされたモデルは、入力されたプロンプトに基づいてテキストを生成します。この過程で、過去に学習したパターンやルールを使用して新しいテキストを作成します。
というわけで、以上です。LLMの進化を楽しみましょう!😌
この記事が気に入ったらサポートをしてみませんか?