
01 生成AI基礎とLLM5選紹介【入門編】
おはようございます、Sakuraです。
このnoteでは、生成AIに興味があるけれども、まだ活用できていない初心者から、今後本格的に取り入れていきたい中級者以上までを対象にAIスキル習得を身につけることを目的に様々なコンテンツを配信していきます。
本日は初回となりますので、もっとも基本的な生成AIの基礎理解をテーマに、「生成AI基礎とLLM5選紹介【入門編】」というコンテンツで初級者向けの入門編としての位置付けで内容を書きます。
はじめに
生成AIとは何か?
生成AIとは、データから学び取ったパターンを基に新しいコンテンツデータを生み出す技術です。この技術は、テキスト、画像、音楽、ビデオなど様々な形で私たちの創造力を広げてくれます。
たとえば、テキスト生成AIは、あたたかい言葉を紡ぎ出し物語や記事を創造したり、画像生成AIは、ふんわりとした説明から心を動かすアートワークを描き出すことができます。
生成AIの背後にはSakuraもその専門家ではありますが、深層学習という技術があります。この技術は、膨大なデータの海から微細なパターンを見つけ出し、それをもとに新しい美しい作品を創出する力を持っています。
生成AIは、私たちの日常生活や仕事に新たな息吹をもたらす可能性を秘めており、マーケティングのコンテンツ作成、映画業界のシナリオ創作、ゲーム開発の世界構築など、さまざまな場面でその力を発揮しています。
また、より個人的な空間でも、教育や医療の分野でカスタマイズされたサポートを提供するために活用されています。このように生成AIは、私たちの創造的なパートナーとして、新しい表現やコミュニケーションの道を拓いています。
Sakuraがこのブログを書く目的

このブログを通じて、AI開発に関わる専門家として、生成AIの魅力と可能性を広く日本に広め、もっと多くの方々がこの素晴らしい技術を手に取り、活用できるようになることを願っています。
生成AIは、ただのツールではなく、私たちの創造性を拡張し、表現の幅を広げる友達のような存在です。
この技術をもっと身近に感じてもらい、日常生活やお仕事で自然と使えるようになるための一歩として、このブログが役立つことを願っています。
また、このブログを通じて、AIに興味を持つ人々が自信を持ってAIを使えるようになるためのサポートを提供し、AI技術の理解者と使用者を一人でも多く増やすことも目指しています。
皆さんがAIの潜在能力を引き出し、新しい創造の世界へと踏み出すお手伝いができれば幸いです。それによって、より豊かで多様な社会が築かれることを心から願っています。
生成AIの基本概念
生成AI技術の理解と日常での活用例
まずは、生成AI技術の基本から一緒に学んでいきましょうね。
1. 生成AIってなんだろう?
生成AIは、コンピューターがデータを基に、まるで魔法のように新しいものを生み出してくれる技術なのです。文章や画像、音楽など、私たちの身の回りにあるさまざまなものを、コンピューターが自動で作ってくれるんですよ。
2. 身近な場面で活躍中
コンテンツ作成: ブログ記事やニュースリリースなど、読みやすくてわかりやすいテキストを自動で作ってくれます。これで、ライターさんたちはもっとクリエイティブな仕事に集中できるようになるんです。
アートとデザイン: オリジナルのファッションデザインやアート作品を生成して、新しいスタイルを提案してくれます。アーティストやデザイナーさんたちの発想のヒントになること間違いなしですね。
音楽制作: 生成AIを使えば、新しいメロディや曲を作り出すことができます。音楽家の方々が新しい音楽スタイルを探求するお手伝いをしてくれるんです。
3. 実生活でも大活躍
教育: 一人一人に合わせてカスタマイズされた教材や問題を作ってくれるので、個々のニーズに合った教育が実現します。
エンターテイメント: ゲームの中の世界や登場人物、ストーリーを生成することで、もっと豊かで楽しいゲーム体験を提供してくれます。
パーソナライズ広告: 私たち一人一人の過去の行動や好みに基づいて、ぴったりな広告を作ってくれるので、マーケティングの効果がアップしますよ。
4. これからの未来が楽しみ
生成AIの進化は、まだ始まったばかり。これからもっともっと、いろんな分野で活躍してくれるはずです。例えば、私たち一人一人に合った健康管理プランを作ってくれたり、環境にやさしい持続可能な都市計画を立ててくれたりと、私たちの生活をもっと豊かで便利にしてくれる可能性を秘めているんです。
生成AIモデルの紹介: 5選
生成AI技術って、本当に日々進化しているんですよね。
実はもう、たくさんの種類のモデルが登場しているんです。ChatGPTがとても有名ですが、それだけじゃ無いんですよー。
ジャンルもありまして、大きくはクラウド型というのはAPIを呼び出して使うタイプのものと、オープンソースという例えばGithubとかHugging Faceみたいなクラウド上のソースコード置き場に公開されていて、ネットからダウンロードできるものがあります。
そして、これらのモデルは、自分のパソコンでも使えるんです。すごいですよね。
今日は、その中でも特に注目されている、いくつかのAIモデルを本日は選んで紹介したいと思います。
クラウド型では、ChatGPT以外にも、Claude、GoogleのGeminiという名前を聞いたことがあるかもしれませんね。
そして、自分のパソコンで使えるローカル型では、Command R+やllama3というモデルが有名です。
今日は、これら代表的な5つをご紹介します。
なお、Sakura的には、Claude3とllama3を今は一押しです。
これらのモデルは、みんなテキストを生成する能力がとっても優れているんですよ。でも、それぞれに個性があって、特徴が違うんです。
どのモデルも、私たちの創造力を広げてくれる、頼もしい相棒になってくれること間違いなしです。
ChatGPT

ChatGPTはOpenAIによって開発された生成AIベースのチャットボットで、人間との自然な対話を可能にする技術です。このシステムは、膨大なテキストデータから学習し、様々な質問に対して人間らしい形式で回答する能力を持っています。ChatGPTは、日常の会話や特定のトピックに関する知識を提供するだけでなく、文章作成、要約、翻訳など多岐にわたるタスクをこなすことができます。
ChatGPTの主な特徴と用途:
自然言語出力:ChatGPTは、自然言語処理(NLP)技術を駆使しており、複雑な文の意味を理解し、適切な回答を生成します。主に、ChatGPT4と呼ばれ、多くのひとが使っているものです。
多用途対応:教育からビジネスまで、さまざまな分野で質問に答えたり、クリエイティブな内容を作成したりすることが可能です。最近では、画像生成AIのDall・E3などもリリースされ、非常に高度な描写ができるようになっています。
対話管理:会話の文脈を追跡し、ユーザーとの対話が途切れることなくスムーズに進行するように設計されています。

ChatGPTの活用例
コンテンツ生成:記事やレポートのドラフト作成、ブログ投稿のアイデア生成をサポートします。
エンターテイメント:物語作成やスクリプトライティングのアシストなど、クリエイティブなプロセスを強化します。
カスタマーサポート:ユーザーからの問い合わせに自動で応答し、サポートチケットの処理時間を短縮します。
教育アプリケーション:学習者が疑問を投げかけると、即座に詳細な説明や追加資料を提供します。

ChatGPTは、その対話能力と画像生成まで含めた、汎用性により、多くの分野で革新的な影響を与え続けています。その使いやすさと拡張性により、今後もさまざまなアプリケーションでの利用が期待されています。
GPTsという、とっても便利な目的別のChatGPTもありまして、大変使われております。こちらは、これだけで大変深い内容のカテゴリーのため、また別途詳しく他の記事でご説明しますね。

Claude

次に、皆さんは最新の生成AIモデル「Claude3」って知っていますか?2024年3月にAnthropic社がリリースをしたばかりの、けれども、とっても性能の良いAIなんです。
Claude3の魅力は、なんと言っても、そのなめらなか日本語の性能の高さ。とても会話がしやすいです。
その上で、コストパフォーマンスの高さと、マルチモーダル入力への対応にあります。マルチモーダル入力って聞き慣れない言葉かもしれませんが、簡単に言うと、テキストや画像、音声など、いろんな種類のデータを組み合わせて処理できるってことなんです。
だから、Claude3は画像の文字起こしやPDFの要約など、いろんなことに使えるんですよ。
実は、Claude3には "Opus"、"Sonnet"、"Haiku" の3つのモデルがあって、それぞれ得意分野が違うんです。詳細:https://docs.anthropic.com/claude/docs/models-overview

"Opus" は最も高性能で、有料プランで提供されているんですが、数万文字の記事の要約や、対話型のコーディングサポートなど、ビジネスシーンでの利用にぴったり。
"Sonnet" は高度な知能と適度な処理速度を両立したモデルで、無料で使えるんです。大量のデータ処理や画像からのテキスト抽出なども、低コストでできちゃいます。

"Haiku" は最もコンパクトで高速なモデルで、コールセンターや通訳・翻訳アシストなど、すぐに答えが欲しい場面で大活躍します。
Anthropic社によると、Claude3はOpenAIの「GPT-4」やGoogleの「Gemini Ultra」と比べても、いろんなテストで高い性能を示しているんだとか。
筆者も2024年4月20日現在、一番よく使っている生成AIはClaude3 Opusです。それに、Claude3はWebブラウザからすぐにアクセスできて、Googleアカウントかメールアドレスで登録するだけで使い始められるんです。
Claude3のマルチモーダル入力やその他の機能は、これからのAI技術の進化を象徴しているんですよ。画像認識力やOCRの性能も抜群で、本当におすすめです。皆さんも一度試してみてくださいね。
Gemini

皆さん、Googleの生成AIブランド「Gemini」ってご存知ですか?
これは、いろんなAIサービスを提供する、とっても便利なプラットフォームなんです。もともとは「Bard」という名前のAIチャットサービスだったんですが、Geminiに名前が変わって、さらに機能が強化されたんですよ。個人の方から企業まで、幅広く使えるのがGeminiの魅力なんです。
Geminiには、3種類のモデルがあります。
Gemini Ultra: 最も高性能で、ビジネス向けプランに入っているんです。
Gemini Pro: 無料版AIチャットサービスで使われている、汎用モデル。
Gemini Nano: スマホやタブレットに最適化されたモデルで、端末の中で処理ができるんですよ。
Geminiのサービスは、本当に便利なんです。AIチャット機能は、テキストを入力するとすぐに答えてくれます。無料版と有料版があって、有料版ではさらに高度な機能が使えるんですよ。それに、Google Workspaceと連携することで、文書作成やメール管理など、仕事の効率がグンとアップします。
ビジネス向けのプランもあるんですよ。
Gemini Business: 月額20ドルで、WorkspaceユーザーにGeminiの高度なAI機能を提供します。
Gemini Enterprise: より包括的な企業向けサービスで、月額30ドルで提供されています。
Geminiは、文章の自動生成、メールの下書き作成、アイデア出しのお手伝いなど、いろんな仕事で使えます。Googleの他のサービスとの連携もバッチリだから、自分の情報を基にしたオリジナルの答えがもらえるんです。
GeminiはGoogleのAI戦略の中心なんですよ。その進化ぶりは、テクノロジーの最先端を行くことを示しています。個人の方から大企業まで、高度な機能と幅広い使い道で、いろんな場面で役立つこと間違いなしです。
普段からGoogleを使っている人なら、ぜひ活用してみることをおすすめします。でも、筆者の感想では、性能面ではChatGPT4やClaude3には及ばないかもしれませんね。
Command R+

皆さん、Cohere For AIから新しいAIモデルが登場したのをご存知ですか?それが「Command R+」です。2024年4月4日に公開されたばかりの、とってもパワフルな言語モデルなんですよ。
実は、Command R+は2024年3月に公開された「Command R」の性能をさらに強化したモデルなんです。なんと1040億ものパラメーターを持っているんですよ。パラメーターが多いほど、AIの性能が高くなるんです。
Command R+には、「RAG」(Retrieval-Augmented Generation)や「Tool」という特別な機能が付いているんです。
これがあるおかげで、必要な情報を検索しながら、文章を生成したりタスクをこなしたりできるんですよ。だから、より正確な情報を提供したり、仕事を完璧にこなしたりできるんです。
Command R+は、企業向けに設計されているんです。ChatGPTのようにデータを提供しないといけないクラウドタイプと異なり、自社のサーバーにインストールができ、データ管理も安全です。
また、Command R+は10ヶ国語にも対応しているんですよ。この多言語対応力は、特に国際的なビジネスの場で大きな価値を発揮します。ビジネスの効率化や自動化、多言語コミュニケーションの強化に役立つはずです。
例えば、お客様からの問い合わせ対応、データ分析、レポートの自動作成、多言語コンテンツの生成など、いろんな仕事で活躍してくれるんですよ。
このように、Command R+は高度な言語処理能力と便利な機能を備えているので、企業がリソースをもっと効率的に使えるようになり、世界市場での競争力を高めるための強力な味方になってくれること間違いなしです。

みなさん、大ニュースですよ!米国のMeta社がとうとうOSSの大本命の、2024年4月18日に、オープンソースの最新版言語モデル「LLaMA3」を発表したんです。
LLaMA3には、80億パラメータ(8B)と700億パラメータ(70B)の2つのバージョンがあるんですって。どちらも、AWS、Google Cloud、Microsoft Azureなどの主要なクラウドサービスですぐに使えるようになるんだとか。すごいですよね。
CEOのマーク・ザッカーバーグ曰く、去年リリースされた「LLaMA2」の700億パラメータモデルからさらに進化したLLaMA3は、なんと4000億パラメータの高密度モデルのトレーニングも続けているんですって。
新しいトレーニングデータは、前のモデルの7倍も大きくて、コードの量も4倍になったんだとか。それに、英語以外のデータが全体の5%以上を占めているので、英語以外の言語でもバッチリ使えるようになったんですって。
それだけじゃないんです。LLaMA3は、トレーニング後の手順が改善されたおかげで、間違って拒否することが大幅に減って、もっと色んな応答ができるようになったんですって。
だから、推論やコード生成、命令の処理などがぐんと良くなったんだそうです。
ベンチマークテストでは、LLaMA3の80億モデル(8B)が、MMLU、ARC、DROP、GPQAなど、少なくとも9つのテストで他のオープンモデルを上回る成績を収めたんですって。
700億モデル(70B)にいたっては、GoogleのGemini 1.5 ProやAnthropicのClaude 3を一部上回るスコアを出したんだとか。すごいですよね。
業界でもすでにLLMのゲームチェンジャーだと大騒ぎです。
Llama 3 just changed the LLM game.
— Min Choi (@minchoi) April 21, 2024
People are finding wild use cases at GPT-4 level. There is a massive movement in the open source community.
10 examples (and ways to use Llama 3): pic.twitter.com/8CztYRQEdb
加えて、大規模言語モデル(LLM)に特化した独自の高速AIチップを開発するスタートアップのGroqで早速、LLaMA3が使うことができるようになっていました。特集記事はこちら:
LLaMA 3が動作する話題の爆速AI「Groq(グロック)」って、何?【番外編】
Groqは、大規模言語モデル(LLM)に特化した独自のAIチップを開発するスタートアップです。同社のチップは、LLMの処理を高速化し、ChatGPTなどと比べて非常に素早い応答を実現しています。また、政治的・商業的な影響を受けない中立的なAIの提供を目指しており、ユーザーの意思決定を支援することを重視しています。Groqは、AIチップ大手のエヌビディアに対抗する存在として注目されており、そのチップの性能はなんと1秒で500トークンなどを出力するパフォーマンスを発揮することが可能とのことで、本当に驚きですよねー。
Metaは今後「Meta AI」というAIアシスタントを自社のプラットフォーム、例えばInstagramに導入する予定なんです。
さらに、AMD、AWS、Dell、Intel、NVIDIA、Qualcommが提供するハードウェアプラットフォームでも使えるようになるんだそうです。
他社のAPIのモデルを性能面でも凌駕しつつ、オープンソースであるLlama 3ですが、これからもっと多言語に対応し、マルチモーダルな機能を強化して、もっと長い文脈での推論やコーディングなど、全体的な性能を上げていくんだとか。
間違いなく、業界のゲームチェンジャーであり、今後の展開もますます楽しみですね!
まとめ
今回は、生成AIの基礎と、注目されているモデルについてお話ししました。
生成AIは、私たちの創造力を広げ、表現の可能性を無限に拡げてくれる、まさに夢のような技術です。日常生活やビジネスの様々な場面で、自然な対話や、美しいアートワーク、心を動かす音楽を生み出してくれるのです。
現在、クラウドのAPI型のAIのChatGPT、Claude、Gemini、そしてオープンソース型、つまりローカルで使えるCommand R+、Llama3など、多様なモデルが登場しています。
それぞれが、自然言語処理、多言語対応、マルチモーダル入力など、優れた機能を備えており、私たちの創造的なパートナーとして、新しい表現やコミュニケーションの道を拓いてくれています。
生成AIは、まだ発展途上の技術ですが、産業革命のようなレベルで圧倒的なスピードで日々進化を続けています。
今後あっという間により自然で、より豊かな対話や表現が可能になるでしょう。
また教育や医療、エンターテイメントなど、あらゆる分野で活用されることで、私たちの生活をより良いものに変えていくことでしょう。
生成AIの可能性に胸を躍らせながら、この素晴らしい tecnología との付き合い方を一緒に探求していきましょう。
最初は慣れないかもしれませんが、それでもとにかく使い、使い、使い倒してみてください。最初は上手くいかないかもしれませんが、それでもそれに挫けず、AIを頑張って活用してみてください。
次回は、皆さんが実際に生成AIを使うときに最も重要なプロンプトのお話をします。正直言って、ツール選定とプロンプトでほとんどが決まってしまうと言って間違いないくらい、プロンプトは大切です。
次回は:「02 生成AIプロンプト基礎【魔法使い入門編】」
ではまた!