見出し画像

初心者必見! 「いまさら聞けない生成AI入門。基礎から応用までをご説明」

まいどです。
今回は久々にニュース以外の記事を致します。
生成AIのニュースをやっていると、自分は漬かってしまって詳しくはなっていくのですが、まだ「生成AI」を何となくしか知らない方もいらっしゃるので、このような記事をお書きします。
尚、基礎的な事が多いので、知ってる方は読む必要はないかと。
ただ、そういう方でも、もしも生成AIを誰かに教える機会がある人などは、改めてどういう事なのか知っておくと良いかと思います。


近年、テレビやインターネットで「生成AI」という言葉を耳にする機会が増えてきました。ただ、現在でも「生成AIって何だろう?」と疑問を抱かれる方もまだいらっしゃるかもしれません。しかし、生成AIの普及は止まりませんし、技術の進歩は日進月歩で進んでおり、次々に新しい生成AI関連の情報が出てきています。「何が何やら……?」という方に向けて、改めて生成AIとはなんぞや、と言う事をこの記事で書いていこうと思います。

簡潔に言えば、生成AIとは、AI(人工知能)が新しいコンテンツを生み出すための技術なのですが、この記事では、生成AIの基礎から応用、さらにはローカル型とクラウドサービス型の違いについても詳しく解説していきます。




生成AIとは何か?

生成AI(ジェネレーティブAI)は、人工知能(AI)が過去に蓄積されたデータをもとに、新しい情報を創出するための技術です。
この技術により、コンピュータは多様なコンテンツを自発的に生み出すことが可能です。生成AIはまず、何百万もの文章や絵画、楽曲、映像といったデータを取り込むことで、その中に含まれるパターンや特徴を解析し、本質的な構造を理解します。
それを基に、AIは過去のデータを単に再現するのではなく、理解したパターンを応用して、これまでになかった全く新しい内容を生成します。
たとえば、特定の小説のスタイルを学習したAIは新たなストーリーを展開することができます。この技術は、自然な文章を生成してニュース記事や創作小説の執筆を支援する文章生成、指定されたテーマに基づいて画像を創り出す画像生成、幅広い音楽データから新たな楽曲を作る音楽生成、映画やアニメーションから学んで新しい映像シーンを構築する動画生成など、多岐にわたるコンテンツ形式に応用されます。
生成AIはこのように人間の創造性を補完し支援する力を持ち、無限の可能性を秘め、これからのデジタルコンテンツ制作の方法に変革をもたらす可能性を秘めています。


生成AIの基本的な仕組み

生成AIは以下のステップで機能し、ユーザーは難しいプログラミングの知識は必要ありません。
重要ポイント
但し、一般的なユーザーは以下のステップのうち、3と5を行っているだけであり、他の項目は基本的に大手テック企業や研究者が行っています。詳細は項目の後に記載します。

1. ディープラーニングによる学習

ディープラーニングは、生成AIの基盤となる技術で、ニューラルネットワークと呼ばれる数学的モデルを活用してデータから学習します。

  • ニューラルネットワーク: ニューラルネットワークは、大量のデータを処理するために、多層の「層(レイヤー)」から構成されています。各層では、データの特徴を抽出し、それを次の層に伝える役割を担います。

  • 学習プロセス: ディープラーニングでは、モデルに大量の入力データを与えて、出力がどれだけ正確かを測定し、その結果に基づいてモデルの内部パラメータ(重み)を調整します。これを何度も反復することで、モデルはデータのパターンを学習し、精度を向上させていきます。

  • 生成AIにおける応用: 文章生成AIの場合、ディープラーニングによって、AIはどのように言葉を組み合わせれば意味のある文章になるのかを理解します。この技術は、画像生成や音楽生成にも応用されており、それぞれのコンテンツ特有のパターンを見つけ出します。

問題点

  • データの偏り(バイアス): 学習に使用するデータセットが偏っていると、生成AIモデルも偏った結果を出力することがあります。これは、特定の文化や視点のみを反映するような学習がなされるリスクを伴います。

  • 計算資源の消費: ディープラーニングの学習は、大量の計算リソースを必要とし、専用のハードウェアや高性能なGPUを用いることが一般的です。これにより、環境負荷やコストが問題となる場合があります。

  • 学習元の許諾: 現在、生成AIを巡る論争で最も問題視されているのがここになります。ディープラーニングに用いるデータが合法的に取得されたものであるか、また著作権の保護下にあるかどうかの確認が必要です。未許諾のデータを学習に利用することは、著作権侵害の問題を引き起こし、法的なリスクを伴う可能性があります。しかし現在多くの地域で、機械学習にデータを用いることそのものは一般的に問題とされていません。アメリカでは、データのフェアユース(公正使用)と見なされることがあり、学問的または研究的目的での利用は一部免除されることがあります。日本の著作権法では、著作物を学習データとして使用する際の規定が明確に存在します。「著作物を著作権者の許可なくコンピュータに取り込み、その内容を分析することができる」という点で、特に研究開発や学術目的での使用については、許諾なしでも使用が認められています。EUでは、データの使用に対する規制がより厳格であったりと、国ごとで微妙な違いがあります。現在、生成AIに対し疑問を呈する方の多くが、この学習元となったデータに対しての問題を挙げています。「無断でデータを使用された」という事で問題視する方もいますが、現行法では上述の通り、違法とはされていません。しかし、今後この事に対しての新しい法案が出来たりする可能性も確かにあります。ただ、現状ではそういった動きは各国政府では行われおらず、生成AIの使用に疑問を呈する声がある中で、無断で使用されたデータの扱いについての裁判も発生しましたが、司法判断では許容された側面があり、原告の主張が認められませんでした。つまり、司法判断においても、機械学習にデータを用いることは問題ないと認められた形です。

※フェアユースは「著作権保護のもとでも公共の利益のために著作物を使用することが許可される法律の仕組み」です。

2. データセット

データセットは、生成AIが学ぶための素材であり、その質や多様性がAIの能力を左右します。

  • 構成: データセットにはテキストデータ、画像データ、音楽データなどが含まれ、それぞれが生成されるコンテンツの基本的な情報とパターンを提供します。

  • 収集と選定: データセットの構築では、どのような情報を含めるか、どのようにバランスをとるかが重要です。このプロセスは、AIの学習結果に直接影響を与えるため、慎重に行われなければなりません。

  • 利用可能なデータセット: リサーチコミュニティや企業によって、自然言語処理や画像認識などの分野で汎用的なデータセットが公開されており、生成AIの開発に使用されています。

問題点

  • プライバシーと権利: データセットには個人情報や著作権が含まれることがあり、それを使用する際にはプライバシー保護及び法的権利を十分に考慮する必要があります。

  • データ品質: データの質やフォーマットが不適切だと、AIのパフォーマンスが低下する可能性があります。データが十分にクリーンであること、そして学習に適していることが求められます。

以上のように、ディープラーニングによる学習とデータセットの構築は、生成AIの能力に直接的な影響を及ぼします。これらを理解し、適切に利用することで、より強力で公平なAIシステムを開発することが可能になります。

3. 入力(プロンプト)

生成AIを活用する第一歩は、「プロンプト(呪文)」と呼ばれる明確な指示をAIに与えることです。プロンプトとは、AIに具体的に何を生成してほしいのかを伝えるための情報で、生成される結果の品質や方向性を大きく左右します。

  • プロンプトの役割: プロンプトはAIの作業の基礎となり、どの方向で新しいコンテンツを創り出すかのカギとなります。例えば、「未来の都市の描写をお願い」という指示は、AIに対して未来的なビジュアルスタイルや構造を考慮するよう促します。

  • 具体性と明確性: より具体的で明確なプロンプトを与えることで、AIはよりユーザーの期待に即した結果を生成します。漠然とした指示よりも、詳細な情報を含めることで、出力がユーザーの希望にかなったものになる可能性が高まります。

  • プロンプト工夫の重要性: プロンプトの内容を微調整することで、異なるバリエーションの出力を試すことが可能です。これにより、より多様なアイデアを模索でき、創造的な制約を克服する手段としても有効です。

4. モデルの推論と生成

プロンプトを受け取ったAIは、これまで学習したデータのパターンを参考にして、指示に応じた新しい情報を生み出します。この過程を「推論」と呼びます。

  • 推論のメカニズム: 推論は、AIの持つニューラルネットワークが過去に学習した情報を使って、そのパターンをもとに現時点で適切な出力を導くプロセスです。例えば、小説の登場人物の行動を考える際、AIは過去の文学作品から学んだパターンを参照します。

  • 創造的なストーリー展開: 特に文章や物語の生成では、登場人物の設定や物語の進行をAIが自動的にデザインします。AIはキャラクターの性格や特徴、ストーリーの起承転結を考慮しながら展開を構築します。

  • 推論結果の再利用性: 推論によって生成された中間結果は、さらなる改善や修正を通じて次の生成に活用され、多層的なコンテンツ作成に役立ちます。

5. 出力(生成結果)

推論プロセスを経たAIは、最終的な成果として「生成結果」を出力します。これは、ユーザーが望んだコンテンツとして提供されます。

  • 多様な形式: 出力は、テキスト、画像、音楽、動画などさまざまな形式になり得ます。例えば、AIに物語を作らせた場合はテキストが、アート作品を作らせた場合は画像が出力されます。

  • 検証と改善: 出力された結果は、ユーザーが意図したものと照らし合わせて、必要に応じてフィードバックをもとにプロンプトを調整し再生成を行うことができます。これにより、結果の品質を向上させることが可能です。

  • 実用と公開: 最終的な出力は、個人的な楽しみや業務上の用途のみならず、広く公開されるコンテンツとして活用されることもあり、その有用性は非常に高いです。

これで、生成AIのプロセスにおけるプロンプト、推論、出力の各ステップについての理解が深まったかと思います。これらの要素を意識的に操作することで、理想的なAI生成コンテンツを実現することができます。


一般的な生成AIユーザーが行っている事


さて、理解が深まったところで、先述した「一般的なユーザーは以下のステップのうち、3と5を行っているだけであり、他の項目は基本的に大手テック企業や研究者が行っています」という事に触れていきます。
基本的に一般的なユーザーは「3のプロンプトの入力」と「5の生成結果の選定」を行っているだけです。

これは何故か、と言いますと、後述しますが生成AIにはローカル運用とクラウド運用の二種類があります。そして、ほとんどのユーザーはクラウド運用をしています。クラウド運用では1の学習、2のデータセットに関してはクラウドサービス側が準備しているので、ユーザーは触ることをしませんし、出来るような機能を搭載しているサービスもほぼありません。

そして4はシステム的な事なので、内部でそういう処理がされている、と言うだけで、ユーザーが触るところではありません。その為、クラウドサービスのユーザーは基本的に「プロンプトを入れて出力しているだけ」であり、学習やデータセットに関してはユーザー側でどうこうする部分ではないのです。そしてローカルの物であれば「データセットの追加学習」が出来る場合があるのですが、それも「大本となる既に学習されたデータセット」がなければ追加学習も出来ません。この「大元となるデータセット」を作るには、スパコン並みの高スペックマシンを必要とし、それを作る為の研究者並みの知識が必要となります。
その為、一般の人や普通の企業でも作成はほぼ不可能であり、元からあるデータセットをチューニングしたり追加学習させたりすることによって、最終的な生成物に変化を与えています。

しかし、この追加学習やチューニングにもかなりの高スペックマシンとそれに準ずる専門知識が必要な為、一般的なユーザーはローカル運用であっても、結果的には「プロンプトを入れて出力結果を選定する」という二つのことしかやっていないことが多いです。
「学習」において法的に問題とされない理由もここにあります。一般的にこの大元になるデータセットの学習を行っているのは「研究者たち」であり、「研究目的」で行っています。一方で「プロンプトの入力」や「生成結果の選定」は一般ユーザーなどが行っています。この事からも、「学習」や「データセット」のインプットと、「プロンプト入力」や「生成結果の選定」などのアウトプットは、別である、として取り扱われています。

具体例を挙げますと、例えば米テクノロジー会社である「X Corp」が運営するSNSサービスの「X」の生成AI機能「Grok」です。
こちらは文章生成機能と画像生成機能がありますが、文章生成の「学習」は「X Corp」で行われており、独自のデータセットを運用していますが、画像生成に関しては「Black Forest Labs」という別の会社の研究者たちが開発した「Flux」というデータセットモデルが使われおり、「学習」は「Black Forest Labs」で行っています。
尚、「X」の文章学習には「X」でポストされた文章が使われていますが、これは利用規約にも記載されており、「X」を使う場合、「そのポストを機械学習することがありますよ」という規約があります。
そしてこれに同意しないと「X」を使えないので、「Grok」のデータセットは全て同意を得た物で「学習」されており、著作権的にも問題ないですよ、という事になる訳です。
そして、この学習やデータセットに関しては、ユーザーは触ることもチューニングすることも出来ません。
つまりユーザーは「Grok」という生成AIでは「プロンプトを入れて出力する事」だけしか出来ないわけです。


生成AIに関連する技術

生成AIを支える技術を詳しく見ていきましょう。

1. LLM(Large Language Model)

LLMは大規模な言語モデルで、膨大なテキストデータから学習し、自然な文章を生成する能力があります。例えば、OpenAIの「GPTシリーズ」、Googleの「Gemini」、Microsoftの「Copilot」などが挙げられ、自然な会話や文章の生成、質問応答に使用されます。

2. チャットボット

チャットボットはユーザーとの会話を目的に設計されたプログラムです。生成AIの進化により、これまでのルールベースを超え、より自然な会話が可能になっています。LLMを活用して、カスタマーサービスや個人アシスタントなどで多様に活用されています。

3. 画像生成

画像生成技術は、テキストまたは特定の条件に基づいて画像を生成します。「Stable Diffusion」や「DALL-E」、「Firefly」などがあります。ユーザーが入力した言葉に応じて、AIがそれに沿った画像を生成できます。芸術作品の制作や広告デザインで幅広く応用されています。

4. 動画生成

動画生成技術では、AIが動画内容を自動生成します。ゲームや映画制作において、シーンやキャラクターの動きを生成し、リアルな映像制作を容易にし、制作効率の向上にも貢献しています。Runwayの「Gen」シリーズ、 Luma Labsの「Dream Machine」、「Pika」などがあります。

5. 音楽生成

音楽生成AIは、メロディー、リズム、そして歌詞を自動生成します。ユーザーが選んだジャンルやスタイルに従い楽曲を生成するため、アーティストやクリエイターのインスピレーションの根源として役立ちます。「Udio AI」、「Suno AI」「SOUNDRAW」等が有名です。


ローカル型とクラウドサービス型

生成AIを利用する方法には「ローカル型」と「クラウドサービス型」があります。

ローカル型

ローカル型では、生成AIを自分のコンピュータ内で実行します。

  • ローカルLLM: ローカルで大規模言語モデルを動かし、データのプライバシー管理が行いやすいです。

  • Stable Diffusion web UI A1111: 自分のPCで動作する画像生成ツールであり、カスタマイズが可能です。

ローカル型の利点は、常時インターネットに接続しなくても使用可能な点と、データプライバシーを保持できることです。また、基本的にオープンソースの物が多い為、無料で使用できることも大きいです。ただし、それを動かせるだけのパワーのあるマシンや、技術的な設定の知識が求められる場合があります。

オープンソースとは何か?

オープンソースとは、誰もが自由にソースコードを閲覧、修正、共有できるように公開されているソフトウェアのことを指します。このコンセプトは、それぞれが協力し合い、技術の改善やイノベーションを進めることを目的としています。

  • 自由なアクセスと共同作業: オープンソースソフトウェアは、通常、オンラインで無料で入手可能であり、開発者のコミュニティによって継続的に改善されています。誰でも利用、改良、再配布できるため、多様なアイデアとフィードバックが集約され、ソフトウェアの品質向上につながります。

  • 開発者への利益: 開発者はオープンソースを利用することで、すでに存在するソリューションを基に自身のプロジェクトを簡素化することができます。また、コミュニティからの貢献を受けられるため、個人または小規模チームでも大規模なプロジェクトに取り組むことが可能になります。

  • セキュリティと透明性: ソースコードが公開されているため、セキュリティの専門家や他の開発者がコードを検査し、脆弱性を特定しやすくなります。これにより、問題の早期発見と修正が可能となり、ソフトウェアの透明性と信頼性が向上します。

  • 実例: 多くの人気のある技術やプラットフォームがオープンソースです。たとえば、LinuxオペレーティングシステムやウェブブラウザのFirefox、データベース管理システムのMySQL、そして多くのプログラミングフレームワークやライブラリがあります。また、AIの分野ではTensorFlowやPyTorchといったフレームワークがオープンソースとして提供されています。

オープンソースは、技術的な進歩を加速し、新しい発想を共有するための基盤としての役割を果たしています。この仕組みを活用することで、開発者やビジネスがより効率的に、そしてクリエイティブに問題解決を行える環境が整えられています。

この説明により、オープンソースの基本概念とその利点が理解できるでしょう。生成AIの文脈においても、オープンソースのAIツールやモデルは広く用いられ、研究開発や業務応用に大きな影響を及ぼしています。

クラウドサービス型

クラウドサービス型は、インターネット経由で提供される生成AIサービスです。

  • CHATGPT: OpenAIが提供する対話型AIで、自然な会話が可能です。

  • DALL-E: テキストから画像を生成し、ユーザー指示に応じたビジュアルを提供します。

クラウド型は、最新のAI技術にアクセスでき、常時更新される高性能モデルを利用できる利点があります。セットアップが不要で、高性能な端末でなくとも、インターネットにさえ繋がれば使えるものも多くあり、手軽に始められることも魅力的です。しかし、プライバシー考慮が必要です。また、月額料金などが必要な物も多くあります。
例:googleの生成AIサービス「Gemini」は無料でも使えますが性能は低いです。高性能で画像生成AIも使用できる有料版は、月額2900円(2024年10月)です。


実際に生成AIを使ってみよう

初心者でも試しやすい実践例を紹介します。

テキスト(文章)の生成

  • ステップ1:ウェブサイトを開きます。

  • ステップ2:お題やキーワードを入力します。例:「夏休みのおすすめスポット」

  • ステップ3:生成ボタンをクリックします。

  • ステップ4:AIが作成した文章が表示されます。

画像生成の試用

  • ステップ1:画像生成ツールのサイトを開きます。

  • ステップ2:簡単な説明文を入力します。例:「猫がピクニックしている絵」

  • ステップ3:生成ボタンを押すと、AIが画像を作成します。

生成AIの応用

生成AIは個人の楽しみだけでなく、ビジネスにも大きな可能性を秘めています。特にマーケティングやデザイン分野での威力は絶大です。

マーケティング

企業は生成AIを用いて商品説明や広告を自動生成し、プロモーションを効率化しています。AIが顧客データを基に最適な言葉を選ぶことで、購買意欲を引き出すコンテンツを作成します。

デザイン

デザイン分野では、生成AIがロゴや製品デザインのアイデアを提供します。デザイナーはAIが提案するコンセプトを基に新しいデザインを生み出すことが可能です。


まとめ

生成AIはディープラーニング技術を駆使し、人間のクリエイティブプロセスを補完します。初心者でも簡単に体験できるツールが多く揃っているため、実際に触れてみて新たなインスピレーションを得てみてください。ローカル型とクラウドサービス型のいずれが自分に合っているかを理解し、生成AIを活用して新しい可能性を切り開いてください。


用語集

生成AI(Generative AI)
人工知能の一種で、過去に蓄積されたデータを基に、新しいコンテンツを創出する技術。文章、画像、音楽、動画といった多様な形式でコンテンツを生成することができる。

ディープラーニング(Deep Learning)
ニューラルネットワークを活用し、大量のデータを基にパターンを学習する技術。生成AIの基盤として広く採用され、データ解析能力の向上に寄与している。生成AIの中心的な技術であり、人間の脳の働きに触発されたモデルを使って、大量のデータからパターンを学習するアルゴリズム。これによって、AIはデータの複雑な構造を理解し、新しい情報を生成する能力を持つ。

ニューラルネットワーク
ディープラーニングの骨格をなす数学的モデルで、人間の脳神経回路を模倣した層を持ち、データの特徴を抽出・処理する役割を担う。

プロンプト(Prompt)
AIに具体的な指示を与えるための情報。生成されるコンテンツの品質や方向を左右し、内容を決定づける基礎となる。別名「呪文」。

推論(Inference)
AIが学習したデータパターンを基に、新しい情報を生成するプロセス。この過程によりAIはユーザーからのプロンプトに応じたアウトプットを提供する。

出力(Output)
生成AIがプロンプトや推論をもとにして生み出した最終的な成果物。テキスト、画像、音楽、動画など、さまざまな形式で提供される。

LLM(Large Language Model)
大規模なデータセットを用いて学習し、高度な自然言語処理を行うためのAIモデル。自然言語の生成や解釈を支援する。代表例として、GPTシリーズがある。

オープンソース(Open Source)
ソフトウェアのソースコードが公開され、誰でも自由に閲覧、改良、共有が可能なライセンス形態。技術の改善やイノベーションを促進する。

フェアユース(Fair Use)
著作権保護の下でも、教育や研究の目的での使用を認める法律の規定。許可なしで著作物を利用することを一部免除する仕組み(主にアメリカで採用)。

クラウドサービス型
インターネットを通じて提供される生成AIサービスで、特別なハードウェアがなくても利用可能。データがオンライン上に保存され、アクセスや計算がクラウド上で行われる。

ローカル型
ユーザーのPCやローカルサーバー上で生成AIを実行する形式。データプライバシーが守られ、オフラインでも利用可能だが、動作には高性能のハードウェアが必要。


更に具体的に知りたい方へ


これで、大まかな生成AIの知識は出来たかと思います。
では、実際に、これはどこで、どんな風に使われているのか?
時々「X」などで生成AIを使った事に対して批判的(抑えめに言って)な意見を見ますが、実際は気が付いていない物も意外と多くあったりします(Xでも話題になったりしてないです)。
で、それをまとめた記事が以下になります。
ちょっと古いですが、未だに意外と知られていないですし、炎上騒ぎもありません。
まぁ、こういうもので生成AIを使っている、と公表してないですし、気が付かれてもいないですし、知ろうともされてないようなのですが、そう言うネットで調べても出てこない事も書いているので(調べて出てくるのも入ってますが)、ちょっと高めの有料記事になっています。
ご興味があればどうぞ。

それでは、また。


この記事が気に入ったらサポートをしてみませんか?