見出し画像

【生成AI入門】従来AIとの違い、4つの種類

皆さまこんにちは。2020年に新卒として株式会社コンピュータマネジメントに入社し、Webマーケティングを担当している入社4年目のMです。

以前の記事で、当社ではセキュリティに優れた「Azure OpenAI Service」を使い、生成AIを活用したインターンシップコンテンツの作成を進めているというお話をしました。

その取り組み状況について記載された社内資料の中で、当たり前のように「生成AI」という言葉が何度も使われていたのを見て、私は

「そもそも "生成AI" ってどういう意味だっけ?」
「 "生成AI" とは具体的に何を指しているんだろう?ChatGPT?」

と混乱してきたので、今回は「生成AI」について一度立ち止まって調べてみることにしました。


生成AIとは?

生成AIとは、「ジェネレーティブAI(Generative AI)」とも呼ばれるAI(人工知能)の一種であり、入力された指示にしたがって文章、画像、音楽などの新しいコンテンツを生成するAIのことです。

AIへ指示を入力するだけで様々なオリジナルコンテンツを簡単に生成できることから、近年では人間の仕事や作業をサポートするツールとして、日常生活やビジネスシーンにおいて幅広く活用されるようになってきています。

従来のAIとの違い

「従来のAI」と「生成AI」の決定的な違いは、一言で表すなら「AI自身が新しいコンテンツを生成できるか否か」です。

「従来のAI」は、人間が与えた大量の学習データをもとに結果を予測したり、あらかじめ決められた行為を自動的に行うことが主な役割でした。

一方で「生成AI」は、ディープラーニング(深層学習)によってAI自ら学習を重ね、人間が与えていない情報やデータさえもインプットし、新たなオリジナルコンテンツを生み出すことができます。

これまで人間にしかできないとされていた「0から1を生み出す」クリエイティブな行為を、AIで実現できるようになったのです。

・従来のAI
┗役割:学習したデータに基づく結果の予測、決められた行為の自動化
┗人間から与えられた大量の学習データの中から、適切な回答を探して提示する(AIが人間のようにクリエイティブな成果物を生み出すわけではない)

・生成AI
┗役割:オリジナルコンテンツの創造(0から1を生み出す作業)
┗既存の学習データ以外にも、ディープラーニングによってAI自身が学習を重ねることで、人間が与えていない情報やデータもインプットし、新しいコンテンツを生成する

生成AIの種類

生成AIには、「テキスト生成」「画像生成」「動画生成」「音声生成」など、いくつかの種類があります。

用途に応じてそれぞれの生成AIを使い分けることで、これまで人間の手で行っていた作業を大幅に効率化したり、自分1人では思いつかなかったアイデアを形にしたりできるようになります。

テキスト生成

テキスト生成AIでは、ユーザーがテキストボックスに質問や命令文(=プロンプト)を入力すると、AIがその内容を解析して、回答となるテキストを自動的に生成してくれます。
OpenAIの「ChatGPT」やMicrosoftの「Bing AIチャット」、Googleの「Bard」などがこれに該当します。

近年は、テキスト生成AIに使用されている言語モデル(例:ChatGPTで言う「GPT-3.5」や「GPT-4」)の進化により、ますます人間が書いたような自然で高精度な回答が返ってくるようになっています。

その汎用性と便利さから、長文の要約・キャッチコピーのアイデア創出・プログラムのコード生成やエラー修正など、今では多くの用途に利用されており、私たちの中で特に身近な生成AIと言ってもよいでしょう。

画像生成

画像生成AIでは、ユーザーがテキストで指示を入力すると、わずか数秒~数十秒程度で、イメージに近いオリジナル画像を自動で生成してくれます。

世界的に利用されている主要なサービスとしては、「Stable Diffusion」(ステーブルディフュージョン)や「Midjourney」(ミッドジャーニー)、「DALL・E2」(ダリ・ツー)などが知られています。

・Stable Diffusion
┗英国Stability AI社によって開発された画像生成AI。
┗生成したい画像のイメージを英語で入力すると、クオリティの高い画像を自動で生成してくれる。
┗拡張機能を使えば日本語化も可能。

・Midjourney
┗米国LeapMotion社の創業者であり、元NASAの研究者であるデビッド・ホルツ氏が代表を務めるAI研究チームが開発した画像生成AI。
┗アメリカ発のゲーマー向け無料チャットアプリ「Discord」(ディスコード)から利用できる。

・DALL・E2
┗2022年4月にOpenAI社がリリースした画像生成AI。
┗2023年9月には、DALL・E2の後継となる「DALL・E3」(ダリ・スリー)が発表された。2023年10月から、ChatGPTのPlusとEnterpriseの2つの有料プラン向けに提供が開始されるとのこと。
┗Microsoftの「Bing Image Creator」では、「DALL・E3」をいち早く体験できる。Bing AIチャットから誰でも気軽に無料で試せるのでおすすめ。

画像生成AIの活用により、Webサイト用の素材を簡単に作成してクリエイティブな作業にかかる時間を大幅に短縮できるほか、新しいアイデアやインスピレーションを得るためにも役立つことから、デザイン業界をはじめとした多くの業界で幅広い活用が期待されています。

動画生成

動画生成AIは、生成したい動画のイメージをテキストで入力すると、そのイメージに沿った短い動画を生成できるAIです。

開発の難易度が非常に高いと言われていますが、2023年3月にはアメリカのRunway社から「Gen-2」(ジェンツー)という動画生成AIが発表されており、かなりクオリティの高い映像を生成してくれると話題です。

現時点では数秒ほどの短い動画しか生成できないものの、技術が進歩すればもっと長い尺の動画を生成できるようになると考えられます。
プロモーションビデオの作成など、将来的には多岐にわたって応用できる可能性も秘めており、さらなる進化が期待されている生成AIです。

音声生成

音声生成AIは、音声またはテキスト入力によって、新しい音声データを自動で生成できるAIです。
ある1人の声を大量に学習させると、本人がその場にいなくても、その人の声質と全く同じ音声で、様々な文章を読み上げてもらうことができます。

例えば、Microsoftが開発した「VALL-E」(ヴァルイー)は、たった3秒分の音声サンプルを入力するだけで、本人そっくりの音声を忠実に再現することができます。

実際に本人の声を収録することなく、特定の人間の声を再現して任意のナレーションを自動的に生成できることから、メディア、エンターテイメント、教育など、多くの分野で活用が模索されています。

まとめ

今回は、近年ますます注目度が高まっている「生成AI」について、従来のAIとの違いや種類についてまとめてみました。

文字数の都合上、今回取り上げることのできなかった「生成AIのビジネス活用例」「生成AIを利用する際のリスク・注意点」については、また別記事でご紹介できればと思います。

↓ 続きができました!

それでは今回はこの辺で。次回のnoteもお楽しみに!
ここまで読んでいただき、ありがとうございました!


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?