2024年、生成AIコトハジメ 〜生成AI元年を振り返る〜
2024年、明けましておめでとうございます。
生成AIスタートアップAlgomaticを時代を代表する企業にするべく働いてる大田です。
本年もどうぞよろしくお願いいたします!
2023年開始時には生成AIについて何も知らなかったのに、1年でどっぷりはまり込んで、更には転職までして、そして未だに毎日wowなニュースに出会えて僥倖な日々です。
最近はLLMネイティブな体験設計に試行錯誤しておりまして・・・。
THE GUILDの深津さんはイベントでトイレ行くたびにトイレットペーパーが満載になっているような体験とおっしゃってました。それは一つの解と思いつつ、ユーザー目線ではまだそれは怖いパターンがあったり、そもそも全てをいきなり整えるのは難しいのでどこから始めるべきかなどなど・・
この話も自分の中で一定解が出たタイミングでnote化できればと思っているのですが、年内にはまとまらなかったのでまた春くらいに書ければと思います。
さて、本題なのですが、年末とあるきっかけで生成AIキャッチアップしたい人にAlgomaticメンバーイチオシのサービスや記事を紹介しようとなり、社内で募集した結果てとつもない量のコンテンツが集まりました。
また、日頃からrandomチャンネルで毎日のように新しいニュースのシェアとそれに対するリアクションが活発に交わされています。
この2つを整理して生成AIキャッチアップしたい向けのコンテンツを社内で作成したので、一部をnoteという形でも公開したいと思います。
※ もちろん全てを網羅できているわけではないですし、他にも面白いサービスはたくさん出ているはずです。自分で調べるのが一番です。
※ 生成AI初心者向けなのでわかりやすさ重視で一部厳密には正しくない表現をしている箇所があります。
※ 技術的なことよりも活用した事例やサービスにフォーカスしています。
今後は定期的に更新していければと思っておりまして、そのときにまたnote化できればと思っています(月一くらいを予定しています)
では、早速行ってみましょう!
これだけは見ておいて厳選5つ!
結構な分量になってしまったので、厳選した5つをまずご紹介します。
※無料で簡単に試せてwowが大きいという観点で選んでいます。
こういった事例に対する共有や考察が日々当たり前に行われているAlgomatic。
この記事でカバーできていないところも含めて少しでも興味ある方はカジュアルにお話ししましょう!
カジュアル面談はこちらから
2023年BigTech等のカンファレンス動画等
今年は様々なBigTechが生成AIへの取り組みを発表しました。
製品化されているものもデモ止まりなものもありますが、名だたる企業がイメージする生成AIの可能性を是非とも感じてください。
NVIDIA DeveloperのYoutube動画は全体的に夢があります
マルチモーダルLLM(テキスト以外のinputが可能なLLM)
マルチモーダルLLMとはテキスト以外(主に画像)の入力が可能なLLMです。
「ここには何が写っていますか?」といった質問と画像をセットで入力するとちゃんとした答えが返ってくるようなイメージです。
様々発表されていますが、OpenAI社のGPT-4Vがアプリケーション(ChatGPT)の浸透度合いも踏まえて一番のインパクト。
一方でGoogleやApple、Stability AI等もモデルを公開しており、今後様々なアプリケーションへの搭載が見込まれます。
Japanese Stable VLM: 商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました: 2023/11/13
Google: 【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい: 2023/07/13 ※日本では9/19から
Apple: Appleが画像を見て質問に答えられる大規模言語モデル「Ferret」を開発、ウェイトの情報が公開される: 2023/10/11
テキスト生成LLM
言わずもがなですがGPTシリーズやClaude(クロードと読みます)、Google Geminiなど生成AIブームの火付け役。
パラメータ数増加による性能改善はピークを迎え、巨大モデルにおいては入力可能なトークン数(文字数)の増加や速度向上がメインストリームとなりつつある気がします。
また、小型なモデルをローカルPCで動かす等の取り組みも研究されています。
日本語特化LLM開発(テキスト生成)
上記の巨大なLLMはグローバル展開なので自ずと学習データも英語の割合が大きいです。ゆえに英語での応答性能に比べると日本語での応答性能は劣りがちです。
日本語特化のLLMの開発は日本の企業がこぞって取り組んでおり、日々新しいものがリリースされています。
本記事執筆時点で反映されていなさそうなリリース
画像生成LLM
画像生成においては、OpenAIの他にStable DiffusionとMidjourneyが有名です。よく言われるのはStable Diffutionは画像生成のAndroidでMidjourneyがApple。Stable Diffutionの方がカスタマイズが柔軟で、Midjourneyは使いやすく高品質ということを指しています。
Stable Diffusion(Stability AI)
Midjourney
https://www.midjourney.com/home?callbackUrl=/explore
その他
動画生成LLM
生成AIブーム以前から話題になっていたdeepfakeの技術進歩、文章から動画を生成する技術に加えて最近では動きのモーションから動画を作成する技術に関する発表が多いです。Tiktok動画をAIで作成できるようになる日も遠くないかも?
Algomaticでも2023年の忘年会ではdeepfakeを使ったコンテンツで盛り上がりました笑
deepfake技術
文章から動画生成
動きのモーションから動画を作成
音声・音楽生成LLM
一番話題になったのはSunoではないでしょうか?
ワンピースの尾田先生が使ったりして話題になっていました。
Algomatic社でも社歌(非公式)を作ってみたりと手軽にそれっぽいものが生成できるのは面白いです。
コード・デザイン生成
Github Copilotを皮切りに、コード生成、デザイン生成も盛り上がりました。
中でもCursorはエンジニアからすると革命的な体験でAlgomaticでも愛用者が多いです。
AGI(Artificial General Intelligence): 汎用人工知能
2024年、大注目の領域です。
これまでは人が聞いたものに対してAIが答える一問一答の体験が主流でしたが、AIが自分で考えて、様々なタスクを複合的に処理していくような技術のことをAGIと呼びます。Y CombinatorのW24バッチにもAI Agent領域のサービスが多くみられます。
業界特化事例・サービス
業界特化の事例やサービスももちろん増えてきています。
全ての業界について網羅できるわけではないですが、面白そうな業界特化の事例やサービスをピックアップしてご紹介します。
ゲーム
ピックアップサービス
Hidden Door: A new kind of social roleplaying experience, powered by narrative AI
Red Ram: AIマーダーミステリーゲーム※イベント出展のみでリンク無し
ピックアップ記事・リリース
医療・ヘルスケア
ピックアップサービス
ピックアップ記事・リリース
エンタメ
ピックアップサービス
ピックアップ記事・リリース
その他
より深くキャッチアップするなら
ここまで読んでくださって、生成AIの入り口の扉を開けたそこのあなた。
より深くキャッチアップするときの一助となればと思い、普段弊社メンバーがチェックしているものの一部をシェアします。
プロンプト関連
技術・原理寄りの話
あとはひたすらXを見るのが早いかなと思います。
以下のメンツのポストと昨年12月〜くらいの過去ポスト遡れば、ほぼほぼキャッチアップできると思います。
Algomaticメンバーも生成AI関連のポストをすることが多いのでぜひご覧ください(ただの宣伝
生成AI時代を代表する会社を一緒に作りませんか
最後に会社の宣伝になるのですが、2023年4月の創業から、まだまだ僕らは、創業期です。共に生成AI時代を代表する会社を創る「創業メンバー」を募集しています。
どんな会社をなぜ作ろうとしているかは以下のnoteをご覧ください。
興味を持っていただいた方、まずは気軽に、お話しさせてください!