2024年、生成AIコトハジメ〜生成AI元年を振り返る〜

2024年1月1日 07:48

2024年、明けましておめでとうございます。
生成AIスタートアップAlgomaticを時代を代表する企業にするべく働いてる大田です。
本年もどうぞよろしくお願いいたします！
2023年開始時には生成AIについて何も知らなかったのに、1年でどっぷりはまり込んで、更には転職までして、そして未だに毎日wowなニュースに出会えて僥倖な日々です。

最近はLLMネイティブな体験設計に試行錯誤しておりまして・・・。
THE GUILDの深津さんはイベントでトイレ行くたびにトイレットペーパーが満載になっているような体験とおっしゃってました。それは一つの解と思いつつ、ユーザー目線ではまだそれは怖いパターンがあったり、そもそも全てをいきなり整えるのは難しいのでどこから始めるべきかなどなど・・

“「一番大きく個人的に思うことは、いろんなことが始まる前に終わるということです。」「例えば、朝起きたら枕元の前に必要なものが全部置いてあるとか、トイレ行くたびにトイレットペーパーが満載になっているとか、あるいはトラブルが起きる前に誰かが救済しておいてもらえるとか。」「そんな風に、日常のあらゆる問題が発生して認知されるたびに、勝手に解決しているので、そもそも体験が発生しないんじゃないかと。」”

https://note.com/algomatic_oa/n/n54cfe796c5c7 より

この話も自分の中で一定解が出たタイミングでnote化できればと思っているのですが、年内にはまとまらなかったのでまた春くらいに書ければと思います。

さて、本題なのですが、年末とあるきっかけで生成AIキャッチアップしたい人にAlgomaticメンバーイチオシのサービスや記事を紹介しようとなり、社内で募集した結果てとつもない量のコンテンツが集まりました。

また、日頃からrandomチャンネルで毎日のように新しいニュースのシェアとそれに対するリアクションが活発に交わされています。
この2つを整理して生成AIキャッチアップしたい向けのコンテンツを社内で作成したので、一部をnoteという形でも公開したいと思います。

※ もちろん全てを網羅できているわけではないですし、他にも面白いサービスはたくさん出ているはずです。自分で調べるのが一番です。
※ 生成AI初心者向けなのでわかりやすさ重視で一部厳密には正しくない表現をしている箇所があります。
※ 技術的なことよりも活用した事例やサービスにフォーカスしています。

今後は定期的に更新していければと思っておりまして、そのときにまたnote化できればと思っています（月一くらいを予定しています）
では、早速行ってみましょう！

これだけは見ておいて厳選5つ！

結構な分量になってしまったので、厳選した5つをまずご紹介します。
※無料で簡単に試せてwowが大きいという観点で選んでいます。

こういった事例に対する共有や考察が日々当たり前に行われているAlgomatic。
この記事でカバーできていないところも含めて少しでも興味ある方はカジュアルにお話ししましょう！
カジュアル面談はこちらから

2023年BigTech等のカンファレンス動画等

今年は様々なBigTechが生成AIへの取り組みを発表しました。
製品化されているものもデモ止まりなものもありますが、名だたる企業がイメージする生成AIの可能性を是非とも感じてください。

マルチモーダルLLM（テキスト以外のinputが可能なLLM）

マルチモーダルLLMとはテキスト以外（主に画像）の入力が可能なLLMです。
「ここには何が写っていますか？」といった質問と画像をセットで入力するとちゃんとした答えが返ってくるようなイメージです。

https://ja.stability.ai/blog/japanese-stable-vlm

様々発表されていますが、OpenAI社のGPT-4Vがアプリケーション（ChatGPT）の浸透度合いも踏まえて一番のインパクト。
一方でGoogleやApple、Stability AI等もモデルを公開しており、今後様々なアプリケーションへの搭載が見込まれます。

テキスト生成LLM

言わずもがなですがGPTシリーズやClaude（クロードと読みます）、Google Geminiなど生成AIブームの火付け役。
パラメータ数増加による性能改善はピークを迎え、巨大モデルにおいては入力可能なトークン数（文字数）の増加や速度向上がメインストリームとなりつつある気がします。
また、小型なモデルをローカルPCで動かす等の取り組みも研究されています。

日本語特化LLM開発（テキスト生成）

上記の巨大なLLMはグローバル展開なので自ずと学習データも英語の割合が大きいです。ゆえに英語での応答性能に比べると日本語での応答性能は劣りがちです。
日本語特化のLLMの開発は日本の企業がこぞって取り組んでおり、日々新しいものがリリースされています。

日本語LLMまとめ: 大体ここに網羅されています
本記事執筆時点で反映されていなさそうなリリース
- 130億パラメータの「Llama 2」をベースとした日本語LLM「ELYZA-japanese-Llama-2-13b」を公開しました（商用利用可）: 2023/12/27
  ※ Llamaはラマと読みます
- Lightblue、商用利用可能な日本語LLM「Karasu」「Qarasu」を公開: 2023/12/29

画像生成LLM

画像生成においては、OpenAIの他にStable DiffusionとMidjourneyが有名です。よく言われるのはStable Diffutionは画像生成のAndroidでMidjourneyがApple。Stable Diffutionの方がカスタマイズが柔軟で、Midjourneyは使いやすく高品質ということを指しています。

Stable Diffusion(Stability AI)

Midjourney

https://www.midjourney.com/home?callbackUrl=/explore

Midjourney v6: Midjourneyがリアルすぎて写真と見分けがつかないレベルに: 2023/12/22

Midjourney v6で毎回のように建築画像の生成もしてますが、人物写真に比べるとまだAI生成味を感じる。

光がのっぺりしてるからかな？ pic.twitter.com/DkJLg39DM8
— KAJI | 梶谷健人 (@kajikent) December 21, 2023

その他

🌙✨🖼️ 🪶🗝️#realtime #generativeart #streamdiffusion

(Watch with sound)
Made in @1null1 pic.twitter.com/70npJv8iMC
— Lyell (@dotsimulate) December 31, 2023

動画生成LLM

生成AIブーム以前から話題になっていたdeepfakeの技術進歩、文章から動画を生成する技術に加えて最近では動きのモーションから動画を作成する技術に関する発表が多いです。Tiktok動画をAIで作成できるようになる日も遠くないかも？
Algomaticでも2023年の忘年会ではdeepfakeを使ったコンテンツで盛り上がりました笑

https://twitter.com/venturetwins/status/1741147864498397328

deepfake技術
- Fal: リアルタイムdeepfake
- 様々なサービスを組み合わせてdeepfake
文章から動画生成
動きのモーションから動画を作成

音声・音楽生成LLM

一番話題になったのはSunoではないでしょうか？
ワンピースの尾田先生が使ったりして話題になっていました。
Algomatic社でも社歌（非公式）を作ってみたりと手軽にそれっぽいものが生成できるのは面白いです。

Suno: テキストから楽曲生成

尾田さんから担当に送られたオリジナルソング…❗️

タイトルは
「YO-HO-HOおれ達海賊」
だそうです。 pic.twitter.com/CNwqLZ3o8f
— ONE PIECE スタッフ【公式】/ Official (@Eiichiro_Staff) December 21, 2023

コード・デザイン生成

Github Copilotを皮切りに、コード生成、デザイン生成も盛り上がりました。
中でもCursorはエンジニアからすると革命的な体験でAlgomaticでも愛用者が多いです。

AGI(Artificial General Intelligence): 汎用人工知能

AGI（汎用人工知能）は、人間が持つ広範な知識やスキルを模倣し、新しい問題を解決する能力を持つAIのことを指します。これは従来のAIやASIとは異なり、特定のタスクに特化したものではなく、様々な種類のタスクを学習し、適応する能力を持っています。これにより、AGIは人間が未知の問題を解決するのと同じように、新たな問題に対応することが可能となります。

https://www.softbank.jp/biz/blog/business/articles/202310/what-is-agi/

2024年、大注目の領域です。
これまでは人が聞いたものに対してAIが答える一問一答の体験が主流でしたが、AIが自分で考えて、様々なタスクを複合的に処理していくような技術のことをAGIと呼びます。Y CombinatorのW24バッチにもAI Agent領域のサービスが多くみられます。

https://twitter.com/omooretweets/status/1740774601876177375

業界特化事例・サービス

業界特化の事例やサービスももちろん増えてきています。
全ての業界について網羅できるわけではないですが、面白そうな業界特化の事例やサービスをピックアップしてご紹介します。

ゲーム

ピックアップサービス
- AI Dungeon: テキストアドベンチャーゲームのプラットフォーム
- Hidden Door: A new kind of social roleplaying experience, powered by narrative AI
- Red Ram: AIマーダーミステリーゲーム※イベント出展のみでリンク無し
- スクウェア・エニックス: ポートピア連続殺人事件
ピックアップ記事・リリース

医療・ヘルスケア

被験者が事前に見たヒョウの画像（左）、生成ＡＩを用いた新手法で、メンタルイメージを復元した画像（中）、従来手法による復元画像（右）

エンタメ

AIでCM作ってみた。

映像、作詞、作曲、歌、ロゴ全てAIで制作。すごい時代です。

【使ったAIツール】
画像🖼️@midjourney
動画🎥@pika_labs
作詞📝#ChatGPT
曲と歌🎤@suno_ai_
ロゴ🍩@ideogram_ai

ハロウィンドーナツおいしそう。
AIが楽しそうに歌ってくれてる🎵 pic.twitter.com/fWPx8Wy3b9
— いっしゅ / AIcreator (@ish_creative) September 20, 2023

その他

より深くキャッチアップするなら

ここまで読んでくださって、生成AIの入り口の扉を開けたそこのあなた。
より深くキャッチアップするときの一助となればと思い、普段弊社メンバーがチェックしているものの一部をシェアします。

プロンプト関連
技術・原理寄りの話

あとはひたすらXを見るのが早いかなと思います。
以下のメンツのポストと昨年12月〜くらいの過去ポスト遡れば、ほぼほぼキャッチアップできると思います。

Algomaticメンバーも生成AI関連のポストをすることが多いのでぜひご覧ください（ただの宣伝

生成AI時代を代表する会社を一緒に作りませんか

最後に会社の宣伝になるのですが、2023年4月の創業から、まだまだ僕らは、創業期です。共に生成AI時代を代表する会社を創る「創業メンバー」を募集しています。
どんな会社をなぜ作ろうとしているかは以下のnoteをご覧ください。

興味を持っていただいた方、まずは気軽に、お話しさせてください！

いいなと思ったら応援しよう！

この記事が参加している募集

#note書き初め

16,346件

2024年、生成AIコトハジメ 〜生成AI元年を振り返る〜

これだけは見ておいて厳選5つ！

2023年BigTech等のカンファレンス動画等

マルチモーダルLLM（テキスト以外のinputが可能なLLM）

テキスト生成LLM

日本語特化LLM開発（テキスト生成）

画像生成LLM

Stable Diffusion(Stability AI)

Midjourney

その他

動画生成LLM

音声・音楽生成LLM

コード・デザイン生成

AGI(Artificial General Intelligence): 汎用人工知能

業界特化事例・サービス

ゲーム

医療・ヘルスケア

エンタメ

その他

より深くキャッチアップするなら

生成AI時代を代表する会社を一緒に作りませんか

いいなと思ったら応援しよう！

この記事が参加している募集

2024年、生成AIコトハジメ〜生成AI元年を振り返る〜