【2023年1月~2月】注目AI技術まとめ | AI Academy News weekly

kazu@生成AI×教育 ( https://aiacademy.jp/bootcamp )

2023年2月4日 11:35

はじめに

2023/1 ~ 2/10までの最新論文やAIニュース等をピックアップしてまとめました。（定期的に内容追加・更新する可能性があります）

論文関連

GPT Takes the Bar Exam

GPT-3.5 米国司法試験に挑む

InstructPix2Pix

テキストで指示を与えて、画像を編集する拡散モデル

MusicLM

Googleが入力したテキストから自動で作曲するAI「MusicLM」を開発

BLIP

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

凍結画像エンコーダと大規模言語モデルによるブートストラップ言語画像事前学習。事前学習コストを減らし、精度を出すための研究

github: https://github.com/salesforce/LAVIS/tree/main/projects/blip2

Text-to-4D

3Dの動的シーン生成

Tune-A-Video

画像拡散モデルをワンショットでテキスト動画生成モデルに調整可能

GeneFace

高精度なオーディオ to 3Dトーキングフェイスを生成

SingSong

入力ボーカルとペアになる楽器の伴奏を生成できるシステム
（入力したボーカルに合わせて伴奏を生成するAI）

Dreamix

画像やテキストを入力し、動画を作成することが可能

SceneDreamer

複数の2D画像から無限の3D シーン生成

SceneScape

シーンとカメラのポーズを記述した入力テキストのみから、任意のシーンの長時間映像を合成

Attend-and-Excite

テキストから画像への拡散モデルに対する注意に基づく意味誘導
（Generative Semantic Nursing (GSN) という概念を導入し、推論時にその場で生成過程に介入し、生成画像の忠実度を向上させようとするもの）

TEXTure

TEXTure: Text-Guided Texturing of 3D Shapes
TEXTureテキストを用いた3次元形状のテクスチャ生成・編集・転送のための新しい手法

GeoCode

解釈可能な形状プログラム。3次元形状を人間が解釈可能なパラメータ空間にマッピングし、点群やスケッチ入力から復元した3次元形状を直感的に編集することが可能。

Zero-shot Image-to-Image Translation

その場で編集方向を指定できる（例：猫から犬）、拡散に基づく画像間アプローチ

ニュース関連

マイクロソフト、ChatGPTのオープンＡＩに複数年で100億ドル投資

ChatGPTの有料サブスク版「Plus」、月額20ドルで提供開始

MicrosoftがChatGPTより高速なGPT-4を検索エンジンのBingに搭載へ

Microsoft Teams Premium

ChatGPTを搭載したTeams 「Teams Premium」を公開

「ChatGPT」の言語モデル活用の「Teams Premium」が提供開始

OpenAIのCEOが考える、ChatGPTの最悪のシナリオとは…詐欺やサイバー攻撃よりも悲惨なもの

知らないと出遅れる｢ChatGPT｣台頭のインパクトAIの最前線を知り尽くす東大の松尾豊教授に聞く

ライターの仕事が危ない！…ChatGPTは30秒で8万円相当の原稿を書いた

Meta stock perks up as the company promises a ‘year of efficiency’

A Judge Just Used ChatGPT to Make a Court Decision

裁判官が裁判でChatGPTを利用とのこと。（コロンビアのある判事がChatGPTを使って判決を下す）裁判所がChatGPTの回答を法的判決に使用したことを認めた初めてのケース。

※2/7追加

An important next step on our AI journey

LaMDAを搭載した会話型AIサービス「Bard」

Google、OpenAIの「ChatGPT」競合「Bard」を限定公開

会話中の 2 つの AI ボット (GPT-3)

ChatGPTのtwitterアカウントより。
GPT-3を使った2 つの AI ボットが会話する動画を公開

For those who never seen AI communicate with each other:

2 AI bots (GPT-3) having a conversation 👇🏼 pic.twitter.com/cCfsPzfm4s
— ChatGPT (@openaicommunity) January 20, 2023

ChatGPTがGoogleのコーディング職の試験を受けると年収2400万円のレベル3エンジニアとして合格する

AIが生成した画像のもとになった画像の帰属を示すサービス「Stable Attribution」

ChatGPTと「ジェネレーティブAI戦争」の知られざる6つの事実

サービス関連

Perplexity.ai

大規模な言語モデルを用いて複雑な質問に対する正確な回答を提供する回答エンジン

https://www.perplexity.ai/

Audio AI Timeline
2023年からオーディオ生成のための最新のAIモデルのタイムライン
github: https://github.com/archinetai/audio-ai-timeline

https://github.com/archinetai/audio-ai-timeline

GraphGPT

テキストからグラフを作成可能なGraphGPT
好きな映画のあらすじや、Wikipediaのページ、ビデオのトランスクリプトなどを渡すと、視覚化可能。Javascriptの環境とOPENAI API KEYがあれば、ローカルで動作可能。

Quinv

テキストからプレゼン動画を自動生成

「好きな曲と似た雰囲気の曲」をAIが1億2000万曲の中から見つけ出してくれる「Maroofy」

ElevenLabs Prime Voice AI

Text-to-Speechサービス

InVideo

あらゆるアイデアを即座にビデオに変換

※2/8追加

Galileo AI

Galileo AIは、シンプルなテキスト記述から、編集可能なUIデザインを作成

※2/10追加

Genius

「Genius」Figma上でAIと一緒にデザインしてくれるサービス
https://genius.design
何を設計しているかを理解し、設計システムのコンポーネントを使用して設計をオートコンプリートする提案を行う。

🔅 Introducing Genius, your AI design companion in @figma

It understands what you’re designing and makes suggestions that autocomplete your design using components from your design system.

Genius is coming soon. Join the waitlist → https://t.co/ldAdWySptX pic.twitter.com/jsXJsgMOVy
— Diagram (@diagram) February 9, 2023

その他

ジェネレーティブ AI と WebAR　を組み合わせた事例

Generative AI and WebAR are so powerful 🤩
In this experiment I used Stable Diffusion Depth2img, Three.js and 8thwall Visual Positioning System.#8thwall #niantic #stablediffusion #threejs pic.twitter.com/oj2TCie2aQ
— Stijn Spanhove (@stspanho) February 5, 2023

GPTravel Advisor

旅行の日程を自動的に生成してくれるサービス
場所と日数を入力するとGPTが詳しい日程を提案してくれる

実際に使った画面

AIスキルを効率よく身につけるには

AIスキルを効率よく身につけるためには、AI基礎から最新のAI技術、AIを活用したWebアプリ開発まで、体系的に学べる動画コンテンツをもとに学習でき、いつでも好きな時間に質問し放題の環境で学ぶことが大切です。

AI Academy Bootcampなら、６ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。
数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。AI人材に必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください。