【2023年1月~2月】 注目AI技術まとめ | AI Academy News weekly
はじめに
2023/1 ~ 2/10までの最新論文やAIニュース等をピックアップしてまとめました。(定期的に内容追加・更新する可能性があります)
論文関連
GPT Takes the Bar Exam
GPT-3.5 米国司法試験に挑む
InstructPix2Pix
テキストで指示を与えて、画像を編集する拡散モデル
MusicLM
Googleが入力したテキストから自動で作曲するAI「MusicLM」を開発
BLIP
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
凍結画像エンコーダと大規模言語モデルによるブートストラップ言語画像事前学習。事前学習コストを減らし、精度を出すための研究
github: https://github.com/salesforce/LAVIS/tree/main/projects/blip2
Text-to-4D
3Dの動的シーン生成
Tune-A-Video
画像拡散モデルをワンショットでテキスト動画生成モデルに調整可能
GeneFace
高精度なオーディオ to 3Dトーキングフェイスを生成
SingSong
入力ボーカルとペアになる楽器の伴奏を生成できるシステム
(入力したボーカルに合わせて伴奏を生成するAI)
Dreamix
画像やテキストを入力し、動画を作成することが可能
SceneDreamer
複数の2D画像から無限の3D シーン生成
SceneScape
シーンとカメラのポーズを記述した入力テキストのみから、任意のシーンの長時間映像を合成
Attend-and-Excite
テキストから画像への拡散モデルに対する注意に基づく意味誘導
(Generative Semantic Nursing (GSN) という概念を導入し、推論時にその場で生成過程に介入し、生成画像の忠実度を向上させようとするもの)
TEXTure
TEXTure: Text-Guided Texturing of 3D Shapes
TEXTureテキストを用いた3次元形状のテクスチャ生成・編集・転送のための新しい手法
GeoCode
解釈可能な形状プログラム。3次元形状を人間が解釈可能なパラメータ空間にマッピングし、点群やスケッチ入力から復元した3次元形状を直感的に編集することが可能。
Zero-shot Image-to-Image Translation
その場で編集方向を指定できる(例:猫から犬)、拡散に基づく画像間アプローチ
ニュース関連
マイクロソフト、ChatGPTのオープンAIに複数年で100億ドル投資
ChatGPTの有料サブスク版「Plus」、月額20ドルで提供開始
MicrosoftがChatGPTより高速なGPT-4を検索エンジンのBingに搭載へ
Microsoft Teams Premium
ChatGPTを搭載したTeams 「Teams Premium」を公開
「ChatGPT」の言語モデル活用の「Teams Premium」が提供開始
OpenAIのCEOが考える、ChatGPTの最悪のシナリオとは…詐欺やサイバー攻撃よりも悲惨なもの
知らないと出遅れる「ChatGPT」台頭のインパクトAIの最前線を知り尽くす東大の松尾豊教授に聞く
ライターの仕事が危ない!…ChatGPTは30秒で8万円相当の原稿を書いた
Meta stock perks up as the company promises a ‘year of efficiency’
A Judge Just Used ChatGPT to Make a Court Decision
裁判官が裁判でChatGPTを利用とのこと。(コロンビアのある判事がChatGPTを使って判決を下す)裁判所がChatGPTの回答を法的判決に使用したことを認めた初めてのケース。
※2/7追加
An important next step on our AI journey
LaMDAを搭載した会話型AIサービス「Bard」
Google、OpenAIの「ChatGPT」競合「Bard」を限定公開
会話中の 2 つの AI ボット (GPT-3)
ChatGPTのtwitterアカウントより。
GPT-3を使った2 つの AI ボットが会話する動画を公開
ChatGPTがGoogleのコーディング職の試験を受けると年収2400万円のレベル3エンジニアとして合格する
AIが生成した画像のもとになった画像の帰属を示すサービス「Stable Attribution」
ChatGPTと「ジェネレーティブAI戦争」の知られざる6つの事実
サービス関連
Perplexity.ai
大規模な言語モデルを用いて複雑な質問に対する正確な回答を提供する回答エンジン
Audio AI Timeline
2023年からオーディオ生成のための最新のAIモデルのタイムライン
github: https://github.com/archinetai/audio-ai-timeline
https://github.com/archinetai/audio-ai-timeline
GraphGPT
テキストからグラフを作成可能なGraphGPT
好きな映画のあらすじや、Wikipediaのページ、ビデオのトランスクリプトなどを渡すと、視覚化可能。Javascriptの環境とOPENAI API KEYがあれば、ローカルで動作可能。
Quinv
テキストからプレゼン動画を自動生成
「好きな曲と似た雰囲気の曲」をAIが1億2000万曲の中から見つけ出してくれる「Maroofy」
ElevenLabs Prime Voice AI
Text-to-Speechサービス
InVideo
あらゆるアイデアを即座にビデオに変換
※2/8追加
Galileo AI
Galileo AIは、シンプルなテキスト記述から、編集可能なUIデザインを作成
※2/10追加
Genius
「Genius」Figma上でAIと一緒にデザインしてくれる サービス
https://genius.design
何を設計しているかを理解し、設計システムのコンポーネントを使用して設計をオートコンプリートする提案を行う。
その他
ジェネレーティブ AI と WebAR を組み合わせた事例
GPTravel Advisor
旅行の日程を自動的に生成してくれるサービス
場所と日数を入力するとGPTが詳しい日程を提案してくれる
実際に使った画面
最新のAIニュースを配信(AI Academy Community)
AIスキルを効率よく身につけるには
AIスキルを効率よく身につけるためには、AI基礎から最新のAI技術、AIを活用したWebアプリ開発まで、体系的に学べる動画コンテンツをもとに学習でき、いつでも好きな時間に質問し放題の環境で学ぶことが大切です。
AI Academy Bootcampなら、6ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。
数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。AI人材に必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください。