完全AIボディスワップ、新画像モデルがFLUXを超える、Llama 3.2、希少疾患の治療法

2024年9月29日 19:56

10,935 文字

今年のAI界で最大の1週間やったんちゃうかな。めっちゃたくさんのすごいもんが出てきて、いろんなことが起こったわ。
新しいAIボディスワッパーが出たり、FLUXを超えるらしい謎の画像ジェネレーターが出たり、また新しいAIビデオジェネレーターが出てきて、その品質がめっちゃすごいねん。
OpenAIがついに高度な音声機能をリリースしたり、Googleが2つの新しいモデルをリリースしたり、Metaも最新のAIモデルであるLlama 3.2と独自の音声アシスタントをリリースしたりしてんで。他にもいろいろあるけど、早速詳しく見ていこか。
まず最初に、新しいAIボディスワッパーがあんねん。これがめっちゃすごいわ。Alibabaが開発した「Mimo」っていうんやけど、最近Alibabaはオープンソースの「Qwen 2.5」も含めて、いろんなええもん出してるんよ。
このMimoシステムは、たった1枚の写真を参考にして、ビデオの中の人物を誰とでも入れ替えられんねん。これ、すごい革命的やで。今までやったら、3Dモデルを作るのに複数のカメラが必要やったり、モーションキャプチャー技術が必要やったりして、ボディスワップするのにめっちゃ手間がかかってたんよ。
でも、Mimoやったら1枚の写真を入力するだけで、数分でフルボディスワップができんねん。モーションキャプチャーも3Dモデルも自分で作る必要なしや。
ほな、いくつか例を見てみよか。バスケットボールをドリブルしてる人のハイアクションシーンでも、うまく動いてるのがわかるやろ。手や足の動き、バスケットボールの動きも、全部つじつまが合ってんねん。
それから、この人がアバターのキャラクターに変身してるのもあるし、めっちゃハイアクションなシーンでも、このボディスワッパーはうまく対応できてるわ。
複雑なシーンで複数のキャラクターがいる場合でも動くんよ。ほら、ここにめちゃくちゃごちゃごちゃしたバスケットボールの試合のシーンがあるやろ。AIが混乱しそうなんやけど、それでもボディスワップがうまくできてんねん。
もう一つの複雑なバスケットボールのシーンも見てみ。めっちゃハイアクションで、ごちゃごちゃしてて、動きもいっぱいあるけど、ほとんどの部分でボディスワップがうまくいってんねん。
まあ、顔の細かい部分や手や指のところには、まだちょっと欠点はあるけどな。でも、全体的に見たら、参考にした写真が1枚だけってことを考えたら、めっちゃ一貫性があってすごいわ。
じゃあ、これがどうやって動いてんのか説明したるわ。基本的に、ビデオクリップを3つのレイヤーに分けるんやけど、これがもう魔法みたいやねん。メインの人物と、背景と、そして前面にあるものの3つや。
メインの人物については、さらにデータを外見と、ポーズと動きに分けんねん。そして、新しいキャラクターの参考写真を与えると、そのキャラクターもコードに分解されて、ここにある元のキャラクターと入れ替わるわけや。
一番ええとこは、これがただのボディスワッパーやないってことやねん。どんなビデオでも、その中の人物の動きを抽出して、その動きを別のシーンで使うこともできんねん。背景を入れ替えることもできるし、これで創造性がめっちゃ広がるわ。
今までやったら、誰かの動きを抽出しようと思ったら、高価なモーションキャプチャー機器が必要やったり、3Dモデルを作るのに複数のカメラが必要やったりして、時間もお金もめっちゃかかってたんよ。でも、この新しいMimoツールがあれば、そんなんが全部必要なくなんねん。
次は、TikTokの親会社であるByteDanceが、「Seaweed」と「Pixel Dance バージョン1.4」っていう2つのAIビデオ生成モデルを発表したんよ。
SeaweedもPixel Danceも、他のトップクラスのビデオジェネレーターと同じく、Diffusion Transformerアーキテクチャーを使ってんねん。これは、ChatGPTとStable Diffusionが子供作ったみたいなもんや。つまり、画像を生成するのに使われるディフュージョンモデルと、自然言語を理解するのに使われるトランスフォーマーアーキテクチャーを混ぜ合わせたもんやねん。
他のトップクラスのビデオジェネレーターと同じく、この新しいモデルのSeaweedとPixel Danceも、ズームやパン、回転なんかのコントロールができるし、異なるビデオ間で一貫したキャラクターを覚えて生成することもできんねん。3Dアニメーションや2Dアニメーションなど、いろんなスタイルにも対応してるわ。
今わかってる情報によると、Pixel Dance 1.4は10秒のビデオを作れて、特に複雑な動きを扱うのが得意みたいやね。一方、Seaweedは最大30秒のビデオを生成できるらしいわ。
まだ発表したばっかりで、普通の人が使えるようにはなってへんけど、使えるようになったらすぐに知らせるさかい、楽しみに待っててな。
他のニュースやけど、Artificial Analysisっていう画像ジェネレーターのリーダーボードがあんねんけど、今週、「Blueberry 0o」と「Blueberry 1」っていう2つの謎の新しいモデルが現れたんよ。
このリーダーボードは、ユーザーが異なる画像ジェネレーターモデルを並べて、どっちがええかを目隠しテストできるもんなんや。だから、操作するのはめっちゃ難しいねん。これは標準的なベンチマーク指標とは違って、簡単にごまかせへんのよ。
正直、このランキングはかなり正確やと思うわ。このArtificial Analysisのホストは信頼できる独立組織やしな。実際、説明の下にリンク貼っとくさかい、自分で画像ジェネレーターのブラインドテストをしてみてもええで。
基本的に、2つの異なる画像ジェネレーターを並べて使うんやけど、どっちがどっちかはわからへん状態で、同じプロンプトを使って画像を生成するんや。そして、ユーザーがどっちの画像がええと思うかを選ぶんや。
そういう結果を全部集めてリーダーボードを作ってんねんけど、Blueberry 0oとBlueberry 1が一番上にあるみたいやね。見てみ、現在のトップモデルであるFlux 1 Proと比べて、めっちゃ高いLLO（Learned Latent Optimization）スコアを持ってんねん。
これ、考えたらめっちゃすごいことやで。Fluxが出てから2ヶ月も経ってへんのに、もうFluxを超える画像ジェネレーターが出てきたってことやからな。
まだこのモデルの詳細はわかってへんねん。オープンソースなのか、クローズドソースなのかも分からへんし、どの会社が作ったんかもわかってへん。でも、これがOpenAIの次のバージョンのDALLEやないかって推測してる人もおるわ。
あるいは、これがGPT-4oかもしれへんな。GPT-4oはネイティブでマルチモーダルやから、つまりテキストや音声だけやなくて、画像も扱えるし生成もできんねん。だから、これが画像ジェネレーターであり、チャットボットでもある可能性があるわけや。
ほな、コメント欄で教えてな。BlueberryがOpenAIから出たもんやと思う？
他のニュースやけど、Metaが今週、Connect 2024カンファレンスを開いて、めっちゃたくさんの面白いAIアップデートを発表したんよ。
まず、新しい「Orion AR」グラスを発表したんやけど、マーク・ザッカーバーグが「世界が今まで見たことのない最先端のARグラス」って言うてんねん。重さが100グラム以下で、Apple Vision Proに比べたらめっちゃ軽くて使いやすいわ。
正直、Apple Vision Proはでかくて重たすぎて、ほとんど使えへんと思うわ。自分やったら絶対使わへんな。
このOrionは70度の視野角があって、他のARグラスより広いから、もっと没入感のある体験ができんねん。
もう一つのええとこは、コントロールシステムや。目の動きの追跡、手のジェスチャー、音声コマンドを組み合わせてんねん。手のジェスチャーの仕組みがめっちゃおもろくて、筋電図技術っていうのを使ってんねん。これは、手の動きから出る電気信号を検出して、その信号でグラスをコントロールできるんや。
もちろん、Meta AIとも統合されてるから、グラスに組み込まれたチャットボットと会話もできんねん。
AIの話に戻るけど、これで最新モデルのLlama 3.2の話になるわ。ちなみに、3.1が発表されてからまだ2ヶ月しか経ってへんのに、もう3.2が発表されたってことは、AIの進歩のスピードがめっちゃ速いってことやな。
この新しいバージョンには、ビジョン機能が追加されてんねん。つまり、ユーザーが画像をアップロードして分析してもらえるようになったわけや。
Llama 3.2はいろんなサイズで提供されてんねん。軽量な10億パラメーターと30億パラメーターのモデルはテキストだけやけど、これはスマートフォンとか他のデバイスで使える可能性があんねん。
それから、110億パラメーターと900億パラメーターの大きなモデルがあって、これらはビジョン機能も含んでんねん。もちろん、パラメーターが多いからパフォーマンスはええけど、一般のデバイスで動かすのは難しいわな。
これらは、画像エンコーディングを言語モデルに統合する新しいアーキテクチャーを使って、ビジョンをサポートする最初のLlamaモデルなんや。
ビジョンの性能について見てみると、この2行目の3.29Bっていうのを見てな。全てのベンチマークスコアで、他のモデルより優れてるか、少なくとも同じくらいの性能を示してんねん。
でも、これはMetaの自社ウェブサイトの情報やから、ちょっと割り引いて考えた方がええかもな。
実際、Artificial Analysisっていう独立した第三者機関のこのチャートを見てみると、Llama 3.29Bの性能は、他のモデルに比べてかなり悪いみたいやで。これは彼らの品質指標に基づいてんねん。
実際、Metaも発表の中で、意図的に言語モデルのパラメーターは更新せず、ビジョン機能を追加しただけやって言うてたな。だから、「知能」とかパフォーマンスで言うたら、実際にはLlama 3.1と同じで、ただ画像を分析できるようになっただけってことやな。ちょっと残念やけどな。
最後に、全てのLlama 3.2モデルは、Llama 3.1と同じく128,000トークンのコンテキスト長をサポートしてんねん。だから、これは実際には画期的な新しいモデルやなくて、Llama 3.1にビジョン機能を追加しただけってことやな。
でも、コメント欄で教えてな。このモデルのレビュー動画を作って欲しい？
最後に、Metaが新しい音声モードも紹介したんよ。これはOpenAIの高度な音声機能に対抗するもんみたいやね。一般的なAI音声を選べるだけやなくて、ジョン・シナやアウクワフィナみたいな有名人の声も使えるらしいわ。
今週中にリリースされるって言うてたけど、この録画の時点では自分もまだアクセスできへんし、他の人に確認してもアクセスできへんみたいやわ。でも、すぐにMessenger、Facebook、WhatsApp、Instagramで無料の機能として使えるようになりそうやね。
最初のデモはめっちゃ短くて、数秒だけやったわ。「次の皆既日食はいつですか？」って質問に対して、「次の皆既日食は2026年8月12日で、グリーンランド、アイスランド、スペイン、ロシア、そしてポルトガルの一部の小さな地域で見られます」って答えてたな。
歌を歌ったり、効果音を出したり、笑ったりするような高度なことができるかどうかは、ちょっと見たり聞いたりできへんかったわ。返事はあんまり自然やないし、ちょっとロボットっぽく聞こえたな。
これは単なるテキスト読み上げみたいやね。OpenAIの高度な音声機能みたいな本当のマルチモーダル音声モデルやないかもしれへん。そこんとこは頭に入れといてな。
もし単なるテキスト読み上げやったら、別に印象的やないわ。この技術、もう長いこと持ってるしな。
ところで、自分は定期的にMeta AIを使うことないんやけど、どうなんやろ？WhatsAppやFacebookで使う意味がよくわからへんわ。普通のことを助けてもらうんやったら、LlamaよりもパフォーマンスがええGPTかClaudeを使うわ。
でも、コメント欄で教えてな。Meta AIを定期的に何かに使ってる？これらの新しいアップデートについてどう思う？
他のニュースやけど、OpenAIがついに今週、高度な音声機能をリリースしたんよ。このアップデートは、EUを除くすべてのChatGPT PlusとTeamの契約者向けやねん。
これはOpenAIのせいやないわ。EUのAI規制に関係してんねん。例えば、Llama 3.2もEUでは使えへんのよ。
まあ、OpenAIの高度な音声機能に戻ろか。今は選べる新しい音声オプションがいくつかあるし、いろんなアクセントもうまく扱えるようになったって言うてるわ。でも、5月に最初に紹介されたスカーレット・ヨハンソンみたいな「Sky」の声は削除されてしまったんやて。
もう既にこれの完全なレビューとテスト動画を作ったから、ここではあんまり繰り返さへんけど、もしまだ見てへんかったら、ぜひチェックしてな。
基本的に、めっちゃ厳しく検閲されてるって分かったわ。言語を学んだり、いくつかの言語の発音を修正したりするのに使えるし、例えばフランス語にはうまく対応してるけど、中国語はあんまりうまくいかへんかったな。
子供向けの寝る前のお話をいろんなアクセントで話したり、ガイド付きの瞑想や模擬面接にも使えるし、いろんな使い方ができるわ。
でも、限界をテストしようとしたら、いろいろ拒否されたんよ。バーチャル彼女になってって頼んだら拒否されたし、もっと親密な会話をしようとしても拒否されたわ。おやすみのキスをしてって頼んでも拒否されたし。まあ、現実の人生みたいやな。
歌を歌うこともできへんし、最初のデモ動画みたいな効果音も出せへんかったわ。でも、お話の中に効果音を入れてって頼むことはできたで。
とにかく、これについての完全なレビュー動画を見てみたら、何ができて何ができへんのかがわかると思うわ。
全体的に見て、まだまだかっこええツールやと思うけど、最初のデモ動画で見たもんに比べたら、ちょっと限定的やなって感じやな。
ほんで、スポンサーのAbacus AIが作った「ChatLLM」っていうめっちゃええツールについて教えたるわ。これを使うと、最高のAIモデルを全部一つのプラットフォームで使えんねん。GPT-4、Claude Sonnet 3.5、Llama 3.1、そして彼ら独自のSMも含まれてんで。
普通のチャットボットみたいに使えるだけやなくて、最高の画像ジェネレーターであるFlux Proを使って画像も生成できんねん。それに、めっちゃかっこええアーティファクト機能もあって、コーディングしたりなんか作ったりする時に、アプリを横に並べて見たり操作したりできんねん。
PDFや文書をドラッグアンドドロップして分析してもらえるし、レポートを作ったりデータを簡単に分析したりするのにめっちゃ便利やで。
Slackやほかのエンタープライズプラットフォームにシームレスに統合できるから、チームで協力するのにもええし、特定のタスクを自動化するためのカスタムエージェントも作れんねん。
これは最高のAIモデルを全部一つのプラットフォームで使える、めっちゃパワフルで多目的なツールなんや。説明の下にあるリンクから試してみてな。
他のニュースやけど、Googleも今週、Geminiモデルに大きなアップデートがあったって発表したんよ。このアップデートには、パフォーマンスの向上とコストの削減が含まれてんねん。
Googleは2つの新しいモデル、Gemini 1.5 Pro O2とGemini 1.5 Flash O2を紹介したんや。そう、1.5 Pro O2と1.5 Flash O2やで。前の命名規則でもわかりにくかったのに、さらにややこしくなったな。
「これが1.5 Pro O2やったら、なんで1.6って呼ばへんのや？」って思う人もおるかもしれへんけど、自分にもわからへんわ。ただそういうもんなんやろな。
まあ、Googleだけやないで、変な名前のAIモデルつけてんの。例えば、OpenAIにはGPT-3があって、それから3.5が出て、GPT-4が出て、それからもっと速いバージョンのGPT-4 Turboが出たやろ。
だから、次のバージョンはGPT-4.5かGPT-5になると思うやろ？でも違うねん。代わりにGPT-4oとGPT-4o miniが出て、それから最近ではO1 PreviewとO1 miniが出たんや。これ、GPTって名前すら入ってへんのよ。
なんでGPT-4.5かGPT-5って呼ばへんのか、誰にもわからへんわ。
まあ、Googleに戻ろか。この新しいモデルは、いろんなタスクのパフォーマンスが向上してんねん。特に、数学関連のベンチマークで20%の向上が見られたんや。つまり、数学の問題をもっと正確に、速く解けるようになったってことやな。
ビジョンとコーディングの使用例でも、両方のモデルが2%から7%パフォーマンスが向上してんねん。
パフォーマンスの向上だけやなくて、Gemini 1.5 Proの価格も50%以上下がったんや。128,000トークン以下のプロンプトの入力と出力の両方で、めっちゃ安くなったわけや。
それに、Googleはこれらのモデルを使うための制限も緩和したから、開発者はもっと多くのことを、制限に引っかかることなくできるようになったんやで。
新しいモデルはもっと速く動くようになって、以前のバージョンに比べて2倍速い出力と3倍低いレイテンシーを提供してんねん。
それに、長いコンテキストを理解する能力とビジョン機能も改善されてるから、AIがたくさんの情報を一度に理解して処理する能力が向上してんねん。
これはGemini 2やないけど、パフォーマンスとコストの両面で、特に開発者にとってはめっちゃ大きなアップグレードやと言えるわな。
他のニュースやけど、ハーバード大学医学部の研究者たちが、「TXGNN」っていう面白いAIモデルを作ったんよ。このモデルは、既存の薬を再利用して、希少疾患や neglected diseases を治療することを目的に設計されてんねん。
これは医学研究にとってめっちゃ大きな一歩やで。TXGNNはもう素晴らしい結果を出してんねん。これは単なる空想の産物やないで。
ほぼ8,000の既存の薬から、177,000以上の疾患を標的にできる可能性のある薬の候補を特定したんや。そのうちの多くは、今まで治療法がなかったものなんよ。
これがどれだけすごいか考えてみてな。このTXGNNは、希少疾患やneglected diseasesを持つ患者さんにとって、新しい希望を開くかもしれへんのや。今まで待ち続けてきたけど、治療法がなかったから何もできへんかったんよ。でも、このAIのおかげで新しい希望が生まれたんやで。
さらにすごいのは、TXGNNのパフォーマンスや。他の先端的なAIツールより49%以上も優れてるんやで。禁忌を予測する正確さも35%高いんや。禁忌っていうのは、ある薬を使うべきやない状況のことやけど、これは患者の安全にめっちゃ重要やからな。
じゃあ、これがどう動くのか説明したるわ。実はめっちゃユニークなアプローチを取ってんねん。いろんな病気の共通の特徴を見つけ出して、よく理解されてる病気から、希少で理解が進んでへん病気への関連性を見出すんや。
つまり、いろんな種類の病気をその共通の特徴に基づいてまとめた知識グラフを作ってんねん。そして、ある病気を治療できる可能性のある薬の候補を予測する時、この知識グラフを通して分析して、めっちゃ正確な予測ができんねん。
しかも、ゼロショットでできるんや。つまり、研究者がプロンプトを与えたり、さらに調整したりする必要がないってことやで。学習データに含まれてへんかった病気でも、一発で割と正確な予測ができんねん。
このAIは、長年neglectedされてきた希少疾患や病気の治療に大きなブレイクスルーをもたらす可能性があんねん。
素晴らしいのは、TXGNNを無料で利用できるようにしてんねんで。サイトはtxgnn.orgや。説明の下にもリンク貼っとくから、遊んでみてな。
これは基本的に、臨床医や科学者、あるいは技術的な知識さえあれば世界中の誰でも使える無料のプラットフォームで、どんな病気に対しても新しい治療法を探すのに使えんねん。
それから今週、OpenAIにもいくつか大きな変化があったんよ。まず、CTOのMira Murati、最高研究責任者のBob McGrew、研究担当副社長のBarrett Zophを含む、いくつかの中心メンバーが退社を発表したんや。
ほら、これがOpenAIの創業チームの写真や。ここにCEOのSam Altmanがおって、ここにGreg Brockmanがおる。それから、最高研究科学者のIlya Sutskeverがおる。彼はOpenAIの初期のプロジェクトのほとんどの頭脳やったんやで。そして、CTOのMira Muratiもおるな。
5月に、OpenAIがGPT-4oをリリースした翌日、Ilyaが退社すると発表したんや。そして8月には、Gregが休暇を取ると発表したんよ。本当に休暇なんか、それとも他に何かあるんか、誰にもわからへんけどな。
面白いことに、今週OpenAIが高度な音声機能をリリースした翌日、Miraが退社すると発表したんや。創業メンバーの中で、OpenAIに残ってんのは本当にSam Altmanだけになってしもたんやな。
CTOが退社するのは、特にOpenAI DevDayがもう1週間後に迫ってる今、あんまりええタイミングやないと思うわ。
まあ、Miraがツイートした内容を見てみよか。
「みなさん、お知らせがあります。よく考えた結果、OpenAIを去るという難しい決断をしました。OpenAIでの6年半は、extraordinary な特権でした。多くの個人に感謝の気持ちを伝えたいと思いますが、まずはSamとGregに、技術組織を率いる信頼を寄せてくれたことに感謝したいと思います。」
「理想的な別れ時というのは決してありませんが、今がその時だと感じています。」
「自分の探求をする時間と空間を作りたいから去ることにしました。今のところ、私の主な焦点は、私たちが築き上げてきたモメンタムを維持しながら、スムーズな移行を確実にすることです。この素晴らしいチームと一緒に働き、構築する機会を得られたことに、永遠に感謝し続けます。」
これ、まあ企業的な言い方やな。優しく言おうとしてるみたいやけど、このメッセージからはあんまり何も読み取れへんわ。
本当に「時間と空間を作りたい」から去るんか、それともっと大きな理由があんのか、彼女自身と、OpenAIのトップの人たち以外は誰も本当のところはわからへんやろな。
変なのは、Miraが去ると発表した後、研究担当副社長のBarrettも、OpenAIを去ると発表したんや。そして、最高研究責任者のBob McGrewも去ると発表した。これはもう一人のC級幹部やで。ただの新入社員開発者やないで。
その日のうちに、3人の重要な従業員が去ると発表したんやけど、その直後にこんなニュースが出てきたんや。
OpenAIが非営利から営利企業に組織変更する計画を立ててるらしいねん。この動きは、非営利の取締役会からコントロールを離して、投資家にとってもっと魅力的な会社にすることを目指してんねん。
去年の11月に、古い取締役会のメンバーがSam Altmanを突然解雇しようとした、あの馬鹿げた騒動を覚えてるやろ？CEOを突然警告もなしに解雇しようとするなんて、めっちゃおかしな話やけど、実は彼らは取締役会のメンバーやったから、そんなことができたんよ。
でも、この新しい営利企業への移行で、取締役会のメンバーは会社の決定に対してそんなに大きな影響力を持てなくなるかもしれへん。影響力は、会社の株をどれだけ持ってるかによって決まるようになるわけや。
この組織変更では、OpenAIの非営利部門を維持しつつ、新しい営利会社の少数株主にするみたいやね。ややこしいって思うかもしれへんけど、大丈夫や。あんたひとりやないで。
この変更の重要な点は、Sam Altmanが営利会社の株を受け取ることになるらしいってことや。その価値は約105億ドルになるみたいで、会社の評価額は1500億ドルになる可能性があるんやて。
Mira Muratiが退社した直後にこの発表が出てきたってのは、単なる偶然以上のものがあるように思えへん？
今のところ、できることは推測するだけやけどな。この営利企業への変更のせいで、これらの中心メンバーが去ってるのか、それとも他の理由があるのか、確実にはわからへんのや。
Mira Muratiがかつてツイートしたように、「OpenAIは人がすべて」なんや。だから、こんなにたくさんの中心メンバーがいなくなって、OpenAIはこれからもAIのリーダーであり続けて、O1や高度な音声機能みたいな革命的なモデルを出し続けられると思う？それとも、GoogleやAnthropicみたいな他の会社に追い抜かれて、衰退してしまうと思う？
まあ、これで今週のAIのハイライトは以上や。今週はめっちゃたくさんのことが起こって、めっちゃすごい1週間やったな。コメント欄で、これらのことについてどう思うか教えてな。あんたの意見を聞きたいし、できるだけたくさんのコメントに返事するように頑張るで。
いつも通り、トップのAIニュースやツールを見つけて、あんたらと共有し続けるつもりやで。この動画を楽しんでくれたなら、いいねやシェア、チャンネル登録をお願いするで。これからもたくさんのコンテンツを出し続けるさかい、楽しみにしててな。
それに、AIの世界では毎週めっちゃたくさんのことが起こってて、YouTubeチャンネルだけでは全部カバーできへんのよ。だから、AIで起こってることを本当に最新の状態で知りたいなら、無料のウィークリーニュースレターを購読してな。リンクは説明欄に貼っとくで。
見てくれてありがとう。次の動画でまた会おな！

完全AIボディスワップ、新画像モデルがFLUXを超える、Llama 3.2、希少疾患の治療法

いいなと思ったら応援しよう！