見出し画像

新しいAI動画生成ツール、筋肉を持つロボット、AIによるがん検出、AIアニメーションツール

13,363 文字

AIは眠らへんし、今週はほんまに凄かったですわ。新しいAIツールがめっちゃ出てきましたわ。無料のAIで動画の動きを別の動画で制御できるようになって、軌跡を使って動画内のオブジェクトを制御できるようになりました。オープンソースの動画生成ツールも2つも出てきて、96%の精度でがんを検出できるAIも登場しました。他にも新しい強力な画像編集ツールとか、たくさんのツールが出てきましたわ。
まずは、無料でオープンソースのすごく便利なAIについてですわ。モーション インバージョンというもので、ある動画の動きを別の動画にマッピングするんです。例えば、軌道を周回するような動きのソース動画があって、それをAIでローポリゲームアート風のウサギの動画を生成する時に、その周回する動きをウサギの動画に適用できるんです。
別の例を見てみましょか。クレーンアップのショットがソース動画にあって、AIで海辺の島を生成したら、そのクレーンアップの動きも一緒に生成されるわけですわ。
サンタが踊る動画をソースにして、ロボットが踊る動画を生成したら、ロボットはもとのサンタの動きを真似て踊るようになります。
2匹の子猫が遊ぶ動画をソースにして、ココナッツで遊ぶ猿の動画を生成したら、猿たちは子猫の動きやポーズを真似ることになります。画像生成のコントロールネットみたいな感じですわ。
仕組みはこんな感じです。まず、参照動画から動きを表す動作埋め込みを作ります。この埋め込みは、動画内でオブジェクトがどう動くかを捉えていて、フレーム間で自然な動きの流れを保つように設計されています。
これらの動作埋め込みは動画生成モデルに組み込まれます。画像生成のコントロールネットと同じような感じで、プロンプトで指定した新しいオブジェクト(例えば雪の森を走る自転車とか)を生成する時に、参照動画からの動きや相対的な位置関係が複製されるわけですわ。
もっと例を見てみましょか。同じ周回ショットをソースにして、3Dスタイルの家を生成すると、周回の動きが反映されています。
もとのサンタの動画から、秋に踊るスケルトンのスーツを生成すると、サンタの動きやポーズが反映されます。
筋トレする男性の動画から、森でプルアップする虎を生成すると、虎はダンベル運動をしながら、もとの動画の人物のポーズや動き、カメラワークを真似ます。
かわいいハスキー犬が森の中を動き回る動画から、花園に座るドラゴンを生成すると、ドラゴンの構図や動きがハスキー犬の動画と一致します。
これはクリエイターや映像作家にとってめっちゃ便利ですわ。参照動画を使って、どんなシーンのカメラワークも制御できます。今のAI動画生成ツールでは、プロンプトで「左にパン」「上にティルト」「ズームアウト」とかカメラワークを指定できますが、プロンプト通りに動かないことも多いし、カメラワークを100%制御するのは難しいです。でもこのツールを使えば、その問題が解決できます。
ありがたいことに、Hugging Faceでデモも公開されてますわ。説明の下にリンクを貼っておきます。例えば、サンタが踊る動画を入力して、「アイアンマンが踊る」ってプロンプトを書いて、サンタダンスのチェックポイントを選んで動画を生成すると...はい、サンタと同じ動きで踊るアイアンマンが生成されます。
オンラインのHugging Faceスペースで試せるだけじゃなく、GitHubでコードも公開されてますので、自分のパソコンでローカルに実行することもできます。これ、無料でオープンソースなんですよ。
このプロジェクトがすごいと思ったら、もっとすごいのがありますわ。トーラ(Tora)というアリババが開発したAIで、軌跡を描くだけで動画内のオブジェクトの動きを制御できるんです。これも動画の要素を超精密に制御できます。
いくつか例を見てみましょか。渦巻き状の軌跡を描いて、「鮮やかな紫とひまわり色の2本のバラが、背景に対して優雅に一緒に揺れる接写ショット」というプロンプトを入れると、描いた軌跡に沿ってバラが動きます。
もっとすごい例があって、複数の軌跡を描けるんです。ここでは3羽の鳥の軌跡と手前のサンゴの動きを描いています。プロンプトで「カラフルなサンゴ礁が広がる活気のある海中世界を、カモメの群れが優雅に飛び交う」と指定すると、上の3羽のカモメが軌跡通りに飛んで、手前のサンゴも描いた通り少し左にパンするんです。めっちゃ便利なツールですわ。
別の例では、複数の軌跡を全部右にパンするように描いて、「緑の丘が連なる絵のような田舎の風景」というプロンプトを入れると、その通りになります。
「火星の赤い岩の表面を優雅に泳ぐフナ」というプロンプトで、魚が左に動く軌跡と、火星の背景が右に動く軌跡を描くと、まさにその通りの動画が生成されます。
フォアグラウンドに向かって動くオブジェクトの軌跡も面白いです。クリングのモーションブラシでは左右の動きは簡単ですが、前後の動きは難しいんです。でも、このツールはハイウェイを自転車で走る2人の動きもうまく表現できています。
縦横比が違う動画でも問題なく動作します。縦長の動画で提灯の軌跡を描くと、提灯はその軌跡通りに流れていきます。
同じ軌跡でも違うプロンプトで試せます。シャボン玉のプロンプトだと、シャボン玉が軌跡に沿って動きます。赤いヘリウム風船のプロンプトでも風船が軌跡通りに動き、クラゲが海を泳ぐプロンプトでも完璧に軌跡を追います。
左右左と動く軌跡を描いても、テディベアがその通りに左右左と揺れます。ひまわりも、ぶら下がるガラスの瓶も同じです。
同じ写真と同じプロンプトでも、描く軌跡によってカメラの動きが変わります。
仕組みを簡単に説明しますと、トーラ(TORA)は「軌跡指向拡散トランスフォーマー」の略です。システムは3つの主要部分からなります。
まず「軌跡抽出器」があって、これは指定された軌跡を分解して、アルゴリズムが動画の動きを処理・理解できるデータにします。
次に「時空間拡散トランスフォーマー」があります。これは最近のトップクラスの画像・音声・動画生成AIで使われているモデルタイプです。ChatGPTとStable Diffusionを掛け合わせたような感じで、画像や動画、音声を生成するだけでなく、文脈もよく理解できます。これが動画生成の主要エンジンになります。
最後に「モーションガイダンス融合器」があって、これが軌跡の動きの情報を動画生成プロセスに組み込みます。動画内のオブジェクトが指定された軌跡に沿って動くようにし、すべてが滑らかで自然に動くようにします。
これもGitHubでコードが公開されていて、ローカルで使えます。プロジェクトページへのリンクも説明欄に貼っておきます。
この2つのツールがすごいと思ったら、もっとすごいのがありますわ。Google DeepMindの「VidPanos」というプロジェクトで、これも今週発表されました。1本の動画から広いパノラマ動画を作れるAIです。
例えば、カメラが動いてシーンを撮影する動画があるけど、一度にすべての範囲を捉えていない場合、このAIは動画の個々のフレームを広いキャンバスに貼り合わせて、1つの大きなパノラマ動画を作ります。めっちゃすごいですよね。
パノラマ動画の端の部分は、元の動画からの情報が少ないので推測する必要がありますが、うまく処理できています。
別の例を見てみましょか。元の動画は左右にパンするだけの狭い動画なのに、そこから全体のシーンをパノラマ動画として再構築できています。右上の建物に少し歪みはありますが、水上でカヤックをする人々は動画全体で一貫性を保っています。これはかなり難しい作業ですわ。
観光地を左右にパンするだけの動画からも、全体のパノラマシーンを再構築できます。
仕組みはこんな感じです。まず入力動画をパノラマキャンバスに投影します。最初のフレームだけだと周囲の環境の情報や詳細が大部分欠けていますが、入力動画からフレームを取り込むにつれて情報と詳細が増えていき、パノラマキャンバスがどんどん埋まっていきます。
生成AIを使って全体を整列させ、空間と時間の両方でギャップを埋めます。最後に出力を拡大し、元の入力動画フレームと新しく作られたコンテンツを組み合わせて、高品質なパノラマ動画を作り出します。
この手法は今のところ最高のものみたいです。上が入力動画で、一番下が実際の現実(グラウンドトゥルース)だとすると、2番目と3番目の列は既存の手法による結果ですが、パノラマ動画の再構築がめちゃくちゃ下手くそです。でもGoogleの新しい手法ではかなりシームレスに再構築できています。
スキーをする人の例でも、既存の手法ではパノラマ動画の再構築がひどいですが、この新しい手法はかなり良いです。別の難しい例でも、GoogleのDeepMindのツールが今のところ最高の結果を出しています。
次は、今週発表された無料でオープンソースのAI動画生成ツールを2つ紹介します。どちらもこれまでに見たものよりずっと優れています。
まず「Allegro」です。これはRyan AIが開発した動画生成ツールで、テキストプロンプトに基づいて短い動画を作れます。クオリティーもかなり良いです。
例えば「教授が居心地の良いオフィスで仕事をしている。窓の外では雪が降っていて、黄色いセーターを着た彼は本が散らかった机に座っている」というプロンプトで、オープンソースの動画生成ツールとしてはかなり良い品質の動画が作れます。
タクシー運転手が駅で座っている例も、シネマティックな雰囲気で品質が良いです。
美術館で読書する学生の例もありますが、これらは単純なズームやパンのポートレート動画です。スノーボーダーのような動きのある場面になると、人物の周りにハルシネーション(誤生成)が見られますが、全体的にはまだ印象的です。
「新鮮なパウダーを通り抜けるスノーボーダーのスローモーションショット」というプロンプトで生成した例です。
「若い男の子が雄大なウミガメと一緒に泳ぐ」というプロンプト、「若い女性が緑の野原で赤いバラの花束を頭上に掲げている」というプロンプト、「リスがどんぐりをかじりながら木に座っている」というプロンプトなどがあります。リスは確かにどんぐりをかじっていますが、なぜかスローモーションになっています。
アニメーションもできますが、この生成例のように不自然な部分もあります。たくさんのオブジェクトや人物がいる複雑なシーンだと、ハルシネーションが多くなります。人々の顔が時間とともに歪んでいくのが分かります。一貫性はありませんが、路面電車や周囲の環境に注目すると、クオリティは悪くないです。
機能を簡単に説明しますと、現時点では15fpsで720p解像度の6秒動画を生成できます。アーキテクチャについては、1億7500万パラメータのビデオVAE(変分オートエンコーダ)があって、これが生の動画を潜在空間にエンコードします。それに28億パラメータのビデオ拡散トランスフォーマーモデルがあって、これが実際の動画を生成します。また「拡散トランスフォーマー」という用語に注目してください。これは今日最高の画像・動画・音声生成器が使用しているアーキテクチャです。
ありがたいことに、完全なモデルの重みとコードがすでに公開されていて、ローカルでダウンロードして使用できます。説明欄にGitHubページへのリンクを貼っておきます。そこに必要なインストール手順がすべて書いてあります。
最高なのは、これがApache 2.0ライセンスの下で公開されていることで、制限がほとんどありません。好きなように使用・改変できて、商用利用も可能です。チームは画像から動画への生成、モーション制御、より長い動画のサポートなど、追加機能にも取り組んでいます。
でもそれだけじゃないんです。もっとクオリティの高い、これも無料でオープンソースの動画生成ツールがあります。今週発表された「Machi」です。これはGenmo AIが開発していて、現時点で使える最高品質のオープンソース動画生成ツールだと思います。細部のディテールやリアリズムを見てください。ここ数ヶ月のAI動画の進歩は本当にすごいですわ。
Machiは100億パラメータの拡散モデルを使って動画を生成します。具体的には「非対称拡散トランスフォーマー」という新しいアーキテクチャを採用していて、これがユーザーのプロンプトの処理と視覚的な推論を改善します。現時点では480p解像度の動画を生成できて、将来的にはより高い解像度に対応する予定です。
面白いのは、彼らが報告したベンチマークです。独立した評価者によるものではないので、一応割り引いて考える必要がありますが、プロンプトへの忠実度に関しては、MachinaはClingやGen3のような独自の動画生成器よりも優れているようです。モーション品質のELOスコアでもClingと匹敵し、Runway Gen3を上回っているようです。
彼らのプレイグラウンドで無料でオンライン使用できます。リンクは説明欄に貼っておきます。あるいはGitHubからダウンロードしてローカルで使うこともできます。重みとインストール手順もすでに公開されています。
これもApache 2.0ライセンスで、使用・改変が自由で商用利用も可能なのが素晴らしいですね。
でも、あまり興奮する前に注意点があります。下の方に「少なくとも4台のH100 GPUが必要」と書いてあって、これ全部で16万ドルくらいするんです。でも落胆する必要はありません。発表から数日で誰かがComfy UI用の微調整ノードを作ってくれて、これなら20GB以下で動作します。元のバージョンをダウンロードするとGPUが死にますので、こっちをダウンロードした方がいいです。「Comfy UI Machi Wrapper」っていうやつで、これも説明欄にリンクを貼っておきます。
この動画ではAIニュースを手短に紹介しましたが、MacchiとAllegroの両方について、完全なレビューとテスト動画を予定していますので、お楽しみに。
この動画はiorの提供でお届けしています。iorは学術的・創造的な文章作成を強化するために設計された強力なAIアシスタントです。ライターが直面する一般的な課題に対応する多目的ツールです。
iorの際立った機能の1つは、APAやMLAなどの標準的な引用形式に従って、自動的に文章に参考文献を追加できることです。これは大変な時間の節約になります。
また、トピックや目次の生成を手伝ってくれるので、インスピレーションを得たり、ライターズブロックと戦うのに役立ちます。AI生成コンテンツの信憑性が気になる場合は、iorにはAIコンテンツ検出器が組み込まれていて、テキストがAI生成である可能性を評価できます。
さらにAI偽装ツールもあって、テキストを洗練させて、より人間らしく、AIっぽくない文章にすることができます。
もちろん、人それぞれ独自の文体がありますから、自分の文体で書けるAIがあれば素晴らしいですよね。iorには個人化機能があって、生成されたテキストをあなた独自の文体に合わせて調整できます。
これらの機能が連携して、自然で信頼性が高く、正確なコンテンツを書くのを手伝ってくれます。説明欄のリンクからiorをご覧いただき、文章作成力がどれだけアップするか体験してください。コードAI search 10を使えば全機能が10%オフになります。
次はもっと凄いかもしれません。中国のロボティクススタートアップEngine AIが、人間のような歩行能力を持つヒューマノイドロボット「SE01」を発表しました。流体的で自然な歩き方を見てください。
なぜこれを取り上げるのか、なぜこれがそんなにすごいのか疑問に思うかもしれません。実はこれは、ヒューマノイドロボット設計における最大の課題の1つを解決する大きな成果なんです。
私たちの体は柔らかく、筋肉や靭帯がクッションとして働いて、動く時の衝撃を吸収し、関節や骨にかかるストレスを軽減します。だから私たちや他の動物の動きは、もっと流動的でスムーズなんです。
でもロボットは硬い材料でできているので、この自然なクッション性がありません。そのため、これほど自然に歩くロボットを設計するのは本当に難しいんです。テスラのOptimus、Figure 1、他のロボットのデモを見ても、動きは不器用で、このロボットのような自然な動きは全くありません。これを実現するには、かなり巧妙なエンジニアリングが必要なんです。
ロボット工学の世界からもう1つ興味深いデモがあります。「Torso」というロボットで、Clone Roboticsが開発した、人間の動きを模倣するための高度な人工筋肉を備えたロボットです。
設計の概要を見てみましょう。Torsoには2本の完全に機能する腕があり、人間と同じように両手を使う作業ができます。最も興味深いのは、水で動く人工筋肉を持っていることで、これによってスムーズでダイナミックな動きが可能になります。これは人間の筋肉の柔軟性と強さを模倣し、より効率的になることを目指しています。
「水で動く」って何?と思うかもしれませんが、これらの人工筋肉は基本的に水の入った気密チューブです。これは油圧システムで、人間の筋肉が収縮・弛緩するのと同じように、これらの筋肉も収縮・弛緩できます。人間の体の約60%は水でできていることを考えると、この水の筋肉システムを持つロボットを設計するのはそれほど突飛なアイデアじゃないかもしれません。
SE01と同様に、柔らかい人工筋肉を使用することで、より滑らかで人間らしい動きが可能になります。さらに、これらの筋肉は従来の電気モーターやコンポーネントと比べて軽量でコンパクトです。
ちなみに、Clone Roboticsはこのロボットに加えて、人間の手を忠実に模倣するように設計された手も持っています。この手は筋骨格構造を持ち、人間の手と同じように人工の骨、靭帯、筋肉を備えています。この設計により、複雑なジェスチャーや動きを高い精度で行うことができます。
この手も水力で動く人工筋肉を使用していて、彼らによると、これらの筋肉は他の利用可能な代替品の10倍以上の強さを持っているそうです。このような柔軟性と精度があれば、例えば医療分野、手術やリハビリなどでの活用が期待できます。
次は「AIOS」です。人間の検出とポーズ推定のための超便利なオープンソースアルゴリズムです。動画を取り込んで、動画内のすべての人間のポーズを識別できます。ここで見られるように、将来的にはMoCap(モーションキャプチャ)のような技術は必要なくなるかもしれません。
このAIの精度がどれほどすごいか見てみましょう。入力動画をここ右に移動させて...このAIができることを見てください。動画内の人々のポーズと動きを検出できて、これはめちゃくちゃ正確です。2人の激しい動きのシーンでも、2人の動きを非常に正確に予測できています。
たくさんの人が踊る動画の別の例でも、このAIはすべての人のポーズと動きを非常に正確に予測できます。これがどれだけすごいか見てください。この人が叫ぶと顔の表情も変化することに注目してください。手や指、手足の動きだけでなく、ある程度表情も捉えているんです。
チェロを弾く人の例も印象的です。チェロを弾くときの指の動きまで正確に捉えています。ピアノを弾く女性もいます。全体的にめちゃくちゃ印象的です。この人の表情にも注目してください。これは非常に精密な推定ツールです。
複数の人が踊り回る、とても難しい動画の別の例もあります。激しい動きのシーンですが、このAIはこれらの人々のポーズと動きをかなり正確に予測できています。
BLACKPINKのMVからの例では、彼女たちが動き回っても、このAIは4人のダンサー全員のポーズを非常に正確に予測できています。
話をする人の例では、体全体だけでなく、口の動きや指の動きまでも捉えています。
仕組みを簡単に説明しましょう。この手法は検出トランスフォーマーアーキテクチャをベースに構築されていて、これらの段階で構成されています。
まず動画を取り込んで、効率的な処理のためにトークンに分解します。次の段階では、動画内の人間の位置を予測します。下に結果が表示されていて、緑の四角で囲まれたすべての人間を識別しています。
次の段階では、この情報を使って、各人の手足や手、顔の特徴の位置を予測します。下を見ると、人間をラベル付けしただけでなく、各人の手足の位置や表情もラベル付けしています。
最後に、データは全身精密化段階を通過し、特徴がさらに精密化されて、すべての人の完全な体が構築されます。
どれほど優れているか示すために、他の既存の手法と比較してみましょう。これは古い手法で、シーン内の全員を捉えられておらず、ポーズも少しずれています。これは別の既存の手法で、より多くの人を捉えていますが、やはり正確ではありません。でも彼らのツールでは、すべてがどれだけ正確か見てください。はるかに優れています。
別の例では、これは以前の手法ですが、写真では皆が左を向いているのに、アルゴリズムはそれを捉えられていなくて、なぜか皆まっすぐ前を向いています。これは別の既存の手法ですが、同じように誰も実際には左を向いていません。でもこの新しい手法では、皆が実際に正しい方向を向いているのが分かります。
この動画で紹介した他のツールと同様に、GitHubでコードを公開していて、ローカルでダウンロードして使用できます。すべてそこにあって、自分のコンピュータで使えます。
これの可能性は計り知れません。アニメーションだけでなく、例えばリハビリ現場で患者の動きをモニタリングしたり、遠隔医療で患者の動きを追跡して身体状態を正確に評価したり、スポーツやフィットネスで選手のパフォーマンスを分析したりすることもできます。また、監視システムにも使えます。特に人が多い場所で、セキュリティカメラに組み込んで群衆の行動をリアルタイムで分析し、異常を検出することもできます。
次は、私が見た中で最も強力な画像編集ツールです。「OmniGen」というもので、基本的にプロンプトだけで画像を編集できます。例えば、この画像があって、「女性のイヤリングを取り除いて、コーヒーカップを透明なグラスに入ったスパークリングアイスコーラに置き換える」と書くだけで、まさにその通りになります。イヤリングを取り除いて、カップをコーラのグラスに置き換えます。
「この画像の人間の骨格を検出して」と書くと、まさにその通りになります。コントロールネットや修復などは必要ありません。そして「この写真と文章を条件として新しい写真を生成して。図書館のソファに座って本を持つ若い男の子」と書くと、まさにその骨格写真に基づいて生成されます。
画像をハイライトさせることもできます。「女性は喉が渇いています。何を取るべきですか?画像内でそれを見つけて青でハイライトして」と言うと、コーラのグラスを青でハイライトしているのが分かります。
もう顔のスワップやLSも必要ありません。画像とプロンプトだけで、誰の顔でもクローンできます。これが入力画像で、「この画像の女性が群衆の中で手を振っている」とプロンプトを書くと、まさにその通りになります。
もっとすごい例があります。2枚の画像を入力して、「男性と女性が教室の机に座っています。男性は画像1の黄色い髪の男性で、女性は画像2の左の女性です」と書くと、まさにその2人のキャラクターが教室の机に座っているのが出力されます。これはかなりすごいです。
OmniGenについては約1ヶ月前に動画を作っているので、まだ見ていない方はそちらをご覧ください。これを見逃さないためにもチャンネル登録をお勧めします。当時は論文の事前公開だけで、コードはまだ公開されていませんでしたが、今週ついにコードが公開されて、GitHubにあります。実際に自分のコンピュータにローカルでインストールできます。使い方の完全なチュートリアルも予定していますので、お楽しみに。この動画では、OmniGenのコードがついに公開されたことをお知らせしたかっただけです。
他のニュースでは、Ideogramに新しい超クールな機能が追加されました。Ideogramを知らない方のために説明すると、これは最高の画像生成ツールの1つで、Fluxと同じくらい優れていて、個人的にはMidJourneyを上回ると思います。
これまではプロンプトを入力したり画像をアップロードしたりする単純な機能しかありませんでした。例えば、アスペクト比を2:3に設定して、「巨大なチンチラを抱える男性」とプロンプトを入力し、スタイルをリアルに設定して生成をクリックします。ここの作成タブに、巨大なチンチラを抱える男性の画像が表示されるはずです。
でも新機能の「キャンバス」がすごいんです。写真を生成したら、この写真を選んで、3つのドットをクリックして「キャンバスで編集」を選びます。できることを説明しますと、まずスペースバーを押しながら動かしたり、ズームインアウトしたりできます。
インペイントもできます。この「マジックフィル」機能があって、特定の領域を選択できます。長方形のマスクを使ってチンチラを選択したり、マスクが気に入らなければCtrl+Zで元に戻せます。投げ縄マスクもあって、より自由な形でマスクを描けます。このチンチラをこんな感じで選択して...「巨大なウサギに変える」として、マジックフィルをクリックすると...はい、できました。すごいでしょ?
すべてがシームレスで、チンチラをウサギに魔法のように変換して、すべてが超リアルに見えます。でもできることはまだあります。この「拡張」機能で画像をアウトペイントすることもできます。少しズームアウトして、キャンバスを好きなように拡張できます。自由に好きなサイズにドラッグしたり、ここでアスペクト比を選択したりできます。
1:1にして、画像の左右を拡張したいとします。これは収納室かな?「収納室」と書いて拡張をクリックすると...はい、できました。作成タブに戻ると、実は一度に4つの生成画像を作ってくれます。ここに正方形比率でアウトペイントされた4つの画像があって、好きなものを選べます。チンチラをウサギに変換した4つの画像もあります。これは本当にクールで便利な機能です。
他のニュースでは、Anthropicが今週大きなアップデートを発表しました。「コンピュータ使用」という新しいエージェント機能があって、これはエージェントにあなたのコンピュータを制御させることができます。これは他のAIエージェントとは違います。他のエージェントはサイトのHTMLコードをスキャンしてボタンを押すべき場所を理解するだけですが、あなたのワークフローが異なるプラットフォームを多く使用する場合、例えばSpotifyから何かをスクレイピングして、YouTubeで、そしてNetflixで、それを全部Googleシートに追加する必要がある場合、すべてのデータをプログラムで抽出してワークフローを実行するのは難しいです。
特に、ウェブサイトのレイアウトが異なり、しかも時間とともに変更される場合、エージェントに特定のワークフローを従わせるのはプログラム的にはとても難しいです。でもこのエージェントは違います。コードを見てボタンを押すべき場所を理解するのではなく、AIビジョンを使ってスクリーンを見て、人間のようにマウスを動かしたりキーボードを押したりして特定のタスクを実行します。
これをインストールして自分のコンピュータで実行する方法の完全なチュートリアルをすでに作っていますので、まだ見ていない方はそちらをご覧ください。さらに今週、Claude 3.5 Sonnetの新バージョンもリリースされました。
何と、Claude 3.6 Sonnetではなく、混乱させるためか、Claude 3.5 Sonnet newと呼ばれています。この動画ですでにいくつかのテストを行っていますので、まだ見ていない方はご覧ください。でもこの動画を公開した時はまだ早すぎて、このClaude 3.5 Sonnetモデルは信頼できるリーダーボードにはまだ載っていませんでした。
この録画時点で、ついに結果が出ています。これはArtificial Analysisによるllmリーダーボードで、Claude 3.5 Sonnet newは実際にかなり良い成績を収めています。Gemini 1.5 ProとGPT 4.0の両方を上回り、現在OpenAIの01 Previewと01 Miniに次いで3位です。
ただし、これら2つとClaude 3.5 Sonnetを単純に比較することはできません。この2つはより深い思考能力を持っていて、即座に答えを出すのではありませんが、Claude 3.5はまだそうします。そのため、01モデルの方が少し良い成績を収めることは予想されていましたが、そこまで大きな差はありません。インデックススコアを見ると、01 Miniはわずか2ポイントしかClaude 3.5 Sonnetを上回っていないので、かなり優れているようです。
Abacus AIによるlivebenchという別のリーダーボードもあります。ここにはいくつかの違いがあって、彼らはClaude 3.5 Sonnetが実際に2位で、01 Previewだけが上回っているという結果を出しています。実際、彼らの調査では、両方のClaude 3.5 SonnetモデルがOpenAI 01 Miniを上回っています。
このリーダーボードとあちらのリーダーボードで違いがあるのはなぜかと思うかもしれません。異なるベンチマークと指標を使用しているからです。だからこそ、1つのリーダーボードだけでなく、複数のリーダーボードを見て、これらのモデルが実際にどれだけ優れているかを把握することが重要なんです。
LMsysのリーダーボードも見てみましたが、少なくとも最新のモデルのClaude 3.5 Sonnetはまだ見当たりません。古いモデルは10位にありますが、これをクリックすると2024年6月20日のリリースなので、新しいモデルのデータがまだ十分にないのでしょう。
他のニュースでは、ハーバード大学の科学者たちが、96%の精度でがんを検出できるAIを開発しました。作り方はこんな感じです。AIは6万枚以上の医療画像という巨大なデータセットで訓練されました。全部で44テラバイトのデータです。
これらの医療画像のサンプルはこんな感じで、このデータを全部学習することで、AIは複雑な医療用語や文脈を理解し、がんの兆候などの異常を検出することを学びました。
訓練後、このAIは多くの有用なことができます。これらの画像から19種類のがん細胞を高い精度で検出できます。腫瘍の遺伝子プロファイル、つまりがんの成長や治療への反応に影響を与える可能性のあるがん細胞のDNA変化も検出できます。
さらにすごいのは、これらの医療組織画像を見るだけで、患者の生存率をかなりの精度で予測できることです。これはかなりすごいことですよね。将来、AIに体をスキャンしてもらって、「ところで、あなたはあと10年しか生きられませんよ。信じてください、私の精度は99.9%ですから」なんて言われる時代が来るかもしれません。
冗談はさておき、いいところは患者のデータをリアルタイムで分析できることで、患者への即座の診断が可能になります。
以上が今週のAIのハイライトです。実はまだ紹介していないものがたくさんありますが、それをすべて紹介すると1時間以上になってしまいます。コメント欄で、これらすべてについてどう思うか教えてください。いつも通り、トップのAIニュースとツールを探して皆さんと共有していきます。
この動画を楽しんでいただけたなら、いいね、シェア、チャンネル登録をお願いします。新しいコンテンツをお楽しみに。また、AIの世界では毎週本当にたくさんのことが起きていて、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっていることすべてを最新情報として得るために、無料の週刊ニュースレターを購読してください。リンクは説明欄にあります。
ご視聴ありがとうございました。また次回お会いしましょう。

いいなと思ったら応援しよう!