OpenAI DevDay 2024では、2025年までにAIエージェントの実現を目指すことが明らかになりました。ChatGPTには新機能「Canvas」が追加され、テキストの編集や長さの調整、コードレビューなどが可能になりました。Microsoftは、Copilot搭載PCに新機能を追加し、ユーザーの行動履歴を記録する「Recall」機能や、画像に対するAI処理オプションを提供する「Click to Do」機能などを実装しました。また、CopilotにはAIによる視覚理解機能も追加されました。Googleは、Google Lensに音声質問機能を追加し、画像や動画の内容を理解して回答できるようになりました。さらに、AIを使用して検索結果を整理する機能も導入されました。画像生成AI分野では、Flux 1.1 Proが登場し、テキストの理解力や画像の品質が大幅に向上しました。動画生成AI分野では、ByteDanceがSoraに匹敵する新しいAI動画生成モデルを発表しました。ゲーム業界では、Steamプラットフォームに「Dream World」という新しいゲームが登場し、プレイヤーが思い描いた3Dオブジェクトを即座にゲーム世界に生成できるようになりました。AI規制に関しては、カリフォルニア州知事がAI企業の責任を問う法案SB 1047を拒否権で否決し、ディープフェイク関連の法案AB 2839も裁判所によって一部無効とされました。ロボット工学の分野では、はしごを登ることができる四足歩行ロボットが開発され、危険な高所作業への応用が期待されています。
公開日:2024年10月5日
※動画を再生してから読むのがオススメです。
今週はAIの世界で本当に信じられないような一週間でした。
OpenAI、Google、Microsoft、Meta、そしてすべてのAIアートジェネレーターや動画ジェネレーターからの発表がありました。
皆がこの週に新しい発表を行い、新機能を展開することに決めたようです。
この動画にはたくさんの情報があります。
私はできるだけ迅速にお伝えし、あまり長話をせずに、今週起こったすべての驚くべきAIニュースを共有しようと思います。
さっそく本題に入りましょう。
ここでOpenAIについてお話ししましょう。
今週はOpenAIのDev Dayでした。
ほとんどの発表は開発者向けであり、ChatGPTのエンドユーザー向けではありませんでしたが、Dev Dayからはいくつか興味深い情報が出てきました。
サム・アルトマンはDev Dayの最後に小さなファイヤーサイドチャットを行い、観客に質問をする機会を与えました。
多くの質問は、私たちはいつAIエージェントを手に入れるのかというものでした。
Tom'sGuide.comの記事によると、OpenAIはAIエージェントが来年登場することを確認しています。
OpenAIは来年にエージェントを発表する予定です。
これらは、人間の入力なしでさまざまなタスクを実行できる独立した人工知能モデルであり、近くChatGPTで利用可能になるかもしれません。
私の知る限り、OpenAIはまだDev Dayの録音を公開していません。
しかし、私は「Kyle Khabasaras」というYouTubeチャンネルを見つけました。
もし名前の発音を間違えていたら申し訳ありませんが、彼は実際にサム・アルトマンとのファイヤーサイドチャット全体を撮影しました。
エージェントが2025年までにここにいると言っているものに最も近いものは、この小さなクリップです。
エージェントがOPIの長期計画にどのように組み込まれると考えているのか、もう少しお話しいただけますか。
そうですか?
それは大きな部分です...
私が思うに、興味深いのはこのモデル群、特にO1とその後継モデルが、この実現を可能にするということです。
なぜなら、ついに推論する能力を持ち、難しい問題をより簡単な問題に分解し、それに基づいて行動することができるからです。
私は2025年がこれが本格的に広がる年になると思います。
彼らはステージ上で、2025年がその年になると考えていると述べ、サム・アルトマンもそれをある程度確認しました。
それが、彼らが2025年までにエージェントを考えていることを確認するように思える唯一のクリップでした。
フルビデオはオンラインにはないと思いますが、もし彼らが行ったこの全体のファイヤーサイドチャットを見たいのであれば、こちらのカイルのチャンネルをチェックしてください。
説明欄にもリンクを載せておくので、確認してみてください。
これからDev Dayの発表についてもっと話しますが、その前に、今週新たに導入されたChatGPTの機能であるCanvasについて話しましょう。
Canvasは、ChatGPT内のUIの完全なオーバーホールのようなものです。
私たちは、ChatGPTが編集を提案し始めることがわかります。
それは、長さを短くしたり長くしたり、読みやすさを調整したり、最終的な仕上げを加えたり、文法や明瞭さをチェックしたりすることができます。また、絵文字を追加するように頼むこともできます。
さらに、今回の新しいCanvasでは、コードのレビュー、ログの追加、コメントの追加、バグの修正、別の言語への移植といったコーディング機能も追加されました。
JavaScriptからPythonなど、さまざまな言語に移行することができます。
ここでサム・アルトマンがXで述べているように、新しいCanvas機能は現在、ChatGPT Plusの全てのサブスクライバーに対して利用可能です。
もしあなたがChatGPTの有料サブスクリプションを利用しているのであれば、今この機能を利用できるはずです。
私がChatGPTのアカウントに入ると、デフォルトではまだChatGPT-4oになっていますが、このドロップダウンをクリックすると、Canvasを使ったGPT-4oに切り替えるオプションがあることがわかります。
新しいo1プレビューモードではCanvasは利用できませんが、GPT-4oモデルでは利用可能です。
ここをクリックすると、Canvasを呼び出す機能が今利用できるようになりました。
例えば、「コンピュータを使うことを学ぶオオカミについての短い物語を書いて」とプロンプトを与えてエンターを押すと、インターフェース全体が完全に変わり、私のチャットが左のサイドバーに移動し、書かれた物語が右のウィンドウに表示されるのがわかります。
クラウドを使用していて、クラウドのアーティファクトを見たことがあるなら、これは非常に似ていると感じるでしょう。
最大の違いは、クラウドのアーティファクトでは、実際にコードを生成させることができる点です。
そして、別の画面に移動することなく、コードが何をするのかを実際にプレビューすることができます。
これはコードを出力するだけですが、実際にコードを実行するためには、どこか別の場所にコードをコピー&ペーストする必要があります。
ChatGPTの新しい右側を作成したときに、ここでテキストを選択できるようにしたのです。
テキストを選択すると、その段落についてChatGPTに質問することができます。
その段落だけを再構成するように指示することもできます。
もしそれを送信すると、実際にその段落だけを自動的に修正し、文書の他の部分はそのままにしておくことがわかります。
以前は、基本的に文書全体を再構成するように指示しなければならなかったのですが、最初の段落だけを修正することができました。
それは文書全体を完全にやり直してしまうことになっていました。
このテキストを選択すると、太字や斜体にしたり、見出しに変更したりすることができます。
右側のサイドバーには、下に小さな鉛筆のアイコンがあります。
その上にカーソルを合わせると、提案された編集、長さの調整、読みやすさのレベル、最終的な仕上げの追加、絵文字の追加などの新しいメニューが開きます。
「提案された編集」をクリックすると、実際に自分が書いたストーリーを読み返し、自分自身のストーリーに対する編集を提案します。
提案された編集が気に入った場合は、Googleドキュメントなどと同様に「適用」をクリックすると、実際にそれを調整し、自分が提案した新しいバージョンで編集されます。
長さを調整するをクリックすると、ここに小さなスライダーがあり、非常に長くしたり非常に短くしたりできます。
最短にしてそのまま離すと、全体が書き直されますが、ずっと短いバージョンになります。
長さを調整するをクリックして、最長まで引き上げると、物語全体が再構成され、今回はかなり長くなります。
スライダーを使って読みやすさのレベルを変更することもでき、幼稚園レベルから大学院レベルまで調整できます。
もしここで幼稚園レベルに落とし込むと、実際にはその文体は子供向けの書き方に近いことがわかります。
森の奥深く、高い木々の下で、狼の群れは何か奇妙なものを見つけました、などなど。
もし私が読みのレベルを大学院レベルまで引き上げると、より詳細な描写が見られます。
密生した森林生態系の奥深く、そびえ立つ針葉樹の広大な樹冠の下で、狼の群れは異常な物体に遭遇しました。
それは読みのレベルを完全に変えてしまいます。
もしあなたが何らかの複雑な概念を説明してもらおうとしていて、理解できていない場合、基本的にそれを簡単に説明するように頼むことができ、最終的に理解できるまでどんどん簡単にしてもらうことができます。
最終的な仕上げを加えることができます。
それがどのように処理され、フォーマットされるかを見ることができます。
見出しといくつかのサブ見出しがあり、それが全体を分けて整理してくれました。
少し読みやすくなりました。
絵文字を追加するをクリックすると、期待通りに絵文字をいくつか追加してくれます。
そのように見せてください。
私はこれをクリアして、新しいチャットウィンドウに移動しようと思います。最近追加された、かなり面白い機能があるからです。
ここにあるチャットウィンドウに来ると、実際にクイックショートカットがあることがわかります。
もし私が「/」と入力すると、理由、検索、画像が表示されます。
画像を選択すると、その後に入力したものに基づいてDALL·E 3が生成を行います。
もし私が検索を行うと、それはプロンプトを完了する前にウェブを検索することを確実にします。
もし私が理由をクリックすると、それは本当に物事を考える新しいo1モデルを使用することを確実にします。
今週、ChatGPTにいくつかの非常に便利な新しいアップデートがありました。
Dev Dayで話された他のいくつかのことに戻りますが、これはAPIを使用している開発者向けに設計されているため、少し早めに進めますが、APIのファインチューニングにビジョンが導入されました。
開発者は今、画像とテキストを使用してGPT-4oのファインチューニングを行い、ビジョン機能を向上させることができます。
もしOpenAIのAPIを使用していて、彼らのビジョンモデルを利用するツールを構築したい場合、実際に自分の画像をいくつかアップロードし、追加のコンテキストを与えることで、特定のタイプの画像に対してより良い結果を得ることができます。
開発者向けにより焦点を当てたものです。
開発者向けのもう一つのポイントは、リアルタイムAPIが導入されたことです。
最近、ChatGPTとの会話がより自然になる高度な音声モードが展開されました。
API内でこれらの会話型ボットを使用する機能も展開されました。
他のアプリも、その同じ技術を自分のアプリ内で利用することができます。
もしご希望であれば、ChatGPTアプリの外で自分自身でこれを試すこともできます。
実際にこちらのOpenAI Playground、platform.openai.com/Playgroundにアクセスすることができます。
左側には、リアルタイムボックスが追加されています。
実際にセッションを開始し、このような新しい高度な音声機能を使ってGPT-4モデルと会話をすることができます。
しかし、ChatGPTの外では。
こんにちは、今日はどうですか?
私は素晴らしいです。
聞いてくれてありがとう。
あなたはどうですか?
私はとても元気です。
今、動画を撮影していて、今週のAIの世界のニュースをまとめています。
それは楽しそうですね。
AIの世界では常に多くのことが起こっています。
今週、特に大きな話題を取り上げていますか?
知りたいと思いませんか?
それは妥当ですね。
それでは、動画を待つしかありませんね。
彼らはまた、APIでモデル蒸留を導入しました。
これにより、開発者はO1プレビューやGPT-4oのような最前線モデルの出力を簡単に利用し、GPT-4o miniのようなよりコスト効率の良いモデルの性能を微調整し、向上させることができます。
彼らはAPIにプロンプトキャッシングを追加しました。
これは、開発者であればAPIの使用コストを大幅に削減するものです。
これはClaudeが少し前から持っていた機能ですが、ようやくOpenAI APIにも実装されました。
これがOpenAIのDev Dayから発表された主な内容でした。
しかし、今週のOpenAIに関する他のニュースとして、OpenAIがスケールアップのための新たな資金調達を行ったということがあります。
OpenAIが非営利団体から営利企業に転換する可能性がますます高まっているようです。
先週、彼らはポストマネー評価額が1,570億ドルの資金を66億ドル調達することに成功しました。
これにより、彼らは地球上で3番目に大きなスタートアップになると思います。
先週、Meta Connectが開催され、彼らは新しいMeta Ray-Banサングラスのいくつかを披露しました。
Meta Connectの際に、これらのサングラスがメモリー機能を搭載することが発表されました。
何かを見て、「どこに車を停めたか覚えてる?」と言ったり、
「ねえ、10分後にお母さんに電話するのを思い出させて」とか言ったりできます。
そのような機能が、もしあなたがペアを持っているなら、今まさにサングラスや眼鏡に展開されています。
新しいアップデートでは、QRコードを認識し、スマートフォンで開いたり、カメラの前に見える電話番号に基づいて電話をかけたりすることも可能になります。
実際にこれらの機能をテストしました。
彼らは素晴らしく機能します。
QRコードを見て、眼鏡にそのQRコードをスキャンするように指示するだけで、携帯電話を取り出すと、すぐにアプリが開きます。
とても便利です。
メモリ機能も本当に素晴らしいです。
実際、駐車場の番号のような画像を撮影して試したことはありませんが、5分後に何かを思い出させるように指示したことはあります。
そして、そのリマインダーが届きました。
とても便利な機能です。
Metaについて話しているところで、今日はMetaと提携して動画をお届けします。というのも、Metaが最近Llama 3.2をリリースしたばかりで、これはAI技術において大きな進歩を遂げたものだからです。
開発者であろうと、単にAIに興味があるだけであろうと、このアップデートはあなたの関心に値します。
私が常に尋ねられる質問の一つは、データを大企業に送信することなく、どのようにAIモデルを使用できるのかということです。
Llama 3.2は、あなたにとって非常にしっかりとした回答を持っています。
それをあなたのデバイス上で直接実行することができます。
実際、インターネットに接続していなくても使用することができます。
Llama 3.2の新機能は何ですか?
まず、大きなモデルである11Bと90Bは、どちらも視覚機能を備えています。
これは、彼らがテキストを理解できるだけでなく、今では画像も理解できることを意味します。
あなたはAIにレポートのチャートについて尋ねたり、写真を説明するように頼んだりできますが、それは視覚的なコンテキストを理解することができます。
しかし、Metaは実際に1Bおよび3Bのテキスト専用モデルという軽量なモデルも発表しました。
これらはデバイス上のAIアプリケーションや、さらには携帯電話でも完璧に機能します。
あなたのデータをデバイス上に保ちながら、メッセージを要約したり、スケジュールを管理したりできるパーソナルアシスタントを想像してみてください。
これらのモデルの本当に素晴らしい特徴の一つは、128,000トークンのコンテキストウィンドウをサポートしていることです。
これは、1回の会話の中に本一冊分の情報を詰め込むことができるということです。
このLlama 3.2は、実際にQualcommとMediaTekのハードウェアに最適化されています。
これは、実際にモバイルフォン向けのAI駆動アプリケーションを開発したい人にとって非常に重要です。
これらのLlamaモデルの最も重要な側面の一つは、オープンソースであるということです。
これらのモデルはLlama.comまたはHugging Faceからダウンロードでき、すぐに構築を始めることができます。
AWSやGoogle Cloud、Microsoft Azureなどのプラットフォームと互換性があり、他にも多くのプラットフォームに対応しています。
個人的には、これらのモデルをオープンソース化することが非常に重要だと考えています。
それは革新を促進し、より多様なアプリケーションを可能にします。
今年だけで、Llamaは10倍の成長を遂げ、AI開発において好まれる大規模言語モデルの一つとなりました。
もしあなたが開発者であれば、これは最先端のモデルにアクセスでき、それをあなたの特定のニーズに合わせて修正・適応できることを意味します。
一方、もしあなたが開発者でない場合は、あなたが使用するアプリやサービスが、かなりより知的で役立つものになる可能性があることを意味します。
また、Metaがこの新しいリリースで安全性を非常に重視していることも言及しなければなりません。
彼らは、これらの強力なモデルが実際に責任を持って使用されることを確保するために設計されたLlamaGuard 3を含む新しい安全策を導入しました。
革新的なAIアプリケーションを作成することを目指している場合でも、単に技術の未来にワクワクしている場合でも、Llama 3.2は実際に探求する価値があります。
それは強力で、非常に柔軟性があり、誰もが使用し、改善し、反復することができます。
始める準備ができたら、Llama.comに行くか、Hugging Faceに行ってモデルをダウンロードし、Llama 3.2との旅を始めることができます。
AIの未来はオープンソースであり、今ここにあります。
この動画をスポンサーしてくれたMetaに心から感謝します。
次はMicrosoftに移ります。
Microsoftの世界から多くの発表がありました、特にNPUニューラルプロセッシングユニットが搭載された新しいCopilot Plus PCをお持ちの方には特に関係があります。
最近Microsoftから発売される新しいラップトップやコンピュータは、ほぼすべてこの新しいバージョンのCopilot PCです。
新しく追加される機能の一つはリコール機能です。
この機能は新しいCopilot PCが発売される際に導入される予定でしたが、多くのセキュリティやプライバシーに関する懸念が浮上し、一時的に保留されて改善作業が行われました。
ついにこのリコール機能が導入されます。これは基本的にインターネットの閲覧履歴のようなもので、コンピュータ上で行ったすべての作業を記憶します。動画の編集やWordでの文書作成、写真の閲覧などを覚えているのです。
あなたが一日を通して行ったことは、ある意味で履歴として保存されるので、その瞬間に戻ってコンピュータで何をしていたかを思い出すことができます。
それをオンまたはオフにするオプションがあり、実際に収集している情報をMicrosoftに送信することはありません。
これはすべてデバイス上で行われます。
また、コンピュータ上で画像を開いているときにクリックすると、Bingでのビジュアル検索、写真での背景ぼかし、写真でのオブジェクト消去、ペイントでの背景削除といったオプションが表示される「クリックして実行」機能も追加されています。
画像をクリックするだけで、新しいAI関連のオプションがたくさん得られます。
ここには、テキストに関連するアクション、例えばテキストの書き直し、要約、説明、テキストエディタでの開放、メールの送信、ウェブ検索、ウェブサイトのオープンなどを支援するとも書かれています。
「クリックして実行」はコンテキストに応じており、すべてのCopilotプラスPC画面からアクセス可能です。
彼らはまた、いくつかのAIを使ってWindowsの検索機能を改善しています。
ここで、バーベキューパーティーを検索したところが上部に表示されています。
これらの画像はすべて「画像1123」や「画像1111」といったタイトルが付けられていることに注意してください。
Windowsはこれらの画像のコンテキストを把握し、このコンピュータに保存されているバーベキューパーティーに関連するすべての画像を表示しました。
ここには、インターネットに接続していなくても機能すると書かれています。
これはオンライン機能とは異なります。
これは、あなたのノートパソコンに内蔵されているNPUを使用するだけです。
これが動画にも対応しているのか、それとも本当に画像のみに限られているのかはわかりません。
私はこれを動画のために本当に欲しいです。
それはBロールの整理にとても役立ちますが、写真でそれを手に入れることができれば、動画でも手に入るのは時間の問題だと思います。
彼らは写真の中にスーパーレゾリューションという機能を追加しています。
Windowsの写真アプリで画像を開き、実際に画像をアップスケールすることができます。
彼らはMicrosoft Paintの中に生成的な塗りつぶしと消去機能を追加しています。
背景のものを消去し、画像内に生成的に埋め込むことができます。これはAdobe Photoshopと同様です。
しかし、今ではMicrosoft Paintでもそれが可能になりました。
これらのCopilot Plus PCで利用可能な多くの素晴らしい新機能があります。
Microsoftはまた、Copilot LabsとCopilot Visionを発表しました。
Copilot Labsで利用可能な最初の機能は「Think Deeper」で、これによりCopilotはより複雑な問題を考慮する能力を持つようになります。
私には、このThink Deeperが本質的に新しいOpenAI o1モデルを使用するように思えます。このモデルは、思考を深めるためのプロンプトを用いて、物事をじっくり考えるものです。
しかし、私たちはそれをCopilot Labsの中で得られるようです。
さらに、Copilot Visionもあります。
それは、もし望むなら、あなたが見ているページを理解し、その内容に関する質問に答えることができると言っています。
次のステップを提案したり、質問に答えたり、あなたがやりたいことをナビゲートしたり、タスクを手伝ったりすることができます。
その間ずっと、あなたは自然な言葉でそれに話しかけるだけです。
彼らは、これは完全にオプトインの機能であり、あなたがそれをオンにしない限り機能しないと言っています。
しかし、彼らがその様子を示すために出した小さなデモがあります。
彼らは「ねえ、Copilot、宿泊先を探しているんだけど」と言います。
彼らはこのウェブサイト、staynest.comにいます。
Copilotが提案を始めます。
このロフトハウスについてどう思いますか?
ビデオでは、彼らがお互いに話し合っていますが、ビデオには音楽が流れています。
その音楽の著作権の状況がわからないので、その理由でビデオを再生していません。
しかし、これは行われている音声の会話です。
ユーザーは言います、「うーん、ちょっと高いですね。」
AIはその人を「おしゃれだね」と呼びます。
彼らは言います、「私はそうではありません。」
「ただ、素敵なものを探しているだけです。」
「壁に少し色を加えたいんです、わかりますか?」
AIは言います、これは確かに色がありますね。
ユーザーは言います、わあ、頭が痛くなりそうです。
はは、そんなことは望んでいません。
ちょっと待って、これは完璧に見えます。
ミニマルで、モダンで、うーん。
ユーザーは言います、あなたが正しいです。
私はそれが大好きです。
私たちはそれを予約しています。
これは、このMicrosoft Copilotのビジョンがどのように見えるかの彼らの小さなデモです。
Microsoftはまた、Bingの生成検索機能を更新しました。
彼らは、「本日、ジェネレーティブ検索の拡張を展開し、『1対1のミーティングを効果的に行う方法』や『ポッドキャストの録音から背景ノイズを除去する方法』といった情報クエリにも対応します」と述べています。
詳細な説明を求めている場合でも、複雑な問題を解決しようとしている場合でも、あるいは深いリサーチをしている場合でも、生成AIは表面的な結果を超えた、より深いレベルの回答を提供するのに役立ちます。
それを使用するには、検索バーに「Bing生成検索」と入力するだけで、利用できるいくつかのクエリが表示されます。
結果ページには深い検索ボタンもあり、現在は少し遅いかもしれないと言っています。
では、Bing生成検索を試してみましょう。
もちろん、ここで試してみると、私たちが使用できるさまざまな潜在的なプロンプトがたくさん得られます。
「ポッドキャスティングのノイズを減らす」をクリックすると、AIが生成した応答と目次が表示されるのがわかります。
Microsoftが行っているもう一つのことは、彼らのコンテンツがこれらの生成的検索結果に表示された場合、出版社に対して報酬を支払い始めていることです。
現時点では、ロイター、アクセル・シュプリンガー、ハースト・マガジン、USAトゥデイ、フィナンシャル・タイムズのような大企業だけのようです。
これが小規模なコンテンツクリエイターにも展開されるのかは不明ですが、それが実現すれば素晴らしいことだと思います。
ブログ記事を書いたり、YouTube動画を作成したりする場合、もしそれが小規模なクリエイターから引き出した情報に基づいて反応するのであれば、彼らにも報酬が支払われると素晴らしいと思います。
それがロードマップに含まれているかどうかは分かりませんが。
現在のところ、すべての大手ニュースメディアは、彼らと協力して自社のウェブサイトからの結果を表示し、またそれを行った際には支払うように努めているようです。
今週の最後のMicrosoft関連のニュースとして、Microsoft AIの責任者であるムスタファ・ソロモン氏が手紙を書き、自身の考えを共有しました。彼の説明によると、Copilotがますますあなたの「エージェント」のような存在になっていくという方向に進んでいるとのことです。
彼は言います、私たちは静的なツールを作っているのではなく、動的で出現的、かつ進化するインタラクションを確立しているのです。
これは、あなたが日常生活で本当に望む姿を示すための揺るぎないサポートを提供し、人間関係や成果を促進する新しい手段となるでしょう。
コパイロットは最終的にあなたの代理として行動し、人生の複雑さを和らげ、あなたが大切に思うことにもっと集中できる時間を与えてくれるでしょう。
彼が説明していることは、本質的にはあなたに基づいて訓練されたAIエージェントのように聞こえます。そして、あなたがそれを最も使いたい目的に応じているものであり、これは多くの人々が賛同できるものだと思います。ただし、それが安全で倫理的な方法で行われ、あなたのプライバシーをあまり侵害せず、大企業と個人データを過度に共有しない限りにおいてです。
次にGoogleに移りますが、今週Googleもいくつかの発表を行いました。
彼らはGoogle Lensツールのいくつかの更新を行っており、このツールでは画像をアップロードし、それらの画像がウェブ上でどこにあるかを検索し、画像に関する追加情報を提供することができます。
実際に、動画を理解することもできます。
こちらのデモでは、いくつかの魚が群れを成して泳いでいる様子が見え、彼らはそれに話しかけて「なぜ一緒に泳いでいるの?」と言います。
それは動画を見て、動画の中に何があるのかを理解します。
そして、実際に動画で見たことに基づいてAIの応答を返します。
さらに、Google Lensに話しかけることができる音声質問機能も追加されています。
ここで空の写真を撮り、そして彼らは「これはどんな雲ですか?」と言います。
それに対してAIが応答します。
しかし、彼らはその質問を声に出して尋ねました。
彼らが質問をタイプしていたわけではありません。
また、彼らは見たものをショッピングする機能も追加しています。
あなたはバックパックを見つけ、それを写真に撮り、そしてそのバックパックをオンラインで実際に購入できる場所を見つけます。
彼らは、Circleにおいて曲を特定する機能を追加しています。これは、Shazamアプリのように、ただ開いておいて曲を聴くと、その曲が何であるかを教えてくれるものです。
その正確な機能がAndroidデバイスに展開される予定のようです。
彼らはまた、AIを使って検索結果を整理するつもりです。
もしあなたがまだGoogleを使って多くの検索を行っているなら、これらの変更がかなり早く実施されるのを見ることになるでしょう。
しかし、Googleは主に広告を通じて収益を上げています。
この新しいAIの世界では、彼らはAIの応答からどのように収益を上げるかを考えなければなりません。
実際にAIの概要の中に広告が表示されるようになるでしょう。
ここで、いくつかのスポンサー付きメッセージが表示されたことがわかります。
誰かが「ジーンズから草のシミをどうやって取るの?」と検索しています。
AIがそれをどのように行うかについての回答を提供します。
少し下にスクロールすると、回答のすぐ下に、TidePenやOxyCleanなど、彼らの検索に関連するスポンサー付きの結果が表示されます。
今週の大規模言語モデルに関するニュースでは、Geminiの新しいバージョン、Gemini 1.5 Flash 8Bが発表されました。
これは新しい小型の大規模言語モデルで、50%安価で、レート制限が2倍高く、小さなプロンプトに対して低遅延です。
これはここでAPIを使用する開発者向けのものです。
ベンチマークテストでは、同じサイズの他のモデルと比較して、かなり良いパフォーマンスを発揮しているようです。
大型言語モデルについて話しているので、NVIDIAは今週、NVLM-D72Bという新しい大型言語モデルを発表しました。
これは、視覚タスクにも対応可能なオープンソースの大規模言語モデルです。
この記事によると、これはGPT-4oのような主要な商用モデルに匹敵します。
ここでベンチマークを見ると、このNVLMD 1.072bが実際にはGPT-4 Visionモデルとほぼ同等であり、1つのベンチマークではGPT-4oやClaude Sonnetを上回っていることがわかります。特に、AnthropicやOpenAI、Geminiのようなクローズドモデルではなく、オープンソースモデルである点を考慮すると、これは非常に印象的です。
Pinterestは、商品画像向けに生成AIツールを広告主向けに展開しています。これは、ShopifyやAmazonで見られるツールとほぼ同様のものです。
商品画像をアップロードすると、背景を削除したり、別のシーンに配置したりすることができます。
現時点で、さまざまなeコマースプラットフォームでこの機能が展開されているのを見てきました。
Pinterest内で直接利用できるようになります。
今週、AI画像の世界で大きなニュースがありました。
Black Forest LabsはFlux 1.1 Proという新しいモデルを発表し、APIも利用可能にしました。
したがって、Flux 1.1 Proは、現在Together AI、Replicate、Fallで使用することができます。
AiとFreePickがあり、かなり改善されました。
もしTwitterやXで人々がBlueberryについて言及しているのを見たことがあれば、BlueberryはFlux 1.1のコードネームのようなものでした。
こちらは、私の友人であるAngry Penguinがまとめた小さな比較です。
彼をまだフォローしていないのであれば、ぜひTwitterでフォローすべきです。
彼はさまざまな素晴らしいAIの発表を共有していますが、ここで見ることができるのは、古いモデルのFlux Proと、新しいモデルの「星が揃う場所を見つける」というもので、テキストに関しては新しいモデルの方がずっと優れているようです。
もしそのプロンプトを複製したいのであれば、ここに彼のプロンプトを見ることができます。
もう一つの例として、「空が限界」というものがありますが、これは「空がシュリント」というもので、あなたが探しているものを理解する能力がずっと高いです。少なくともテキストの面ではそうです。
別の例もありますので、これらのいずれかでじっくり見たい場合は、一時停止してプロンプトを取得しても構いませんが、テキストや画像がかなり良くなっていることがわかります。
この画像では、バーベルが猫の頭の中に入っているようにも、あるいはその後ろにあるようにも見えます。
よくわかりません。
こちらは、画面全体に映っていて、テキストも求められた通りになっています。
さらにいくつかの例を示します。
こちらは、ジブリスタイルの古い日本の街、青い空、晴れた背景、日本の寺院、日本の伝統的なものの別の例です。
こちらが元のものです。
こちらが新しいものです。
かなり良く見えます。
私の意見では、色のパレットがずっと良くなっています。
明らかに、美的に心地よいものは非常に主観的ですが、私はこれが少しだけ美的に心地よいと感じます。
もう一つの例をご紹介します。
ここでどれほど促されているかがよくわかります。なぜなら、このプロンプトの大きさを見てください。
ベクターイラストで、さまざまな色の魔女の帽子をかぶった、愛らしい笑顔の幽霊たちのグループです。
私たちはそれを得ています。
それぞれの幽霊には独自の表情があります。
陽気な顔が彫られたカボチャ。
背景は濃い紫色であるべきです。
この長いプロンプトのすべての要素をほぼ完璧に捉えました。
もう一つの例です。
最初のものでは、目のリフトさえも得られませんでした。
二つ目は、なんとなく的を射ていました。
もしかしたら、これらのストローのうちの一つが目を表しているのかもしれません。
わかりません。
古い英語で書かれた手書きの手紙で、下部にはFlux Proとサインされています。
見てください。
こちらはもう一つの例と、さらにもう一つの例、そして最後の例です。
再度、すべてを共有してくれたAngry Penguinに感謝し、この動画で共有する許可をいただきました。
もし私が取り上げなかった具体的なプロンプトを見たい場合は、戻って一時停止しても構いません。
Angry Penguinは私に簡単なヒントも教えてくれました。
彼は、実際にGlyphで使用すれば、今すぐFlux Pro 1.1を無料で使えると言っていました。
アプリのウェブサイトです。
他のいくつかのサイトでは無料で使用できるものの、無料で使えるのは1日だけといった制限がある場合が多いです。
こちらは、今のところ無料です。
私の理解では、数週間は無料で使えるとのことですが、どれくらいの期間無料で使えるのかは分かりません。
しかし、この動画が公開される時点では、実際にGlyphでFlux Pro 1.1を無料で試すことができます。
さあ、さっとサインインしましょう。
「Matt Wolfを購読してください」と書かれた看板を持った猿を試してみましょう。
「Matt Wolf」の部分はうまくいきましたが、「購読」の部分は少し外れました。
もう一度試してみましょう。
今度は問題なく正しくできました。
実は、Glyphで画像を作るのが大好きなんだ。なぜなら、このフィードに表示されるからさ。今、このフィードを見に行く誰もが、マット・ウルフを購読するように言っているサルの画像を見ることになるんだ。
しかし、これがFlux Pro 1.1であり、下にその使用方法のリンクを貼ります。
あなたはAngry Penguinの統合を使うこともできますし、ワークフローで自分自身のグリフを作成することもできます。
今週、Leonardo AIからいくつかのアップデートがありました。
これは私がアドバイザーを務めている会社なので、彼らについて話すときはその点を考慮してください。しかし、彼らが本当に良いことをしたときは、その良いことについて話します。
彼らが私があまり好きではないことをする時、私はそのあまり好きではないことを指摘します。
私は比較的偏りなくいるように努めていますが、これはただのニュースです。
今週、彼らは新しいスタイルリファレンス機能を導入しました。
最大で4つのリファレンス画像をアップロードして、画像出力の美的感覚を指示することができます。
また、リファレンス画像の強さを調整することも可能です。
彼らはまた、フェニックスプリセットを使用した新しい画像から画像への機能を導入しました。
レオナルドにはしばらくの間画像から画像への機能がありましたが、その機能はフェニックスモデルでは使用できませんでした。このモデルはおそらくレオナルドの中で最も優れたモデルですが、今ではフェニックスモデルを使用して画像から画像への機能が利用可能になりました。
ここに飛び込むと、画像作成に進みます。
プロンプトボックスの上部には、新しい小さな画像アイコンが見えます。
これをクリックすると、スタイル参照、画像から画像への機能、または近日中に登場するコンテンツ参照のオプションが表示されます。
しかし、すでにスタイルの参照がなくても、本当に素晴らしいのは、ここでスタイルの参照をクリックして、コミュニティフィードに移動できることです。
もし私が本当に好きな画像の美的感覚があれば、その同じ美的感覚を生成しようとしている画像に取り入れることができます。
例えば、私はこの絵画的な見た目が本当に好きだとしましょう。
それを取り入れて、確認してみましょう。
それをスタイルの参照として使用します。
簡単なプロンプトを入力します。カメラを見つめるロボットです。
そして、うまくいけば、似たようなスタイルで生成されるでしょう。
さあ、始めましょう。
四つの生成物が得られました。
これが一番見栄えが良いですが、上にあるスタイルを模した絵画のように見えます。ただし、カメラを見つめるロボットが描かれています。
また、彼らが導入した新しい機能の一種は、生成モードの下にあります。
彼らはこの「ウルトラモード」を持っています。
実際にそれが行っていることは、生成する際にすべての画像をアップスケーリングしているということです。
もし私がこの画像をフルサイズで見ると、かなり大きな画像であることがわかります。
実際には、画像を生成するパイプライン内でアップスケーリングされています。
それもかなり素晴らしいですね。
レオナルドには新しい機能がたくさん登場する予定ですが、それらが展開される際にはお見せします。
まだそれについて話すことは許可されていませんが、いくつかの興味深いものがあります。
それが展開される際に共有します。
Adobeは、Photoshop ElementsおよびPremiere Elements製品内に新しいAI機能を導入しました。
これらは、すべての機能を備えているわけではない、PhotoshopやPremiereの簡略版のようなもので、よりカジュアルなユーザー向けです。
オブジェクト除去や新しいAIによるカラー補正機能、被写界深度のシミュレーション、そして大規模なプラットフォームにあった他のいくつかの小さなAI関連機能があります。
しかし、今やこれらのプラットフォームのよりカジュアルな要素版も、これらのAI機能を手に入れています。
LumaのDream Machineは、より人気のあるAI動画生成モデルの一つで、今週アップグレードされました。
彼らは現在、超高速な動画生成と、10倍速の推論を実現しています。
20秒以内でフルクオリティのDream Machineクリップを生成できるようになりました。
Pikaは今週、新しいPika 1.5モデルで大きな話題を呼びました。
しかし、この1.5モデルから見てきた多くのものは、オブジェクトが押しつぶされるような動画が多く、例えば、自分が座っているところから膨らんで風船のように飛んでいったり、油圧プレスで押しつぶされたり、爆発するようなシーンが生成されています。
こういったタイプの動画をたくさん見てきましたが、テキストから動画への変換もできるはずのようです。なぜなら、これらはすべてテキストから動画への生成、あるいは画像から動画への生成のように見えるからです。
しかし、私にとっては、何らかの理由でテキストから動画への変換がうまくいっていません。
実際、私はローラースケートを履いた猿や月に向かって吠えるオオカミを生成しようと試みました。
これを生成しようとして約36時間が経過しました。
現時点では、実際に生成されるとは自信が持てません。
しかし、自分を潰したり、ケーキのように何かを切り開いたりするミームタイプの動画は、すべて完璧に機能します。
ただ、テキストから画像を生成する方法を見つけなければならないのですが、なぜかそれがうまくいかなくなっています。
しかし、彼らが見せた動画は、非常に印象的に見え、選りすぐりのものである可能性があります。
ソーシャルメディアで見るもののほとんどは、選りすぐりのものになるでしょう。
本当に、本当にかっこよく見えます。
テキストから動画を生成できることに実際にワクワクしています。
ただ、まだうまく動作させることができていません。
TikTokの運営会社であるByteDanceは今週、Soraに匹敵すると言われる新しいAI動画生成ツールを発表した。
それは、皆がビデオ生成モデルを比較する際のベンチマークのようですが、私たちの誰もまだ実際に手に入れたことのないモデルです。
しかし、これができることのいくつかの例です。
こちらは、サングラスを外して立ち上がる女性です。
見た目はかなり良いですね。
AIが生成したものであることはわかりますが、見た目はかなり良いです。
10秒で生成されています。
こちらは、男性が女性にお辞儀をしてから彼女を見上げる様子の別の作品です。
彼女は泣いています。
あれもかなり良さそうですが、まだスローモーションのような感じがします。
こちらは、サングラスをかけた女性の顔にズームインする白黒動画の別の例です。
それらはかなり良い感じです。
こちらのTheoretically Mediaの友人ティムが、この新しいモデルについての約9分の解説動画を実際に作成しました。
このモデルについてさらに詳しく知りたい方のために、下にリンクを貼っておきます。
Steamに登場する、かなりクールなものがあります。
もしあなたがゲーマーで、パソコンにSteamゲームエンジンを持っているなら、「Dream World」という新しいものが登場していて、そこでどんな3Dアセットでも作成し、自分がプレイしている世界にそのまま配置できるようになるんだ。
こちらが彼らがその周辺で公開したデモです。
彼らは巨大なキングコングと入力し、すると巨大な3Dキングコングがその世界に現れ、黒と金のアヌビス像のようになります。
私はそれを誤って発音したと思いますが、ええ、その大きな像をそこに置くことができます。
彼らが想像できるものは何でも、その世界にドロップすることができます。
これは、オープンワールドや実際に行う挑戦などを含む、より大きなゲームのように見えます。
このゲームを新しいものにしている、クールで興味深い点の一つは、何でも考えつくことができ、それを自分の世界にドロップできるということです。
私はよくわかりませんが、例えば海にボートを作った場合、そのボートに飛び乗って海を渡ることができるのでしょうか?
もしこの世界で車を生成したら、その車に乗って運転することができるのでしょうか?私はわかりません。
どうやら、ただ物を作ることができて、それがそのまま存在し、あなたの世界に追加されるようです。そして、ValheimやMinecraftのようなクラフトやオープンワールドの要素がありつつ、3Dオブジェクトを世界のどこにでも置くことができる能力もあるようです。
私はわかりません。
おそらく、それが利用可能になったら手に取って遊んでみるつもりです。
今週、カリフォルニア州の知事であるギャビン・ニューサムがSB 1047に対して拒否権を行使したというニュースも入ってきました。
その件についてはある程度話したと思いますが、それは他の誰かがそのモデルを使って壊滅的な被害を引き起こすようなことをした場合に、そのモデルを作ったAI企業に責任を負わせる法案のことでした。
もし誰かがLlamaモデルを使って調整し、その後、壊滅的な影響を持つ化学兵器を作る方法を見つけた場合、Llamaは実際の化学兵器を作った人と同様に責任を問われることになるでしょう。
すべてのAI企業はこの法案に反対していました。なぜなら、彼らは基本的に「私たちはただより良いモデルを作りたいだけだ」と主張していたからです。
私たちは、人々が将来これらのモデルを何に使うのか分かりません。
ギャビン・ニューサムはその法案に拒否権を行使しました。
おそらく、この件に関して何らかの規制が出てくるでしょうが、特にその法案ではありません。
別の法案が起草されて議会を通過するのは時間の問題であり、できればより多くの人々が合意できる内容であることを願っています。
しかし、AIに関する立法について話しているときに、実際に裁判官がディープフェイクに関連する別のAI法案を阻止しました。
AB 2839法案は、ニューサム知事によって署名されましたが、裁判所によって却下されました。
AB 2839は、特にその投稿が政治候補者に似ており、投稿者がそれが有権者を混乱させる可能性のある偽情報であることを知っている場合に、ソーシャルメディア上のAIディープフェイクの配信者を対象としています。
この法律は、AIディープフェイクが表示されるプラットフォームを攻撃するのではなく、それを広める者を対象としているため、独自のものです。
裁判官は基本的に、これは言論の自由に反すると述べ、この法案から残る唯一のことは、政治的な人物を使ったディープフェイクメッセージを広める場合には、それがAIによって生成されたものであることを明示しなければならないということです。
それでも、ディープフェイクを広めたり共有したりすることは可能です。
ただ、彼らがAIで作られたものであると偽らずに言うだけで良いのです。
それがその法案の唯一の部分です。
法案の他のすべてについては、基本的に「いいえ、それは言論の自由に反する」と言いました。
アマゾンは、新しいファイアタブレットを展開しており、それにはAIツールが組み込まれています。
例えば、文章の支援、ウェブページの要約、プロンプトからの壁紙作成などです。
私は今の時点でかなり確信していますが、どのメーカーが作ったものであれ、発売されるすべてのタブレットにはAI機能が搭載されることになるでしょう。
最近では、これらのデバイスにとってそれが必要不可欠なもの、あるいは期待されるものになってきています。
しかし、私たちはそれをファイヤータブレットの中に取り入れています。
最後に、今週見た中で特にクールだと思ったものを紹介したいと思います。それは、頑丈な梯子を登る四足歩行ロボットです。
このビデオでは、実際にこの四足ロボットの一つが作られ、梯子を登れるように設計されたことがわかります。今のところ、梯子を上ることしかできませんが。
梯子を下りることはできません。
しかし、ロボット自体を見ると、それを特別なものにしているのは、梯子をつかんで登ることができる爪のような手です。
そのアイデアは、通常人間を送るような非常に高く危険な場所にロボットを送り込むことができるというもので、安全上の理由から、ロボットを送る方が賢明と思われる場所では、人間の命を危険にさらすよりもロボットを使うということです。
それはとても素晴らしいと思います。
ここでは、彼らがこれらの梯子で訓練されているデジタルツインの世界を見ることができます。
私はロボットが大好きです。
ロボットは本当に、本当に楽しいです。
新しいロボットが私が今まで見たことのない新しいことをしているのに出会うと、たぶんそのことについて話すでしょう。だって、ロボットはただクールなんです。
彼らがどんどん賢くなって私たちを滅ぼすようなことがないことを願っていますが、今はそのことについて考えたくありません。
ここで締めくくる前にもう一つ、私は10月12日と13日にサンタモニカで行われるAIハッカソンの審査を手伝うことになっています。
このハッカソンに参加するためには、実際に自分が開発者である必要はないので、かなり面白いと思います。
実際にAIを使ってコーディングを手伝わせることもできますし、コードを知っている人になってもらって、最終的に誰が一番クールな製品を作り出すかを見てみるのも楽しいでしょう。
最終的に誰が一番クールな製品を作り出すかを見て、かなり楽しい時間になるでしょう。
再び開催されるのは、10月12日と13日です。
詳細については、hack.cerebralbeach.comをご覧ください。
私は審査員の一人になります。
私はそこにいます。
そこで何人かの人に直接会えるのは楽しいでしょう。
今日はこれをあなたにお伝えします。
まだ見ていない場合は、futuretools.ioをチェックしてください。
ここでは、私が出会ったすべての素晴らしいAIツールを共有します。
私が出会ったすべてのAIニュースを共有します。
私は無料のニュースレターを発行しており、あなたが知っておくべき素晴らしいツールやニュースを直接あなたの受信箱にお届けします。
すべて無料です。
futuretools.ioで見つけることができます。
ご視聴いただき、誠にありがとうございます。
最先端の情報を得たい方や、AIや最新のAIチュートリアル、これらの技術がどのように活用されているか、最新のAIニュースなどに関心がある方は、この動画に「いいね」を押して、このチャンネルを登録してください。
皆さんのYouTubeフィードに、これらの情報がもっと表示されるようにします。
この世界で起こっているすべてのことの最前線に立てるようお手伝いします。
改めてご視聴いただき、私と一緒に楽しんでいただきありがとうございます。
この動画が少し長いことは承知しています。
今週はたくさんの出来事がありましたが、最後までお付き合いいただき、ありがとうございます。
この動画をスポンサーしてくださったMetaに改めて感謝いたします。
次回の動画でお会いしましょう。
さようなら。