OpenAIが新しいモデル「o1-preview」をリリースしました。「o1-preview」は、従来のGPT-4oモデルに比べて高度な推論、数学、論理的思考に優れています。OpenAIのブログでは、このモデルが数学オリンピアードの予選で米国の上位500人に匹敵する成績を収め、物理学、生物学、化学の問題で博士課程レベルの精度を超えたと報告しています。Appleも新製品発表イベントを開催し、最新のiPhoneやApple Watchを発表しました。AIに関連する新機能としては、メールやドキュメントのリライトや要約、写真から背景を削除する機能、通知の優先順位設定などが紹介されました。その他にも、Adobeがテキストからビデオを生成する新機能を発表し、Mistralが画像を入力として受け取れる新しいオープンソースモデル「Pixtral 12B」をリリースしました。Googleの「NotebookLM」では、アップロードしたドキュメントからポッドキャスト風の音声概要を生成する新機能が追加されました。Facebook(Meta)は、AIによって編集されたコンテンツへのラベル表示を調整し、ユーザーの不満を軽減する取り組みを始めました。また、ゲーム業界でもRobloxやDaz 3DなどがAIを活用した新しい開発ツールを発表し、ゲーム制作のプロセスを大幅に効率化しています。最後に、DeepMindのロボティクスラボから、人間のように靴紐を結ぶことができるロボットが発表されました。公開日:2024年9月15日
※動画を再生してから読むのがオススメです。
私は先週ディズニーランドで過ごしていましたが、もちろん私が不在の週に、たくさんの大きな発表があるという信じられないような週になってしまいました。
私はこのAIニュースの動画をいつもより1日遅れて出すことになったので、あなたの時間を無駄にするつもりはありません。
さっそく本題に入りましょう。
今週起こった大きな出来事は本当に二つあり、そのほかにもたくさんの小さな出来事がありました。
その二つの大きな出来事は、OpenAIの新しいリリースと、行われたAppleのiPhoneイベントです。
それでは、この新しいOpenAIのo1-previewモデルについてお話ししましょう。
ここ数ヶ月、OpenAIからそれに関する多くの予告がありました。
最初はQ*と呼ばれ、その後Strawberryと呼ばれ、現在はOpenAI o1と呼ばれています。
私には、今後のすべてのモデルがこの命名規則に従うように思えます。
おそらく、GPT-5、GPT-6、GPT-7などは出てこないでしょう。
これはo1であり、彼らのブログ記事では、カウンターを1にリセットし、このシリーズをOpenAI o1と名付けると述べています。
彼らが次に発表するモデルはOpenAI o2、OpenAI o3などになると推測しています。
おそらく小数点も含まれるかもしれません。
さて、これらの新しいモデルを使用するには、プロプランまたはエンタープライズプランに加入している必要があります。
基本的にはChatGPTの料金を支払っている必要があります。
アカウントにログインすると、すべての有料会員はこれらの新しいオプションを利用できるようになります。
まだデフォルトはChatGPT-4oですが、この小さなドロップダウンをクリックすると、o1-previewとo1-miniが表示され、古いモデルは「さらにモデル」の追加ドロップダウンに分類されています。
基本的には、OpenAIはほとんどのことに対してGPT-4oの使用を推奨しています。
o1モデルを使用する場合は、主に高度な推論、数学、論理、そしてしっかりと考える必要がある複雑なタスクに適しています。
このモデルが以前のモデルと何が違うのか、またはどのように優れているのか疑問に思っている場合、それは基本的に応答する前にその応答を考慮するからです。
質問をすると、反応がかなり遅くなるでしょうが、それでも本当にその回答を考え抜くことになります。
これを「思考の連鎖による促し」と呼びます。
ここでo1プレビューを選択すると、いくつかの提案されたプロンプトが表示されます。
その中の一つは「StrawberryにはRがいくつあるか」というもので、以前のGPT-4モデルはStrawberryにはRが2つあると繰り返し言っていました。
それでは、デモプロンプトの一つを使ってみましょう。
それに私のために解くパズルを作成するように伝えましょう。
ここに、私が解くための6×6のナノグラムパズルを生成するように言っているのが見えます。解かれたグリッドはQの形をしています。そして、実際に考えているのがわかります。
ここに小さなドロップダウンがあります。
このドロップダウンを開くと、パズルを作成する際の思考過程を見ることができます。
私はQの形を形成する6×6のナノグラムに取り組んでおり、グリッドのレイアウトをスケッチし、Oの形を考え、グリッドを埋め、セルのパターンを調べ、セルのパターンを評価し、パズルを作成しています。
ChatGPTの思考過程を見ることができ、これを完了するために必要なすべてのステップを考えています。
そして、ここで最終的に完了したときに、解くための6×6のナノグラムパズルがあると言っています。
このプロンプトの一番上までスクロールすると、30秒間考えていたことがわかります。
そのため、必要なことをすべて考えながら、30秒間そのような思考の連鎖を経ていました。
もう一つの例として、高度な数学の問題を解くというプロンプトがあります。
この複雑な数学の問題が書かれているのが見えますが、私にはそれを読むことすらできません。
ドル記号/math Cal Bドル記号B、表面積を持つ長方形の箱の集合です。
私にはこれが何を意味するのかもわかりません。
基本的に、これが行うことは、応答しようとすることです。
そして、進むにつれて自分自身を再確認するような感じです。
最後に、最も良いと思われる回答を出力します。
ここでは、まだ考えを巡らせており、私が話している間も数学の問題を解いている様子が見受けられます。
答えは721に至りました。
それは正しいのでしょうか?
私には分かりませんが、すべてを考え抜くのに33秒かかりました。
OpenAIのブログに掲載されたプレスリリースには、彼らがどのようにそれを利用しているかのさまざまな例が紹介されています。
OpenAI o1は、認知科学における経済学です。
それは、デヴォン量子物理学、遺伝学などを作っている会社です。
私はo1-previewとo1-miniがあることに言及しました。
o1-miniは最終的にChatGPTの無料ユーザーにも利用可能になるようですが、現時点では両方のモデルは有料会員専用です。
今、彼らはそれに対して多くのテストを行っており、どうやらo1は競技プログラミングの問題において89パーセンタイルにランクインしており、アメリカ数学オリンピックの予選でトップ500の学生の中に位置しており、物理学、生物学、化学の問題のベンチマークにおいて人間の博士号レベルの精度を超えているようです。
そのような思考の連鎖を用いると、技術的な問題を解決する能力が確実に向上していることがわかります。
彼らのウェブサイトで披露されているさまざまなベンチマークの中で、私たちがまだアクセスできない別のo1モデルが存在するようです。
こちらのさまざまなチャートからわかるように、o1モデルとo1-previewモデルの両方があります。
o1-previewモデルは、私たちがChatGPTで見ているものです。
競技数学においては、83.3%の精度を持っていますが、私たちが使用しているバージョンは約56.7%の精度です。
競技コードに関しては、彼らの主要なo1モデルは競技コードの89パーセンタイルに位置していますが、私たちがアクセスできるものは62パーセンタイルです。
そして、博士課程レベルの科学問題において、o1は78点を獲得しており、私たちが持っているo1プレビューは実際には78.3点で少し良い結果を出しています。
これを専門家の人間と比較すると、約69.7%の精度です。
ここには、ピンク色のGPT-4oと青色のo1の改善に関する他のベンチマークも示されています。
青色は、前のGPT-4oモデルをどれだけ上回っているかを示しています。
例えば、数学では、GPT-4oが60.3だったのに対し、o1は94.8を記録しました。
つまり、約34%の改善です。
彼らのウェブサイトには、どのように使用されたかの例がたくさんあります。
すでに多くのYouTube動画が公開されており、人々がこれをデモンストレーションし、使い方を説明していますが、ほぼすべての面でo1プレビューモデルは、暗号、コーディング、数学、クロスワード、英語、科学、安全、健康科学においてGPT-4oを上回りました。
こちらの各項目について、初期のプロンプトとその応答を見ることができます。
そして、ほぼすべてのケースにおいて、o1はGPT-4oを上回る結果を出しました。
さて、再び、彼らはOpenAI o1-miniも発表しましたが、これは実際にOpenAI o1-previewの80%安価です。
そして、STEMの推論に最適化されています。
この新しいOpenAI o1モデルに対する大きな不満の一つは、価格に関するものでした。
もしあなたが自分のソフトウェア製品のためにAPIを通じてそれを使用したいのであれば、既存のものよりかなり高価です。
また、そのプロセスを考える様子を見たように、かなり遅くなっています。
このOpenAIのo1-miniモデルは、その一部を補うことが期待されており、コストを削減し、プレビューモデルよりもかなり速くなっています。
ここで、o1-miniモデルが9秒かかったことがわかります。
私が今話している時点で、o1-previewモデルはこの比較においてすでに30秒に達しています。
しかし、ここでジム・ファンのこのツイートがとても気に入っています。彼は何が起こっているのかをもう少し明確に説明しています。
特に、彼がここで共有したこのグラフィックが好きです。ここでは、ほとんどの大規模言語モデルが事前学習に多くの時間とお金を費やしていることが示されています。
彼らはウェブ全体から幅広いデータを取得します。
ほぼすべてをスクレイピングし、それをモデルに事前学習させます。
その後、ポストトレーニングと呼ばれる作業を行います。これは、微調整やガードレールの設置、モデルにどのように応答するかを指示することに少し似ています。
そして、推論はこれらのAIモデルを使用したときに起こることのほんのわずかな部分です。
推論とは、プロンプトを与えると応答が返ってくることであり、GPT-4oは推論が非常に速いです。
質問を与えると、3秒以内に応答します。
彼らは事前学習にかける時間を減らしているようで、可能な限りの情報を収集する作業においてはほぼ同じ時間を費やし、事後学習では微調整を行っています。
そして、実際にプロンプトを与えて応答を受け取る推論の部分には、さらに多くの時間が費やされています。
理論的には、事前学習にかかる時間が短縮され、その分の時間が実際にプロンプトを与える際の推論フェーズにシフトするため、より新しく改善されたモデルがさらに迅速にリリースされるはずです。
OpenAIのような企業は、最もコストのかかる事前学習フェーズを最小限に抑えるために、推論フェーズを積極的に遅らせています。
さて、これは非常に単純化した説明です。
このビデオで言及したすべての記事、すべての投稿、すべてのツイートへのリンクを下に貼りますので、もう少し深く掘り下げてみてください。
しかし、ここで私の友人デイビッド・シャピロが言っていることに一つ触れておきたいと思います。
彼は、Claude Sonnet 3.5が適切なプロンプトを使うことでStrawberryを扱えると述べました。
特別な秘訣はありません。
私たちはどのモデルでもデータを合成することができます。
基本的に、彼がここで言っているポイントは、思考の連鎖プロンプトがしばらくの間存在しているということです。
思考の連鎖プロンプトを任意の大規模言語モデルで使用することで、基本的に段階を追って考えさせ、正しい結論に至るための追加のプロンプトを与えることができます。
OpenAIが行っていることは、すべての情報をシステムプロンプトのような形にまとめ、段階的に考えるように指示し、基本的には自分自身の応答を見て、それを評価し、その評価に基づいて応答を更新し、さらにそのプロセスを続けるということです。
過去には、追加のプロンプトを通じてそれを行っていました。
今では、OpenAIがプロンプトの直後にそれを自動的に行っています。
しかし、それが今週の最大のニュースです。
それがAIの世界で最も話題になっているニュースです。
今週起こったもう一つの出来事は、Appleがグロウアップイベントを開催したことです。
このイベントは、最新のiPhoneや最新のApple Watch、さらには最新のAirPodの革新に関するいくつかのアップデートを人々に伝えるためにほぼ設計されていました。
Appleの基調講演で話されたAI機能のほとんどは、実際にはWWDCで既に紹介されていました。
私たちがその時に見なかった新しいAI機能はあまりありませんでした。
ただ、iPhone 16に展開されるという新しい情報を得ただけです。
Apple自身も、Apple Intelligenceとその新しいデバイスに関連する内容に特化したブログ記事をここに公開しました。
それには、メールや文書の書き直し、校正、要約ができる機能、背景のものを取り除いて写真を整理する機能、通知を優先順位付けする機能、そしてSiriを使用しているときに電話の周りに新しい光るボックスが表示される機能が含まれています。
また、AIアートを生成したり、ノートの中で直接作成したりできる新しい画像プレイグラウンドもあります。
そして、ほとんどの場合、これらはすべてWWDCでプレビューされた内容です。
この特定のAppleイベントでの新しいエキサイティングな発表ではありませんでした。
しかし、Appleイベントからいくつかの興味深い点を強調したいと思います。
ここで基調講演のその部分に飛び込みますが、Apple WatchにAI翻訳機能が組み込まれることも含まれています。
そして、Translateアプリは、音声認識と迅速な翻訳のために機械学習を使用してApple Watchに対応しました。
私が新しいAirPodsについて興味深いと感じたのは、Siriに応答するためにうなずいたり、頭を振ったりする機能です。
Siriと対話する際には、Siriのアナウンスに対して単にうなずくことで「はい」と答えたり、頭を振ることで「いいえ」と答えたりできます。
彼らはプライベートクラウドコンピューティングについて話しましたが、これは基本的に使用できるクラウドコンピューティングであり、プライベートなものです。
したがって、彼らはあなたのデータを保存したり保持したり、学習に使用したりしていません。
それは、実際には携帯電話では動作しない大きなモデルを使用できるようにし、処理を実行するためにそれらをクラウドGPUに送信することを可能にします。
彼らは再び、メールの内容をあなたのために書き直したり、テキストから画像生成を使って自分自身の画像や絵文字を作成したり、通知を要約したり、最も重要だと思われる通知を上位に優先させたりする機能を披露しました。また、新しい視覚的知性についても触れましたが、これはすぐには手に入らないようです。
これは来る予定で、来年の2025年3月のようですが、これは何かの写真を撮ることができ、その写真に写っているものについての情報を実際に提供してくれる機能です。
この人はレストランの写真を撮りました。
そして、そのレストランが閉まる時間、料金、レビューなどの情報をたくさん提供してくれました。
写真編集に関してもいくつかのアップデートが行われており、これは以前に見た内容です。
そして再度言いますが、発表されたほとんどすべての内容はWWDCで発表されたものでした。
彼らはそれを新しいiPhone 16の文脈で披露しました。
The Vergeはその後、「iPhone 16は進行中の作業として出荷される」という記事を出し、基本的に今月の9月または10月初めにiPhone 16を購入した場合、Appleのインテリジェンス機能は利用できないと述べています。
これらの機能は、10月のiOS 18.1で展開が始まり、今後数ヶ月にわたってさらに多くのAI機能が展開される予定だそうです。
そして、視覚的な知能機能のようなものは、来年の3月頃まで登場しないこともわかっています。
たとえ急いで購入して、これらのAI機能を最初に使いたいと思っても、残念ながら初日にはそれらを利用することはできません。
Adobeは今週、彼らの新しいテキストからビデオ生成版のFireflyに関する興味深い情報を共有しました。
私が見たプレビューから判断すると、これは実際にSoraと競争できる可能性があるようです。
また、彼らはすべて倫理的に調達されたビデオであると主張しています。
それはオープンライセンスのパブリックドメインおよびAdobeストックコンテンツのみに基づいて訓練されています。
彼らはそれを商業的に安全だと呼んでいます。
こちらは、Pirrickがこの新しいAdobe Fireflyビデオモデルから生まれた動画のいくつかの例を示しているスレッドです。
約5秒の動画を生成しているようです。
こちらは、銀河がズームアウトして目玉を明らかにする動画の一例です。
私たちは、トナカイの詳細なポートレート、スローモーションの火山風景、ウールとフェルトで作られたミニチュアのかわいらしいモンスター、砂丘を吹き抜ける風の中を飛ぶドローンのカメラ映像、そしてその下の砂に波を作る様子を収めた映像を持っています。
大きな赤い虫眼鏡を通して見た白いタンポポの詳細で非常にマクロなクローズアップ映像もあります。また、夕暮れ時の雪に覆われた森の木々の間を飛ぶドローンショットや、フライパンで卵が焼かれる様子をフェルトで作ったストップモーションの2Dアニメーションもあります。
このスタイルのアニメーションを作るのは本当にクールに見えます。
私は、短編や小さな解説動画に非常に適していると思います。手描きのシンプルなラインアートで、宇宙を見上げる若い子供の驚きの表情、月にいるかわいらしいチーズボールが微笑んでいる様子、3Dレンダリングのオクタン、などなど、水が飛び跳ねて凍りつき、「アイス」という言葉を綴るマクロな詳細ショットがあります。
実際に動画の中で言葉を綴っているように見えます。
今のところ私たちはこれにアクセスできませんが、かなり期待できそうです。
もちろん、これらの動画はおそらく厳選された動画のいくつかです。
彼らはおそらく複数のプロンプトを使用し、最良のものを選んで共有したのでしょう。
しかし、これがAdobeがこれまでに私たちに共有してくれたAdobe Fireflyビデオモデルの機能です。
そして、多くの小さな興味深いことが起こりました。
それでは、さっそくそれらを次々と紹介していきましょう。
まだここに共有したいタブがたくさんありますが、迅速に進めて、これらのことに関する簡単な要約をお伝えしようと思います。
まず、MistralがPIXTRAL 12Bをリリースしたという事実から始めます。
Mistralはオープンソースとクローズドソースの大規模言語モデルの両方を提供しています。
しかし、この新しいPIXTRALモデルは、画像を入力として受け付けることができる初めてのモデルです。
これまでほとんどのモデルでできていたことが、Mistralの12Bモデルでもできるようになったということです。
最も素晴らしい点は、これはオープンソースのモデルであるということです。
開発者はそれを基に構築し、改良し、微調整し、改善するために好きなことを行うことができ、より良いモデルにすることができます。
これは本当に素晴らしいことです。
GoogleにはNotebookLMというツールがあり、実際にとても役立ちます。
あなたはそれにたくさんの文書をアップロードすることができます。
そして、それらの文書について会話をすることができます。
例えば、こちらは電球の発明に関するノートです。
電球の発明に関するさまざまな記事がアップロードされているのが見えます。
そして、私たちは実際にこれらのすべての情報源とチャットをすることができます。
私たちが尋ねるすべての質問に対して、これらの情報源全体を見渡し、利用可能な情報に基づいて応答します。
それ自体が本当に素晴らしく、非常に役立ちます。
私たちがClaudeプロジェクトでできることに似ていて、そこにたくさんの情報源をアップロードし、それについて会話をすることができます。
しかし、彼らは最近、基本的にあなたのノートに関するポッドキャストを生成するという全く新しい機能を導入しました。
ここに来てノートブックガイドをクリックすると、ここに新しいオーディオ概要ボタンがあるのがわかります。
ロードをクリックすると、数分かかる場合がありますと表示され、2人が互いにライトバルブの発明について議論するポッドキャストが作成されます。
それでは、これがどのように聞こえるかというと。
電球、そうですね。
今ではとても普通の存在です。
暗くなったときに自分たちが何をしているのかを実際に見るために、そこにあることを当然のように期待してしまいます。
考えてみると本当に面白いことです。スイッチをひねるように、バン、瞬時に日差しが差し込む、時間に関係なく。
これは、Googleが私たちのために用意してくれた例の一つです。
私は、もし複雑な研究論文を読み込んだらどうなるのか興味がありました。
そこで、実際にarchive.orgからLinfusionに関する文書を取り出しました。これは、従来の拡散モデルの計算上の制約に対処するために線形注意メカニズムを使用したテキストから画像生成の新しいアーキテクチャです。
私は、この複雑なPDFを技術的な専門用語がたくさん含まれている状態でNotebookLMに投げ込んで、音声の概要を作成した場合、終わったときにその論文が何を言っていたのか実際に理解できるのだろうかと考えていました。
その答えは、はい、実際にかなり良い仕事をしてくれました。
クリエイティブな欲求が湧いてくることはありませんか?素晴らしく、詳細なAIアートのアイデアが次々と浮かんでくる感覚です。
しかし、その後、画像がレンダリングされるのを永遠に待つことがどんなものか思い出します。あなたの可哀想なコンピュータが爆発しそうな音を立てているのです。
そう、雰囲気を台無しにすることもありますよね。
今、全体を再生するつもりはありませんが、私がアップロードした文書の内容について、彼らが交互に会話をしているポッドキャストスタイルになっています。
これはとてもクールな機能です。
私は人々にそれを試してみることを強くお勧めします。
それは notebooklm.google.com で利用可能です。
音声の話題に触れているので、Amazonはオーディブルのナレーターが自分自身をAIでクローンすることを許可しています。
Amazonは今週、プラットフォームのオーディオブック制作を加速させることを目的として、自身のAI生成音声クローンを訓練するために少数のオーディブルナレーターを招待し始めます。
これは現在、アメリカのみのベータテストであり、今年後半には著者、エージェント、出版社などの権利保有者にも拡大される予定です。
ナレーターは、Amazonの制作ツールを使用して、AI音声レプリカの発音やペースを編集することもできます。
Amazonは、ナレーターがタイトルごとにロイヤリティシェアモデルを通じて報酬を受け取ると述べていますが、それ以上の詳細には触れていませんでした。
Sunoは今週、Coversという素晴らしい新機能を発表しました。
彼らはここにこのXの投稿を出しました。
あなたの好きな音楽をカバーで再想像してください。
カバーは、シンプルな音声録音から完全に制作されたトラックまで、あなた独自のメロディーを保ちながら、まったく新しいスタイルに変えることができます。
私は最初に、Nick St. Pirre(別名Nick Floats)からこのことを知りました。彼はXでその機能を披露していましたが、私も自分で試してみたくなりました。
そこで、私がやったことはこれです。
さあ、判断しないでください。私は全く歌えないのですが、この小さな音声クリップを録音しました。
Matt WolfをYouTubeで購読し、futuretools.ioもお忘れなくチェックしてください。
それが私の素晴らしい歌唱でした。
基本的には、それを行うためにSunoに入り、作成をクリックし、音声をアップロードするボタンをクリックしました。
そして、音声を録音することができました。
私が自分の声を録音すると、その音声クリップがここに、私がSunoで生成した他の曲と並んで表示されました。
右側のこの三つの点にジャンプして、作成に下がると、カバーソングベータがオプションの一つとして表示されるのがわかります。
それをクリックすると、あなたが入力した音声を使っていくつかのカバーソングが作成されます。
あなたの声は使用されませんが、同じ言葉を使い、メロディに合わせようとします。
では、私のために作成されたものをお見せします。
Matt WolfをYouTubeで購読し、futuretools.ioもお忘れなくご覧ください。
どうぞ、かなり素晴らしいですね。
正直に言うと、私が歌おうとするよりもずっと良い音に聞こえます。
今、これが現在Sunoの有料会員のみが利用できることをお伝えしておくべきですし、作成できるカバーの数には制限があります。
ご覧の通り、私は残り198曲の無料カバーソングがあります。
月ごとに限りがあり、これは有料プランの一つでのみ利用可能です。
Facebookのニュースに移ります。
FacebookとInstagramは、AIによって編集されたコンテンツに対するAIラベルを目立たなくしています。
多くの人々が怒りをあらわにしていました。なぜなら、FacebookやInstagramに画像を投稿すると、「AIで生成された」などと書かれた小さなメモが付いていたからです。
そして、多くの人々が「私の画像はAIで生成されたものではない」と言っていました。
なぜそれが表示されるのですか?
今、彼らはそれを少し目立たなくしています。
実際には、AI情報を見つけるためにメニューをクリックしなければなりません。
理想的には、本当にAIコンテンツではないものに対するAIコンテンツのタグ付けに、少ない人々がイライラすることになるでしょう。
Facebookは今週、ほぼすべての人の写真や投稿をスクレイピングしてAIを訓練していることを認め、オプトアウトの選択肢はないと述べました。
これは、オーストラリアでの何らかのFacebookの公聴会で、Metaのグローバルプライバシーディレクターであるメリンダ・クレバウが発言した内容です。
問題の本質は、あなたが2007年以降に意識的にその投稿を非公開に設定していない限り、Metaがオーストラリア人が2007年以降に共有したInstagramやFacebookのすべての公開投稿から、すべての写真とすべてのテキストをスクレイピングすることを決定したということです。
非公開に設定するという意識的な決定がなかった限り。
しかし、それが実際の現実なのですよね?
その通りです。
回答をありがとうございます。
私は、FacebookやMetaがこの件であまり問題にならないと思います。なぜなら、これはおそらく利用規約のどこかに埋もれているからです。
あなたがデータをFacebookにアップロードする際、明示的にプライベートに設定しない限り、彼らにそのデータを使用し、学習させる権利を与えることになります。
これらのプラットフォームのいずれかにサインアップし、利用している場合、おそらく知らず知らずのうちに彼らにこれを行うことを許可してしまったのでしょう。
ただの推測ですが、私自身はポリシーを読んでいません。
非常に面白いAI生成ゲームのようなものが登場する予定です。
例えば、ロブロックスは先週の後半に、AIを使ってロブロックス内に3Dの世界を作成できるようになると発表しました。
Robloxは、同社のプラットフォーム上で生成的な創作を支える3D基盤モデルに取り組んでいると発表しました。
このモデルはオープンソースでマルチモーダルであり、クリエイターがテキスト、動画、プロンプトを使用して3Dコンテンツを生成できるようにします。
クリエイターは言うことができます、「スコットランドのハイランドに城があり、嵐の日でドラゴンの背景がある世界を作りたい、そしてこれをスチームパンクの蒸気スタイルで表現したい」と。
そして、その出力は完全なシーンの創作となります。
彼らは、Robloxが創造的なプロセスを置き換えようとしているわけではなく、むしろより多くの人々がゲームを開発し創作できるようにすることに焦点を当てていると述べました。
ちょっとしたスクリーンショットです。
あまり多くの情報はありませんが、彼らが緑の草の中にいる場所の少し前の様子が見えます。そしてその後、道路にはもう少しテクスチャーと景色が広がっています。
今のところ、これが私たちが扱っているすべてです。
こちらの方がさらにクールに見えます。
これを「サイベバー」と呼んでいると思います。
彼らはついに3D世界創造プラットフォームを発表しました。
今のところ、私たちはまだこれにアクセスできませんが、これがどのようなものかお見せします。
テキストを通じて地図を生成することができます。
非常に基本的な地図が作成されますが、その後、描画することで調整できます。
ここで、彼らが地図に小さな川を描いているのが見えます。
彼らは地形を調整し、世界のスタイルを調整することができます。
水の村や工業地帯、グランドバザールのようなテンプレートがいくつかあることがわかります。
そして、生成された町のレイアウトを作成し、追加の資産を使って、その世界がどのように見えるかのアイデアを与える3Dプレビューを1分以内に作成します。
そして、これが表示される出力です。
今のところ、私にとっては、実際に見るまで信じられないという感じです。
これはあまりにも素晴らしすぎて現実とは思えませんが、ここで彼らが作成した3D環境を見ることができます。
マーケットプレイスや自分のアセットを読み込むことができます。
鹿がいて、海があり、背景には山があり、ゲームにアセットを追加するためにお金を払うこともできるようです。
私にとっては、実際に自分の手で触れるまでは、これが実際に言われているようにうまく機能するのか信じがたいほど素晴らしく見えます。
ゲームアセットの話をしている間に、この会社Daz 3Dがテキストプロンプトからキャラクターメッシュの形状を生成する新しいプラグインを披露しました。
それでは、こちらの動画を見てみると、若い女性のアフリカの戦士が登場し、そこでキャラクターが生成されます。
筋肉質の小人で、大きなお腹と大きな鼻、そして大きな頭などなど。
そして、そのキャラクターが作られました。
妊娠中の女性、そのキャラクターが作られました。
男性で、背が高く、細身で、色白の吸血鬼。
背が高く、細長い、異星人の男性です。
キャラクターの見た目を自由に設定でき、それに基づいてさまざまなモデルを生成し、ゲーム資産の素晴らしいスタートを提供してくれることがわかります。
ただ、実際にテクスチャを自動で作成してくれるのかは不明です。なぜなら、彼女がタトゥーやパンツ、シャツ、銃を持っていて、すべてが色付けされている画像が表示されるからです。
その部分を自動で行ってくれるのかはわかりません。
プレビューでそれが示されているので、そうだと思いますが、まだはっきりとはわかりません。
しかし、それはDaz 3Dという会社がYellow 3Dと協力して作ったものです。
ゲーム資産に役立つもう一つのツールは、Meshiというツールです。
彼らは最近、Meshiのバージョン4を発表しました。このバージョンでは、任意のテキストプロンプトを入力すると、そのテキストプロンプトから3Dオブジェクトを生成します。
このツールは、実際に今すぐ無料で使用することができます。
一定のクレジットが付与され、無料で利用することができます。
meshi.aiにアクセスすると、テキストから3D、画像から3D、AIテクスチャリング、そしてテキストからボクセルの機能があります。
私はこれを少し試してみました。
画像から3Dを作成しました。
ここに自分の頭の画像をアップロードし、どちらが見栄えが良いかを確認するために、クワッドと三角形のトポロジーで作成しました。
こちらがクワッドトポロジーです。
これが私をどのように見せたかです。
つまり、ひげと髪の色は合っていると思います。
三角形のトポロジーについてはこうなりました。
そして再度言いますが、私はひげがあります。
その部分は合っています。
これまでのところ、実際の顔画像をアップロードすると、あまりリアルではありません。
テキストから3Dに移ると、私はこれをもう少し試してみました。
今日は新しいMeshi 4を使って、「月に向かって吠えるオオカミ」というプロンプトでこれを生成しましたが、実際に生成されたものはかなり印象的です。
ズームインしてよく見ると、オオカミには目がなく、非常に長い鼻を持っていることがわかりますが、少しおかしいように思えます。
しかし、目がなくて非常に長い鼻があるという事実を無視すれば、この角度から見ると、これらの角度では実際にかなりしっかりとしたものに見えます。
私は、その自動テクスチャリングには本当に感心しています。
顔の部分については、もう少し改善の余地があると思います。
他にもいくつかの選択肢を提示してくれましたが、私が選んだものが最も良かったです。
このものは、オオカミというよりは奇妙な獣のように見えます。
こちらは、オオカミか何かの頭に巨大な腫瘍があるように見えます。
何が起こっているのか、これらのいくつかについては分かりません。
この作品はかなり見栄えが良く仕上がりました。
テクスチャ機能を使用し、それが得られた結果です。
私はそれがかなり良いと思います。
新しいPS5に関する少ししたAIのニュースがあります。
新しいPS5 Proが発売される予定です。
AIを使って動画の品質を向上させ、より良い見た目にする予定です。
個人的には、この新しいPS5 Proはまったくの冗談だと思います。
これを700ドルか何かで発売するつもりで、しかもディスクリーダーすら付いていません。
PS5やPS4を持っていたり、プレイしたいPlayStationのディスクをすでに所有している場合でも、外付けのディスクドライブを購入しない限り、それをプレイすることはできません。PS5にはそれが付属していないからです。
それは残念ですね。
しかし、それはAIを使用して品質を向上させ、あなたがプレイしているゲームからさらに良い映像品質を引き出そうとしています。
そして最後に、DeepMindのロボティクスラボからの新しい情報です。
彼らは今、実際に靴ひもを結ぶことができるロボットを持っています。
このビデオでは、ロボットが両方のひもをつかみ、正確に靴を結ぶことができる様子が見られます。
ロボットは以前にはそれを行うことができませんでした。
テーブルからシャツを拾い上げ、実際にコートハンガーにかけて吊るすという別の例があります。
そして、別のロボットの部品を修理し、取り付けている様子もあります。
二本の手を持つロボットがこのような器用さを見せているのは非常に素晴らしく、日常的な作業をこなす能力がますます向上していくことでしょう。
結局のところ、私たちが望むのは、これらのロボットがそのレベルに達することですよね?
私たちは、彼らに私たちの皿を洗ったり、洗濯をしたりできるようになってほしいと思っています。
そして、靴を結ぶためにロボットが必要かどうかはわかりませんが、私たちの家の中で日常的な作業をしてほしいと思っています。
それには、靴を結ぶことができるような追加の器用さが必要であり、そういったことを正確に行うためにはそれが求められます。
以上です。
今週私がキャッチしたAIニュースの概要です。
再び、私はディズニーランドにいて、ほぼ一週間中そこにいました。
家に帰って、追いつくために超集中勉強をしました。
だから、この動画は通常よりも1日遅れて公開されることになりました。
私は通常、これらの動画を金曜日に公開しています。
今回は土曜日に公開しますが、すべてのニュースを追いかけ、メモを取り、皆さんに見せる価値があると思うことを考え、この動画をまとめるためにその追加の時間が必要でした。
この動画の公開が1日遅れたことをお詫び申し上げます。
しかし、もし日々のニュースを追いたいのであれば、futuretools.ioをご覧ください。
そこにはAIニュースのセクションがあり、定期的に更新しています。
この動画に含まれなかったニュースはそのページに掲載されています。
そして、私が出会った素晴らしいAIツールは、Future Toolsのホームページで共有しています。
無料のニュースレターがあります。
ぜひご覧ください、futuretools.io。
きっと気に入ると思います。
本当に素晴らしいです。
私は全く偏見を持っていません。
インターネット全体で最高のウェブサイトです。
このような動画が好きで、最新のAIニュース、最新のAIツール、最新のAI研究に関する情報を常に受け取りたい、また、日常生活でこれらの技術を実際に意味のある、役立つ方法で使うためのチュートリアルを得たいのであれば、この動画に「いいね」を押して、このチャンネルを登録してください。
そうすれば、あなたのYouTubeフィードにこのような動画がもっと表示されるようにします。
本日、私と一緒に視聴していただき、ありがとうございます。
あなたに感謝しています。
次の動画でお会いしましょう。
さようなら。