最近のAIニュースを解説しています。
公開日:2023年4月27日
※動画を再生してから読むのがオススメです。
私は数日間インターネットが使えないキャンプから戻ったばかりです。
そのおかげで、本当にクールなネルフビデオを作ったり、持っているAIカメラのいくつかを使って遊んだりする機会がありました。
そこで、この数日間、私がAIの世界で出会ったクールなものを、ニュースとしてまとめて紹介したいと思います。
さっそく見ていきましょう。
最近発表された最もエキサイティングな研究は、「Scaling Transformers to 1 million tokens and beyond with RMT」という論文です。
このような論文が出たとき、私はPDFGPT.ioというツールを使うのが好きです。
論文に質問することで、論文の内容をより深く理解することができます。論文では大きな言葉を使うのが好きで、その大きな言葉に苦労することもあります。
これは、ChatGPTのようなツールにメモリを追加することで、非常に長い情報の連続から物事を記憶できるようにするための方法です。
また、長い配列を小さな部分に分割し、前の部分の情報を記憶するためにメモリを使用することができるトランスフォーマーネットワークを使用しています。
これにより、最大で200万と4万8000のトークンを使用できるようになりました。
ChatGPTなどを使っていて、長すぎる文章を貼り付けようとすると、「これは長すぎます。
長すぎて処理できないとか、処理を始めても途中で切れてしまうとか。
これは、GPT-4のベスト版で32,000トークンまでしか使えないからです。
近い将来、この新しい研究によって、200万以上のトークンを使えるようになるでしょう。
しかし、そのためには、より多くの計算能力が必要になり、その分コストがかかるというデメリットもあります。
分かりやすく説明すると、1トークンはおよそ0.75ワードです。
では、ここで電卓を取り出して、204万8000トークンを0.75倍すると、150万語が私たちの入力テキストと出力されるテキストの組み合わせで使えることになります。
これは、ハリー・ポッターの全シリーズを合わせると、100万8400語170語になります。
つまり、理論的にはハリー・ポッターの全シリーズを1つのプロンプトに貼り付けて、質問することができるのです。
これは、コードのようなものにも有効です。
ソフトウェア製品のコード全体を貼り付けて、そのコードに関する質問に答えてもらうことができるようになるはずです。
ですから、これは本当に大きなニュースです。
現在、私たちはまだこれにアクセスできていませんが、私たちがアクセスできる最大のモデルでは、最大32,000トークン、つまり入力と出力を合わせると約24,000ワードになります。
ですから、この技術が実際にチャットシステムに導入されれば、かなり大きな飛躍となるでしょう。
さて、この動画を撮影している4月25日は、AIの世界では大きな話題となった日です。
ニュースに次ぐニュースで、ハギングチャットを皮切りに、何か大きなことが次々と起こるような、そんな日でした。
私の以前のビデオをご覧になった方は、ハギング・チャットについて私が何度も話しているのを見ていると思います。ここでは、人々が機械学習モデルを構築し、実験してアップロードし、他の人々がそれを使って遊ぶことができます。
これは、コミュニティ主導の機械学習プラットフォームで、とてもクールです。
今日、彼らはオープンアシストの最新モデルをベースにした独自のチャットプラットフォームをリリースしました。
Open Assistantをご存知でない方は、こちらのビデオ「The chat gpt alternative」をご覧ください。
Open Assistantについて、なぜ面白いのか、なぜ気になるのか、すべて話していますが、ビデオの最後には、まだそこまでは到達していないという結論に達しています。
チャットGPTの代わりに使うことはないでしょうし、おそらくbardのようなものでも、まだ非常に初期の段階だからです。
でも、このモデルは今、Hugging FaceのHuggingChatで利用できます。
huggingface.co/chatで見ることができます。
完全に無料で使用でき、オープンソースでもあります。
しかし、やはり、まだそれほど素晴らしいものではありません。
最近のワールドシリーズで優勝したのは誰かというと、ニューヨーク・ヤンキースと表示されました。
来シーズンはどのように改善できると思いますか?
という答えが返ってきて、ニューヨーク・ヤンキースは直近のワールドシリーズに出場していないんです。
もう一つ面白いのは、こっちのタイトルが「ボストン・レッドソックス、今度は何だ」となっていることです。
また、4月25日には、OpenAIがChatGPTでデータを管理する新しい方法についての記事を発表しています。
基本的には、ChatGPTのユーザーはチャット履歴をオフにすることができ、どの会話をモデルのトレーニングに使用するかを選択できるようになったということです。
これは明らかに、ChatGPTが実際に保存している情報について、人々が抱いていたプライバシーに関する懸念を克服するための努力です。
そのため、チャットで入力した情報の保存や保持をやめるよう指示することができるようになりました。
多くの人は、ChatGPTを使用する際に、あなたが入力した情報が保存され、モデルのトレーニングに役立っていることに気づいていなかったでしょう。
しかし、そのようなことはありません。
また、リプリットは4月25日に9,740万ドル(約11億6,000万円)を調達したことを発表しました。
また、Replit Developer Dayと呼ばれるミニライブイベントを開催しました。
Replitは、GithubやHugging Faceのような、人々が共同してコードを書くことができる場所です。
今日のイベントでは、コーディングのために特別に調整された独自の大規模言語モデルを公開することを発表しました。
他のほとんどのプラットフォームと比較すると、パラメータは27億個と非常に多く、その分、使用する処理能力が低くなり、コストが下がることになります。
しかし、実際には、他のほとんどのプラットフォームよりも優れた性能を発揮しています。
私はライブイベントには参加しませんでしたが、ライブストリームが行われました。
ライブストリームはYouTubeで配信され、私はそれを見るのを楽しみにしていたのですが、YouTubeがダウンしてしまい、まだ見ることができません。
スクリーンショットを見るのが精一杯です。
しかし、簡単に言うと、Replitは、コーダーのコーディングを助けるために、Replitデータベース内のすべてのデータから独自の大規模な言語モデルの開発に取り組んでいます。
また、4月25日には、NvidiaがNemo Guardrailsというオープンソースソフトウェアをリリースしました。
実は先日、Nvidiaの方とプライベートで電話をしていて、このデモをやってもらいました。
このスライドは、Nemo Guardrailsが何をするものなのかを説明するための最も良い表現でした。
これは、ChatGPTやLLaMA、stability language model、Open Assistantなど、AIチャットボットの間に位置するツールで、あなたが使っている言語モデルなら何でも構いません。
ユーザーと言語モデルの間に位置し、ルールやガードレールと呼ばれるセットを持つことができるのです。
このガードレールを追加することで、大規模な言語モデルをあなたのビジネスに合わせてカスタマイズすることができるのです。
例えば、ユーザーがカスタムチャットボットにアクセスして、答えを出したくない質問をすると、実際にチャットボットに到達する前に、このガードレールにぶつかるでしょう。
そしてガードレールは、「それには答えられません」という応答を返します。
もし答えられるのであれば、その質問をチャットボットに送り、質問に答えてもらいます。
ユーザーと実際の大規模言語モデルの間のバッファーのようなもので、データが大規模言語モデルに送られる前に、何が質問できて何ができないかという基準を設定するのです。
これはオープンソースで、誰でも使うことができます。
どのような大規模言語モデルでも動作します。
先日、私が参加した電話会議でも、実際にデモを行い、セットアップの簡単さをアピールしていました。
とてもシンプルで、誰でも自分のチャットボットに設定することができます。
本当に簡単なんです。
もし興味があれば、今後のチュートリアルで紹介するかもしれません。
また、4月25日には、YelpがAIを使った検索アップデートとレビューに動画を追加する機能をリリースしました。
個人的には、この件にはあまり興味がありません。
これは、YelpがAIのハイプ・トレインに飛び乗って、「ほら、AI 2ができたから、これに時間をかけるつもりはないよ」と言っているようにしか感じられません。
しかし、それは4月25日のニュースにもなっていました。
今度は何?
今週の他のニュースでは、歌手のグライムスが、AIが生成する音楽についての考えをコメントしました。
ドレイクやThe Weekndの曲のようなものが急速に人気を集め、すぐにすべてのストリーミングサービスから削除されたり、カニエの曲を模倣する人たちがたくさん現れたり、さまざまなアーティストやレコード会社がこれについて大騒ぎしている中で、グライムスは逆のアプローチをとっています。
彼女は、私の声を使ってAIが生成した楽曲が成功した場合、50%のロイヤリティを分配すると言っています。
私がコラボするアーティストと同じ取引です。
違約金なしで、私の声を自由に使ってください。
私にはレーベルもなければ法的拘束力もない。
そして、私はグライムスに拍手を送ります。
これはすごいことだと思う。
誰でも、どんなミュージシャンの声でも訓練して、その声で音楽を作ることができるようになったのですから、今後数年間、音楽業界がどうなっていくのか、本当に興味深いですね。
その魔法が解けたのです。
自分のコンピュータで訓練したソフトウェアがあれば、誰でもそれができるようになったのです。
法的な争いはあるでしょうが、いずれにせよ、誰もができるようになるでしょう。
将来、このことを振り返ったとき、グライムスのようなアーティストが、これからのテクノロジーと戦うのではなく、それに寄り添ったことを賞賛されるでしょう。
しかし、ミュージシャンが自分の声を使われたくない、複製されたくないと思うのであれば、その権利もあるはずで、その権利が奪われてしまったようなものだということにも同意します。
ですから、私はこの件に関して非常に複雑な気持ちを持っています。
グライムスがここでやっていることは本当に、本当にクールだと思うし、音楽の進歩の歴史を振り返るとき、これは将来的に彼女を地図に載せることになる可能性が高い。
彼女は、このトピックに関して非常に進歩的な考えを持った人物として見られる可能性が高いです。
もっと多くのミュージシャンが、自分のオーディオをオープンソース化して、他の人がそれを使ってトレーニングできるようになり、新しいリミックスや様々なものが生まれることを願っています。
また、多くの人が、彼女にロイヤリティを渡すことなく、彼女の声を使おうとしているのではないでしょうか。
ここには諸刃の剣があり、また、非常に複雑な心境です、非常に複雑な心境です。
私は、この問題がどのように展開されるのかに興味があります。
この問題は、今まさに賛否両論が見られる問題のひとつです。
さて、AIオーディオについて話すと、GitHubのgithub.com/suno-ai/barkで見つけることができるオープンソースのツールであるBarkがあります。これはテキスト・トゥ・スピーチジェネレーターですが、他にも多くのニュアンスが含まれています。
大きさや笑いを加えたり、歌わせたり、声を変えたりすることができるんです。
ページに載っている例をいくつか紹介します。
ここにテキストプロンプトが表示され、再生ボタンを押すと、こんな声が返ってきます。
こんにちは、私の名前はスノ、ピザが好きです。
でも、他にも三目並べをするのが好きなんです。
このように、声にニュアンスが生まれ、笑ったり、間が空いたりするのがお分かりいただけると思います。
もうひとつは、実際に言語を切り替えているものです。
前半はスペイン語で、後半は英語で話していますが、スペイン語のアクセントはそのままです。
では、これを聞いてみてください: ブエノスディアス、ミゲル。
Tu colega piensa que tu aleman es extremadamente malo, but I suppose your English is terrible.
ほら、実はこのアクセントは英語になったときにも維持されているんですよ。
さて、これを自分のパソコンにインストールして動かしてみましょう。
私の友人のAI起業家が、インストール方法についてとても良いチュートリアルを出しています。
彼は、自分のコンピュータにインストールする方法を、見事に説明してくれています。
そこで、以下の説明で彼のビデオをリンクしておきますので、自分のコンピュータにBarkをインストールする方法をご覧ください。
もし、自分のコンピュータにインストールせず、クラウド上で実行したい場合は、Google Collabを利用することができます。
セットアップと実行はとても簡単です。
インストールの下にある再生ボタンを押すだけです。
緑のチェックマークがついたら、このエリアを最小化し、基本の下の再生ボタンをクリックすると、さらにいくつかのインストール設定を行うことができます。
さて、これですべてのモデルがインストールされたので、何か生成してみましょう。
基本的なモデルは、1分前に聞いたものです。
これを好きなように変更することができます。
私の名前はマットで、タコスが好きです」と言うことができます。
ここで再生ボタンを押すと、実際に生成され、処理されます。
数秒で終わりますので、あとは聞き返すだけです。
こんにちは、私の名前はマットです、そして、タコスが好きです。
この音声が気に入ったら、この3つの点をクリックしてダウンロードすることができます。
さて、高度な例として、Buenos dias, Miguelと書いてあるものがあります。
これは好きなように変更することができます。
男性でも女性でもいいし、実際に声を前後させることもできます。
オムレツ・ラテをお願いします。
うわぁ、高いなぁ。
そして、こちらは実際に声を変えることができるものです。
さて、何種類のスピーカーがあるのか正確には分かりませんが、まずはこちらの声を聞いてみましょう。
私はシルクのような滑らかな声で、今日はナマケモノの運動療法についてお話します。
さて、他の声もあります。
それでは、英語スピーカー4に設定してみましょう。
再生ボタンを押すと、またすぐに音声が再生されます。
私はシルクのような滑らかな声で、今日はナマケモノの運動療法についてお話します。
しかし、このテキストには、実際に人が口で出す音である「ウム」が追加されていることに注目してください。
かなり興味深い内容です。
さて、これは11ラボのようなものができることには到底及ばないと思います。
まだ少し先ですが、これはオープンソースです。
あなたのコンピューターにインストールすることができます。
11ラボはそうではありません。
11ラボはそうではありませんが、これは「Bark」と呼ばれています。
下の説明で必ずリンクしておきますね。
もう1つ、本当に素晴らしいものがたくさん出てきています。
これは実際にMetaのSegment Anythingを使用していますが、ビデオ用に使用しています。
このアベンジャーズのクリップでは、アベンジャーズの各キャラクターをセグメント化して分離し、ビデオ内のすべてのキャラクターを見つけることができます。
これは、スティーブ・カリーのクールなクリップです。
コートにいるスティーブ・カリーを見つけ、彼の動きに合わせて追いかけています。
ダヴィンチやアドビプレミアなどのツールでこれを実現するのは本当に難しいことです。
しかし、このツールでは、それを簡単に実現することができます。
実際にペインティングのビデオに使用した事例を紹介します。
左側では、パルクールをしている人が走っているのが見えますが、右側では、その人物が完全に取り除かれたビデオがあり、カメラがその人物に追従しています。
もう一度再生してみると、実際に人の影がまだ見えていますね。
影を分割したのではなく、人物を分割したのです。
これは本当に素晴らしいことで、おそらく将来、多くの人のビデオ編集ワークフローに組み込まれることになるでしょう。
物事をセグメント化するこの機能は、現在のほとんどのビデオエディターツールで得られるものよりも優れています。
また、これはMetaのオープンソースのsegment anythingから生まれたものなので、これ自体もオープンソースになっています。
ですから、人々はこれを基に構築し、反復することで、時間の経過とともにより良くなっていくでしょう。
さて、最後に2つのクールな拡張現実を紹介したいと思います。
私は、拡張現実についてとても興奮しています。
拡張現実は、次の大きな出来事だと思います。
拡張現実メガネやツールがどんどん安くなるにつれて、本当にクールな拡張現実の技術やおもちゃ、ソフトウェアが大きな波となって現れてくると思います。
拡張現実は、もうすぐいたるところで見られるようになると思います。
まず最初に紹介するのは、イアン・カーティスの作品です。
もし彼のTwitterをフォローしていないなら、ぜひフォローすることをお勧めします。
彼はクールなものをたくさんシェアしています。
彼は、拡張現実の分野で多くのことを行っています。
私は、彼が発信するすべての動画が大好きです。
最近彼が作ったもので、拡張現実テトリスを実際に作ったものがあります。
コーヒーショップに座って、拡張現実で巨大なテトリスに挑戦しています。
GPT4を使ってゲームロジックを構築するのに1時間54分、ゲームの美しさを構築するのに6分かかったと言います。
また、リー・ヴァーミリオン氏の作品では、とてもクールな拡張現実ゲームのプロトタイプを作りました。
チューブから液体が垂れてくるので、拡張現実の小さなツールリストでツールをつかみ、液体がバケツに入るまで方向を変えなければなりません。
とても楽しそうなゲームですね。
私は子供の頃、PCで「インクレディブル・マシン」というゲームが好きでした。
これは、その信じられないようなマシンの拡張現実未来版のようなものです。
目的の結果を得るために何かを作る。
これは本当にクールだと思います。
もし今すぐ手に入るなら、とことん遊び尽くしたいゲームに見えますが、これは単なるデモです。
これは、彼が作っているコンセプトの証明に過ぎません。
このような拡張現実の良さを手に入れるまで待ちきれない。
これから、私が出会ったクールな拡張現実をたくさん紹介していくつもりです。なぜなら、これが次の大きな波になると思うからです。
AIと拡張現実の組み合わせが衝突し、そこから多くの素晴らしいものが生まれると思う。
どんな展開が待っているのか、とても楽しみです。
このようなオタク的なものが好きな方、AI技術や拡張現実、そして将来的には仮想現実のようなものも好きな方は、futuretools.ioをチェックしてみてください。
ここでは、私が出会ったクールなAIツールをすべてキュレーションしています。
今、毎日新しいツールを追加しています。
AIニュースのページでは、AIの世界で起こっているすべての最新情報を毎日更新しているんだ。
もし、これらすべてが多すぎて、圧倒されてしまうのであれば、無料のニュースレターに参加してください。
今週出た5つのクールなツールを送りますし、今週の最新のAIニュースも送ります。また、いくつかのYouTube動画を送り、AIを使ってお金を稼ぐ1つの素晴らしい方法も送ります。
これは毎週金曜日に配信されます。
それがあなたのTLDRとなります。
Futuretools.ioにアクセスして、無料ニュースレターに参加するボタンをクリックすれば、あなたをサポートします。
このビデオを見てくれて本当にありがとう。
本当に、本当にありがとうございました。
今、AIの分野ではたくさんのことが起きていて、急速なペースで発表されています。私は、ビデオを作り、皆さんに発表されるすべての最新情報をお届けできるよう、最善を尽くします。
このようなものが好きな方は、このビデオの下にある「いいね!」ボタンをクリックしてくださいね。
YouTubeのニュースフィードでこのようなビデオをもっと見たい場合は、購読ボタンをクリックしてください。
改めて、ご視聴いただき、ありがとうございました。
本当にありがとうございました。
では、次のビデオでお会いしましょう。
では、また。