AIトレンド速報 最新ニュースまとめ : オープンソースの声の革命:4人のチームがVoice Modeに挑む
若き4人のチームが、最初のオープンソースのボイス・トゥ・ボイスモデルを発表。2,000万時間の音声データで訓練されたHertz-Devは、自然な音声をリアルタイムで実現し、音声翻訳や分類などに応用可能です。
読了時間:4分以内
若い4人のチームが、大手に挑む最初のオープンソースのボイス・トゥ・ボイスモデルを発表しました。Standard Intelligenceは、2,000万時間の音声を使って、より自然な音声プラットフォームを構築したと主張しています。詳細をお見逃しなく。
📌 今日のインサイト
今日のAI:データセンター、ロボットの脳、MITの新モデル
🛠️ チュートリアル:自分そっくりのカスタムアバターの作り方
🎙️ オープンソースのVoice Mode対抗モデル
📝 今日知るべきその他のこと
🖼️ AI生成画像:石で作られたアート
ニュースレターでAIの最新のニュースを配信中!
今だけ無料登録中配信中です!
Youtubeで最新の海外AIニュースを最新で発信!
🎙️ 今日のAI
ジェンセン・ファン、デンマークの国王、そして薬メーカーのノボ・ノルディスクの共通点は? 彼らは、バスケットボールコートよりも大きい世界最大級のスーパーコンピュータの建設に協力しました。NvidiaがAIチップを提供し、ノボ・ノルディスクが資金を提供し、デンマークの輸出・投資基金が政治的支援を行いました。このスーパーコンピュータは、医療からグリーンエネルギーまでの様々な分野での研究拠点となります。
AI搭載の新しいロボットの「脳」が家事を手助けするかも? ジェフ・ベゾスとOpenAIの支援を受けたサンフランシスコのAIスタートアップ、Physical Intelligenceは、「どんなロボットでも制御できる汎用的な脳」を開発するために、4億ドルの資金を調達しました。今年の初めに立ち上げられたばかりですが、すでに洗濯物をたたんだり、食料を袋詰めするなど多様なタスクをロボットに行わせるデモを実演しています。
古いロボットに新しい技を教える: LLM(大規模言語モデル)とは異なり、ほとんどのロボット向けモデルは非常に専門的なデータで訓練されており、新しいスキルを即座に学ぶことが難しいです。MITはこれに対し、キッチンシンクまで全て投入するようなアプローチを取り、独自モデルを使ってロボットがシームレスに異なるタスク間を移行できるようにしました。この手法は従来の方法よりも20%効果的でした。
🎓 AIアカデミー
HeyGenを使って自分に似たカスタムアバターを作る方法
HeyGenのウェブサイトにアクセスし、クレジットを取得するためにサインアップします。
ダッシュボードに進み、「アバター」をクリックします。
「フォトアバター」をクリックし、「フォトアバターを作成」をクリックします。
画像をアップロード(顔が正面からはっきり見える画像、可能であれば全身画像が良いです)。既存のアバターを使うこともできます。
最良の結果を得るために、少なくとも自分の写真を10枚アップロードし、「モデルを訓練」をクリックします。数分かかります。
注:画像を多くアップロードすると、より良い結果が得られます。
年齢やモデルの詳細を入力します。
完成後、キャラクターをどのシーンに置くか、どんな服を着せるか、どんなポーズにするかなどを指定してプロンプトを入力します。
作成が終わったら、ダウンロードして共有します。
HeyGenのフォトアバター機能を使えば、自分のキャラクターを完璧に生成し、広告や学習リソース、ビデオなど様々な目的に使うことができます。
🎙️ フロンティアから:
オープンソースのVoice Modeの対抗馬
母語を習得した時のことを考えてみてください——一つ一つの単語を頭の中で翻訳するのではなく、ただ理解します。ほとんどのAIオーディオモデルはもっと煩雑なルートを取ります:音声をテキストに変換し、それを処理し、また音声として再構築するのです。
それが、Standard Intelligenceの最新のブレイクスルーが注目される理由です。4人のチームが発表したのは、音声を音声に直接変換するオープンソースモデル「Hertz-Dev」です——翻訳は不要です。
2000万時間の音声で訓練された8.5Bパラメータのバージョンは、少なくともチームが共有した初期のデモでは、OpenAIの評価の高いVoice Modeと同じくらいリアルでスピーディに聞こえます。そして、オープンソースであるため、ライブ翻訳から分類まで何にでも微調整することが可能です。より大きな70Bバージョンも近日中に登場予定ですので、お楽しみに。
🗞️ AI & TECHニュース
今日知るべきその他のこと
Perplexityが米国選挙に先立ってAI搭載の投票ガイドを公開しました。出典:Perplexity
🗳️ 政治を遊ぶ:多くのAIプラットフォームが米国選挙から距離を置く中、Perplexityは投票集計のライブ情報、候補者の要約、投票用紙の情報を提供するAIハブを開設しました。
✨ 少ない方が多い:Anthropicの効率重視モデル「Claude 3.5 Haiku」が、同社のAPIとAmazon Bedrockなどのサードパーティプラットフォームに登場します。
🐝 Buzzkill:Metaは米国内でAIデータセンターを建設する計画を中止せざるを得ませんでした。建設地付近で希少な蜂の種が発見されました。
🔍 A-I Spy:Spot AIはシーン内のオブジェクトを監視したり、関連するクリップに自動的にジャンプしたりするソフトウェアのために、3100万ドルの資金を調達しました。
📖 次の章:OpenAIは短命だったTwitterの代替サービス「Pebble」の共同創設者、ガボール・チェッレを採用しました。この動きは、OpenAIが今後のソーシャルメディア製品に興味を持っていることを示唆しているかもしれません。
📝 プロンプト・オブ・ザ・デイ:
プロンプト:特定の分野の大学院生として行動し、研究プロジェクトのためにリテラチャーレビューを書くように指示
Prompt: Act as a graduate student in a specific field. You have been tasked with writing a literature review for a research project. Your literature review should provide an overview of the existing research on a specific topic, and identify gaps or areas where further research is needed. Your literature review should include at least 10 peer-reviewed sources, published within the last 5 years, and you should critically evaluate and synthesize these sources to build a cohesive argument. Your literature review should be structured in a clear and logical way, with subheadings to help organize your ideas. Additionally, you should provide an explanation of the methodology used to search for and select sources. Finally, your literature review should adhere to the style guidelines set forth by your department or discipline.
🪨AI生成の石のアート:自然が作るデザインの美学
Midjourney Prompt: "human design" chart graph made in stone in shades of gray and ash and pastel yellow. simple but with visible structure --ar 9:16 --v 6.1 --stylize 250
meta description:
「灰色とパステルイエローの石を使ったアート。シンプルでありながら構造が際立つデザインをAIが生成。Midjourneyによる創造の美しさをぜひご覧ください。」
ニュースレターでAIの最新のニュースを配信中!
今だけ無料登録中配信中です!
Youtubeで最新の海外AIニュースを最新で発信!
この記事が気に入ったらサポートをしてみませんか?