見出し画像

2024/6/6のIT・AIニュースピックアップ!

【ニュース】 2024-06-06 08:40:00 NVIDIA、Apple抜いて時価総額で世界2位に 3兆ドル突破


これはちょっと投機な感じがします。NVIDIAは特別なGPUを作っているというよりは、AIのフレームワークなどがNVIDIAのGPU上で動作するためのCUDAというプラットフォームを前提としているから優位なんですよね。逆に言えばそこを崩せればNVIDIA一強は終わる。
以前、ARMやIntel、富士通などが連合してNVIDIAに対抗するというニュースがありました。

一社独占というのはあまりいいことではないと思うので、この連合がこれからどう展開していくか注目しています。
--------------------------------

【画像生成AIの評価】 2024-06-06 09:00:00 Launching the Artificial Analysis Text to Image Leaderboard & Arena


【AIによる要約】
Artificial Analysis のText to Image Leaderboardは、人間の好みに基づいたランキングでこれらの質問に回答しようとしています。45,000件以上の人間の画像プリファレンスデータに基づいて、ELOスコアが算出されています。このリーダーボードには、Midjourney、OpenAIのDALL・E、Stable Diffusion、Playgroundなど、主要なオープンソースおよび独自のイメージモデルが掲載されています。
この評価方法は、言語モデルなどの他のAIモダリティに比べて、人々の画像に対する好みの変動が大きいため、従来は非常に困難でした。しかし、Artificial Analysisのイメージアリーナは、大規模な人間の好みデータを収集する群衆調査アプローチを用いることで、主要モデル間の比較を可能にしています。
評価の結果、独自モデルがリードしているものの、オープンソースモデルも急速に追いついてきているようです。特に、Playground AI v2.5がDALL・E 3を抜いて上位に躍り出ています。一方で、DALL・E 2は前年までの圧倒的なリーダーから地位を落としています。また、Stable Diffusion 3 Mediumがオープンソース化されれば、オープンソースコミュニティにとって大きな追い風になると考えられます。
ユーザーはこのリーダーボードサイトでモデルの順位を確認したり、自身の好みに基づいた個人的なランキングを作成したりできます。Artificial Analysisは、Twitterやウェブサイトでも関連するサービスを提供しており、ユーザーからのフィードバックも歓迎しています。

画像生成AIの評価に関する記事ですね。Hugging Faceは機械学習の分野で広く使用されるオープンソースソフトウェアとサービスを提供する企業です。特に、AIモデルの開発と共有のためのプラットフォームとして知られています。特に有名なのは「Transformers」ライブラリがあります。このライブラリは、BERT、GPT、T5など、最先端のトランスフォーマーベースのモデルを簡単に利用できるように設計されており、Pythonプログラミング言語で利用可能です。
Hugging Faceのブログをチェックしていますが、最近はこのようなLLMの評価に関する記事もよく出ています。
--------------------------------

【ニュース】 2024-06-06 09:00:00 都内にドローン実験場「板橋ドローンフィールド」


都内では都立公園をはじめとしてほとんどの場所でドローンを飛ばすことが禁止されているので、このような専用のフィールドはいいですね。
--------------------------------

【音楽生成AI】 2024-06-06 11:47:00 Introducing Stable Audio Open - An Open Source Model for Audio Samples and Sound Design


【AIによる要約】
Stable Audio Openは、テキストから最大47秒の音声サンプルや効果音を生成できる、オープンソースのモデルです。ユーザーはドラムビート、楽器のリフ、アンビエントサウンド、フォーリー効果、音楽制作用の要素などを生成することができます。また、このモデルは音声サンプルの変形や音声のスタイル転移も可能にしています。
このオープンソースのリリースは、サウンドデザイナー、ミュージシャン、クリエイティブなコミュニティに向けて、ジェネレーティブオーディオの機能を提供することを目的としています。Stable Audio Openは、Freesoundやフリー音楽アーカイブのデータを使って学習されており、クリエイターの権利を尊重しながら開発されています。
Stable Audio Openは、Stable Audioの商用製品とは異なり、短い音声サンプルやサウンド効果の生成に特化しています。一方でStable Audioは、最大3分の高品質な楽曲の生成や、オーディオ間の変換、調和の取れた多パート作曲などの機能を有しています。
Stable Audio Openの学習済みモデルはHugging Faceで公開されており、サウンドデザイナー、ミュージシャン、開発者、オーディオ愛好家などに活用されることが期待されています。

音楽生成AIはSunoが有名ですね。https://suno.com/

わたしも使ってみたことがありますが、日本語の歌も問題なく歌ってくれてなかなかクオリティが高いです。しかし、音楽生成AIは今回のStable Audio Openも含めてまだ1分程度の音楽しか生成できません。
Stability AIは著作権フリーであること、商用利用可能であることにできるだけこだわって生成AIを開発しており好感が持てます。
でも経営状態はあまりよくないという噂もありちょっと心配しています。
https://gigazine.net/news/20231130-stability-ai-acquisition/
https://www.ai-souken.com/news/stability_ai_bigannouncement
--------------------------------

【スキルアップ】 2024-06-06 13:28:11 最初から完ぺきを求める必要はない。10年かけて、英語で生活できるようになった話 | レバテックラボ(レバテックLAB)


--------------------------------

【AIの活用】 2024-06-06 14:10:07 Introducing Aurora: The first large-scale foundation model of the atmosphere


【AIによる要約】
マイクロソフト研究所のチームが新しい人工知能(AI)ベースの気象予測モデル「Aurora」を開発しました。Aurora は、1.3億パラメーターを持つ柔軟な3次元Swin Transformerアーキテクチャを採用しており、気象データの多様性を活かすことで高精度な予報を実現しています。Aurora は、気象シミュレーションデータを1,000万時間以上学習することで、大気の動態を包括的に理解しています。さらに、0.1度(約11km)の高解像度で予報を行うことで、詳細な大気プロセスを捉えられるようになっています。

Aurora の効率性も注目に値します。従来の数値気象予報システムと比べて、計算速度は約5,000倍高速だと推定されています。また、温度や風速といった気象要素だけでなく、大気汚染レベルや温室効果ガスの濃度など、幅広い大気変数を予測することができます。
Aurora の実力は、グラフキャストやIFS-HRESといった最先端のモデルと比較しても際立っています。極端値の予測や、気象観測データとの適合性において、Aurora は優れた性能を発揮しています。
このように、Aurora は気象予報の精度向上に大きく貢献することが期待されています。さらに、地球システム全体をカバーする基盤モデルの開発につながる可能性も秘めています。データ不足の地域でも高品質な気象情報を提供できるようになれば、農業、交通、エネルギー利用、災害対策など、さまざまな分野での適応力向上に寄与するでしょう。AI技術の飛躍的な進歩により、より正確で迅速な気象予報の実現に向けた道が開かれつつあります。

気象予報に関するAIはGoogleも最近出していました。

地球温暖化に伴い、洪水や台風などの災害が多くなっているので、AIで正確に予測できるようにしたいというニーズがあるようです。
日本のように気象衛星を飛ばせる国は少ないと思うので、AIのサポートを得て地球全体の天気予報ができるようになると災害の被害を減らせるかもしれません。
--------------------------------

【新サービス】 2024-06-06 20:00:00 NotebookLM を日本語でも提供開始。ウェブサイトや Google スライドにもサポート


【AIによる要約】
Google は昨年、AIを活用したリサーチや執筆アシスタントである NotebookLM を発表しました。
Gemini 1.5 Pro を搭載した更新版の NotebookLM を日本語を含む言語で 200 以上の国と地域に順次提供します。
NotebookLM は複雑な資料の理解、情報から新しい類似性の発見、下書きの作成を支援します。
研究論文、取材記録、仕事のドキュメントなどの参照文献をアップロードすると、NotebookLM がこれらを理解しサポートを提供します。
新機能として、Google ドキュメント、PDF、テキストファイルに加えて、Google スライドと Web URL をソースとしてサポートします。
インラインでの引用機能が追加され、ソース内の参照箇所に直接移動可能です。
Notebook ガイドが、ソースをFAQやブリーフィングドキュメント、学習ガイドなどの形式に変換します。
Gemini 1.5 Pro のマルチモーダリティにより、スライドやドキュメント内の画像、グラフ、図についても質問可能です。

これはすごいです!PDFをダイレクトに突っ込んでもいいですし、Googleドライブと連携させれば、自分のドキュメントに基づいてチャット形式で生成AIに質問できます。これはRAGをわざわざ実装しなくても良くなるかもしれません。
Googleのアカウントがあればすぐに使うことができます。
論文を読むのにとても便利そうなので、活用していきたいです。
注意点としては、まだExperimental(試験運用)なので、今後有料化の可能性があることですね。有料でもこれは使いたいかもしれない。
--------------------------------

【LLMの評価】 2024-06-06 22:49:44 To Believe or Not to Believe Your LLM


【AIによる要約】
LLMを使用する際に、応答の不確実性が大きいときを特定することを目的としています。epistemic uncertainty(事実や言語に関する知識不足)とaleatoric uncertainty(答えの多様性による不確実性)の両方を同時に考慮しています。具体的には、単一の応答だけでなく複数の応答の場合においても、epistemic uncertaintyが大きい場合(ファクトを誤って伝えるハルシネーション)を正確に検出できる情報理論的な指標を導出しました。この指標は、モデルの出力のみに基づいて計算することができ、反復的な入力prompting(前の応答を利用する)を行うことで算出できます。
一般的な不確実性定量化手法(応答の対数尤度のしきい値を使う等)では、複数の答えがある場合のハルシネーションを検出できませんが、提案手法では可能です。一連の実験により、提案手法の有効性を実証しています。さらに、反復prompting操作によって、LLMが出力する確率分布が増幅される現象についても分析しており、これは独立した興味深い知見です。

モデルの出力からそれが誤り(ハルシネーション)であるかどうかを検出する指標を開発したとのことです。
LLMは「次に続く確率が最も高い単語を出力している」だけなので、その出力結果が正しいかどうかはわからない、もっともらしいうそをつくことがあるというのがとても問題です。もしも、この技術によって、出力だけから嘘かどうか判定できるとしたらLLMを利用しやすくなりそうです。
余談ですが、最近のAI関係の論文はタイトルがかっこいい、というか強気なものが多いですね。

この記事が気に入ったらサポートをしてみませんか?