見出し画像

2024/6/13のIT・AIニュースピックアップ!

【LLMの評価】 2024-06-13 02:23:00 WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

WildBenchは、大規模言語モデル(LLM)のベンチマークを行うために設計された自動評価フレームワークです。1,000万以上のヒューマン-チャットボット会話ログから慎重に選択された1,024個のタスクから構成されています。WildBenchの自動評価では、GPT-4-turboなどの高度なLLMを使用して計算可能な2つの指標、WB-RewardとWB-Scoreを開発しました。

WB-Rewardは、モデルの応答間の細かい対比較を行い、5つの可能な結果(大幅に優れている、わずかに優れている、わずかに劣っている、大幅に劣っている、または引き分け)を生成します。従来の評価とは異なり、WildBenchでは、包括的な対比較を行うために、異なるパフォーマンスレベルの3つのベースラインモデルを選択しました。また、応答の長さバイアスを軽減するために、勝者の応答がパララーの応答より K文字以上長い場合、「わずかに優れている/劣っている」の結果を「引き分け」に変換する簡単な方法を提案しました。

WB-Scoreは、モデルの出力の品質を個別に評価するため、迅速で費用効率的な評価指標です。WildBenchの結果は、Chatbot Arenaの人間が投票したEloレーティングとの強い相関を示しています。具体的には、WB-Rewardは上位モデルとの相関が0.98、WB-Scoreは長さ制御付きの勝率で0.95を達成し、ArenaHardの0.91やAlpacaEval2.0の0.89を上回っています。さらに、通常の勝率でも0.87を超えています。

LLMは新しいモデルが注目されがちですが、それが期待した応答をしているかどうかを評価するためのベンチマーク(ものさし)はとても重要です。
ひとつひとつ人間が出力を見てチェックするわけにもいかないので、自動評価フレームワークは重要です。
--------------------------------

【技術解説】 2024-06-13 07:11:02 Apple Intelligence の機能


--------------------------------

【科学技術】 2024-06-13 08:00:00 “むにゅ”っとやわらかいタッチディスプレイ 指で押すとぷにぷにへこむ 英国チームが開発


英バース大学に所属する研究者らが発表した論文「DeformIO: Dynamic Stiffness Control on a Deformable Force-Sensing Display」は、ユーザーの指の動きと指圧に応じて表面が柔軟に変形するソフトなタッチスクリーンを提案した研究報告である。「DeformIO」と呼ばれ、ユーザーがその表面を押したり触ったりすると、その場所の剛性を動的に柔らかく変化できる。


ぷにぷにディスプレイ楽しそうです!やわらか….がいいかどうかはともかくとして、折り曲げできるというのはこれからのデバイス開発のひとつのトレンドになっていきそうな気がしています。
個人的には、くるくると丸めたり折ったりできる軽量な「電子ペーパー」が開発されたらいいなと思っています。そしてそれが安価に手に入る物になるといいなあ。まだディスプレイよりも紙のほうが優れている点がたくさんあるので…
--------------------------------

【ニュース】 2024-06-13 12:48:00 OpenAI、AIインフラをAzureだけでなくOracle Cloudへも拡大へ


米Oracle、米Microsoft、米OpenAIの3社は提携を発表し、OpenAIにさらなるAIインフラのキャパシティを提供するために、OpenAIが利用するプラットフォームをMicrosoft Azureに加えてOracle Cloudへ拡大することを発表しました。

--------------------------------

【国内ニュース】 2024-06-13 15:11:18 LINE Payサービス終了に関するお知らせ

2025年4月30日(水)をもって日本国内におけるモバイル送金(送付)・決済サービス「LINE Pay」を終了いたします。

--------------------------------

【LLM】 2024-06-13 16:15:00 How Meta trains large language models at scale

高度な人工知能(AI)の研究開発において、最も重要な課題の1つは、大規模言語モデル(LLM)を学習するために膨大な計算リソースが必要になってきていることです。従来の人工知能モデルの学習には、比較的少数のGPUを使う方法が一般的でしたが、最近の生成型AIの発展により、少数の巨大なモデルの学習が必要になってきています。これにより、ソフトウェア、ハードウェア、ネットワークインフラストラクチャの統合的な見直しが求められています。

大規模なモデル学習の課題には、ハードウェアの信頼性、障害からの迅速な復旧、学習状態の効率的な保存、GPUs間の最適な接続が含まれます。これらの課題に対応するために、Meta社では、以下のような取り組みを行っています:
- PyTorchやその他の新しいオープンソースツールを活用し、研究から本番運用までの開発を高速化
- 動的なリソース割り当てアルゴリズムを用いたスケジューリング
- NVIDIA H100 GPUを使ったGrand Tetonプラットフォームの改良(TDP 700Wへの変更、HBM3への移行)
- データセンター内でのGPUラックの最適配置と冷却の見直し
- ハードウェア障害の検知と対処の自動化

また、ネットワークインフラストラクチャについても、RoCEとInfiniBandの2つのアプローチを試しながら最適化を進めています。通信パターンに応じたネットワークトポロジの活用や、集団通信アルゴリズムの最適化、ロードバランシングなどに取り組んでいます。さらに、大量のデータを効率的に保管・活用するためのストレージソリューションの開発にも力を入れています。

この記事が気に入ったらサポートをしてみませんか?