【LLMの評価】 2024-06-13 02:23:00 WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
LLMは新しいモデルが注目されがちですが、それが期待した応答をしているかどうかを評価するためのベンチマーク(ものさし)はとても重要です。
ひとつひとつ人間が出力を見てチェックするわけにもいかないので、自動評価フレームワークは重要です。
--------------------------------
【技術解説】 2024-06-13 07:11:02 Apple Intelligence の機能
--------------------------------
【科学技術】 2024-06-13 08:00:00 “むにゅ”っとやわらかいタッチディスプレイ 指で押すとぷにぷにへこむ 英国チームが開発
ぷにぷにディスプレイ楽しそうです!やわらか….がいいかどうかはともかくとして、折り曲げできるというのはこれからのデバイス開発のひとつのトレンドになっていきそうな気がしています。
個人的には、くるくると丸めたり折ったりできる軽量な「電子ペーパー」が開発されたらいいなと思っています。そしてそれが安価に手に入る物になるといいなあ。まだディスプレイよりも紙のほうが優れている点がたくさんあるので…
--------------------------------
【ニュース】 2024-06-13 12:48:00 OpenAI、AIインフラをAzureだけでなくOracle Cloudへも拡大へ
--------------------------------
【国内ニュース】 2024-06-13 15:11:18 LINE Payサービス終了に関するお知らせ
--------------------------------
【LLM】 2024-06-13 16:15:00 How Meta trains large language models at scale