
AIニュース:Twitter AnthropicAI Builder Dayハッカソン、ロボットにAI「脳」などを搭載
Anthropic AI は最近、サンフランシスコで Builder Day Hackathon を主催し、200 名を超える優秀な参加者を集めました。トップ プロジェクトの概要は次のとおりです。
チャイナタウンマフィア – 第 2 位
Claude を搭載した AI エージェントが検証パズルを処理する方法を識別する新しい CAPTCHA 対策ツールを開発しました。
Plan Prism – 3位
製品要件ドキュメントを最適化する AI 搭載ツール。複数の AI エージェントを使用して、共同ディスカッションを通じてドキュメントを改良および強化します。
ロボットの使用 – 1 位
この優勝プロジェクトでは、Claude の能力とロボット アームを組み合わせ、AI が現実世界のタスクを実行できるようにしました。取扱説明書を解釈して Amazon ロボットを制御することさえ可能です。
Yap to App 音声と Claude ツールだけを使用してコンピューター (特に Mac) を操作できる音声制御システムです
RAGs to Riches カリフォルニア州の住民が CalFresh (カリフォルニア フード スタンプ) の給付金について質問するときに役立つように設計されたテキスト ベースのアシスタントです。
OpenAI’s biggest rival is shaking things up.
— Alex Reibman 🖇️ (@AlexReibman) November 5, 2024
Anthropic invited 200+ elite hackers to their SF headquarters to see what’s possible with Claude
Here’s what we saw at the @AnthropicAI x @MenloVentures Builder Day Hackathon (🧵): pic.twitter.com/ZLuFf1MCSF
OpenAIが予測出力機能を開始
OpenAI は、GPT-4o および GPT-4o-mini モデル向けに「予測出力」と呼ばれる新機能をリリースしました。この機能は、クイックリファレンス文字列を提案することで応答を高速化します。ブログ投稿の更新、回答の改善、コードの書き換えなどのタスクをより簡単に実行するのに役立ちます。
Introducing Predicted Outputs—dramatically decrease latency for gpt-4o and gpt-4o-mini by providing a reference string. https://t.co/n6mqjQwQV1
— OpenAI Developers (@OpenAIDevs) November 4, 2024
Speed up:
- Updating a blog post in a doc
- Iterating on prior responses
- Rewriting code in an existing file, like @exponent_run here: pic.twitter.com/c9O3YtHH7N
https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
米国国家安全保障のためのスケール AI の防衛ラマ
Scale AI は、米国防衛のために特別に作成された大規模言語モデル「Defense Llama」を発表しました。Meta および防衛の専門家と提携して、このモデルは重要な国家安全保障タスクをサポートするように設計されています。
Scale AI is proud to announce Defense Llama 🇺🇸: the LLM purpose-built for American national security.
— Alexandr Wang (@alexandr_wang) November 5, 2024
This is the product of collaboration between @Meta, Scale, and defense experts, and is available now for integration into US defense systems.
Read more below👇 pic.twitter.com/wx5GcO455f
Recraft によるグラフィック デザイン ジェネレーター
Recraft は、デザイン作成を簡素化するグラフィック デザイン ジェネレーターをリリースしました。フレームを設定し、テキストと要素を追加し、プロンプトを入力すると、ツールが作業を実行します。こちらでご確認ください。
We call this feature the Graphic Design Generator. To make your own design, just set up a frame, position your text and elements exactly where you want them, type in a prompt, and hit ‘Recraft.’ Voilà — your design is ready! Try it out here: https://t.co/S6GZvXk9HF#RecraftAI… pic.twitter.com/VfjmVXhRx1
— Recraft (@recraftai) November 5, 2024
LLMs are a complicated space! I've been working with @panda_liyin to build an open source repo to give you all the information you need to become aware of what's needed in the LLM space! https://t.co/2B8E7KQ99B
— Zach Morris Wilson (@EcZachly) November 4, 2024
ザック・モリス・ウィルソン著『LLM エンジニア ハンドブック』
LLM (大規模言語モデル) は AI に不可欠なツールとなっています。Zach Morris Wilson は @panda_liyin と共同で、LLM アプリケーションのトレーニング、展開、構築に関するリソースをまとめたガイドであるオープンソースの LLM エンジニア ハンドブックを作成しました。
ヒューマノイドハブの身体知能モデル
物理的知能モデル π₀ は、物理的なタスクを処理する AIの能力の向上を示しています。このモデルは最近、複雑なタスクを 18 分以内に完了する双腕ロボットを実証し、物理的なタスクにおける AI の適用範囲の拡大を強調しました。
https://x.com/TheHumanoidHub/status/1853712720547225963
王慧文がAIチームリーダーとして美団に復帰
美団の元共同創業者、王慧文氏が復帰し、GN06と呼ばれる独立したAIチームを率いることになった。このチームは、感情チャットボットやコンパニオンツールなどの実験的なAIアプリケーションに注力しており、美団の主要事業ラインとは別に運営されている。
Nvidiaが世界で最も価値のある企業に
2024 年 11 月 5 日、Nvidia の時価総額は 3.43 兆ドルに達し、Apple を上回りました。この成果は、AI インフラストラクチャの主要サプライヤーとしての Nvidia の役割を反映しています。競争が激しいにもかかわらず、Nvidia の GPU テクノロジーは AI アプリケーションに不可欠なものであり、AI 業界のリーダーとしての地位を固めています。
アルゴリズム設計における法学修士課程: 体系的レビュー
最近のレビューでは、LLM がアルゴリズム設計 (LLM4AD) をどのように再構築しているかを調査し、次の 4 つの主要な役割を特定しました。
最適化演算子 (LLMaO)
結果予測(LLMaP)
特徴抽出 (LLMaE)
アルゴリズム設計(LLMaD)
この分野には、専門的なLLMの開発やアルゴリズム設計の完全自動化などの課題が残っていますが、イノベーションの可能性は高いです。
2024年米国大統領選挙におけるAIの役割
米大統領選の最終段階が近づき、ドナルド・トランプ氏とカマラ・ハリス氏は互角の戦いを繰り広げている。特にシリコンバレーの支持が割れていることや、選挙情報の課題に対処する新たなAIツールが登場していることから、AIは大きな影響力を発揮している。バイデン政権はAI規制を推進しているが、トランプ氏は規制緩和を主張している。選挙結果が米国の今後のAI政策を左右することになるだろう。
WebRL: 自己調整学習による AI Web エージェントの教育
AI をトレーニングして、Web 内を検索するだけでなく、実際に Web と対話し、フォームに記入したり、データを検索したり、人間の助けを借りずに質問に答えたりすることを想像してみてください。それが、この新しい WebRL 研究の目的です。基本的に、AI、つまり「エージェント」が、最初は簡単なタスクで練習し、次に難しいタスクに移行することで向上する学習スタイルを使用します。これは、進むにつれて難易度が増すゲームでレベルアップするようなものです。
仕組みはこうです。AI は報酬とペナルティを組み合わせてトレーニングされます。つまり、タスクをうまく実行すれば「報酬」(AI 用語で言うところの褒め言葉)が与えられ、ミスをすれば「ペナルティ」が与えられます。時間が経つにつれて、このやり取りによって AI は Web 上のより難しいタスクを独力で処理する方法を理解できるようになります。もう手助けは必要ありません。また、AI は適応性が高いため、時間の経過とともに変化する可能性のあるさまざまな Web サイトやフォームに適応できます。
Proposes a self-evolving online curriculum RL framework to bridge the gap between open and proprietary LLM-based web agents.
— elvis (@omarsar0) November 5, 2024
It improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM4-9B.
The open models significantly surpass the performance… pic.twitter.com/gc9y3FCNVH
https://arxiv.org/pdf/2411.02337v1
このアプローチが有用な理由
従来の Web 自動化は、多くの場合、状況が変化すると機能しなくなる固定ルールに依存しています。WebRL の方法は柔軟です。Webサイトの新しいレイアウトや異なる種類の検索フィールドなど、変化に即座に適応する AIを想像してみてください。実験では、WebRL を搭載したエージェントが動的なタスクを通常よりもうまく処理できることが示されており、この技術はオンライン タスク自動化の確実な前進となっています。
フィジカル・インテリジェンス、よりスマートなロボット開発のため4億ドルを調達
ロボットを賢く、かつ便利にすることに焦点を当てた企業、Physical Intelligence が、4 億ドルを調達しました。これにより、同社の評価額は 24 億ドルという驚異的な額に達しました。Jeff Bezos、OpenAI、Sequoia Capital などの大手投資家が同社を支援しており、大きな可能性を示しています。
では、その大きなアイデアは何でしょうか? 単純で反復的な作業以上のことができるロボットを想像してみてください。このテクノロジーは、ロボットが掃除、整理、基本的な家事など、さまざまな仕事を、自然に感じられるスマートな意思決定で実行するのに役立ちます。そして、ChatGPT のような AI に質問できるのと同じように、これらのロボットは、いつか、どんなタスクも同じように簡単にこなせるようになるかもしれません。
過去数か月間、Physical Intelligence は人工汎用知能 (AGI) モデルの開発に取り組んできました。これは、ロボットに単に命令に従わせるだけではなく、ロボットに自ら推論し、適応する能力を与えることです。AGI が進化し続けると、通常は人間に頼っているようなことをロボットが行うようになる日も近いかもしれません。ロボット工学はまったく新しいレベルに引き上げられるでしょう。
空港の自動運転車: Qingwei Rufeng の新たな目標
中国のテクノロジー企業 Qingwei Rufeng は、空港向けの無人運転技術の開発に向けた資金調達を終えたばかりだ。この技術は空港での業務向けに開発されたもので、カートやシャトルが荷物や物資を運ぶのを人間の運転手なしで想像できる。
2022年に設立されたQingwei Rufengは、中国の主要空港で無人運転システムを展開している。これらのシステムは安全性を重視しており、センサーを使用して飛行機や人を見つけ、衝突を防止している。また、広大な空港エリアをスムーズに移動するために、高精度のGPSも備えている。
これらの無人車両は24時間稼働が可能で、特に物流需要が高まる中、空港の効率性を高めます。また、乗客輸送、貨物輸送などへの拡大を視野に入れたQingwei Rufengの新たな資金調達は、空港自動化の先導に役立つ可能性があります。
NeMo-Aligner フレームワークと主流のアライメント アルゴリズム
親しみやすく、読みやすく、明確で、事実に基づいてシンプルかつ魅力的にまとめたコンテンツが求められているようですね。あなたのメモに基づいてテキストを書き直す手順を簡単に説明します。
NeMo-Aligner とその他のトピックについては、文章の長さに変化を持たせ、簡単な言葉を使い、各文章が価値あるものになるようにし、必要のない複雑な言葉や専門用語は排除します。各セクションでは、共感的な口調を維持し、関連する部分では個人的な経験を軽く取り入れ、読みやすさを確保します。
指定どおりに各部分を書き直しますので、特定の単語数や追加の詳細が必要なセクションがあればお知らせください。
提供されたガイドラインに基づいて改訂されたコンテンツ
大規模言語モデルのための NeMo-Aligner フレームワーク
COLM 2024 カンファレンスで発表された NVIDIA の NeMo-Aligner は、大規模な言語モデルを効率的にアラインメントするために構築されたツールキットです。RLHF (人間によるフィードバックからの強化学習) や DPO (直接選好最適化) などの手法を使用して、モデルの動作を改善します。大きな利点の 1 つはメモリを節約できることで、Llama 4.1 などの大規模モデルが大きなタスクを処理できるようになります。NeMo-Aligner はメモリを節約し、大きなバッチを処理するスマートな方法を使用しているため、これらの大規模モデルのトレーニングが容易になります。さらに、独自のデュアル エンジン アプローチを採用しています。高速なエンジンは簡単なタスク用、効率的なエンジンは大量のトレーニング用です。このデュアル セットアップにより、大規模な言語モデルの全体的な速度と機能が向上します。
3Dガウススプラッシュテクノロジーに関する3DGS CEOインタビュー
3DGS に特化したスタートアップ企業の CEO である Kang Yusong 氏は、3D Gaussian Splash (3DGS) 技術がモバイル コンテンツをどのように変えているのかについて語りました。NeRF (Neural Radiance Fields) などのツールを使用すると、高価なデバイスを必要とせずに 3D コンテンツを作成できます。彼の会社のアプリである 3D Moment を使用すると、ユーザーは携帯電話から直接 3D シーンを作成でき、誰もが自分の世界を作成して共有できます。Kang 氏のビジョンは、3D コンテンツを私たちの生活の一部にし、VR や AR で役立つようにすることです。
サーバーレスコンピューティングとCXL TechのTrEnv
SOSP24 では、TrEnv がサーバーレス コンピューティングの新たなアプローチとして登場しました。コールド スタートによる遅延やリソースの無駄などの問題に対処します。CXL (Compute Express Link) を使用することで、TrEnv はメモリ共有を改善し、コンピューティングを高速化します。独自の「mm-template」インターフェイスにより、メモリを効率的に処理し、さまざまなタスクが 1 つのコンテナー内でスペースを共有できるようにします。このスマートな設定により、クラウド コンピューティングがより合理化されます。
分散システムに関するSOSP 2024
Autobahn プロトコル: Autobahn は、データ処理とコンセンサス達成を分離する BFT (ビザンチン フォールト トレラント) システムです。この設計により、ネットワークが問題を抱えているときの遅延が短縮され、他のプロトコルよりも優位になります。
SWARM プロトコル:分散データ用に構築された SWARM は、スマートな方法を使用してメモリを配置することでデータ遅延を削減します。
Anduril 障害ツール: Anduril はトラブルシューティング中に特定の問題に焦点を当てることでデバッグを高速化し、障害診断にかかる時間を節約します。
https://zhuanlan.zhihu.com/p/5091263327
バンク競合を回避するための CUDA メモリ スウィズリング
CUDA の共有メモリ システムは、複数のスレッドが同じメモリ「バンク」をターゲットにすると障害に見舞われ、速度が低下することがあります。その解決策として、パディング (重複を避けるために小さなギャップを追加する) とスウィズリング (ビット単位のトリックでデータを並べ替えてアクセスを分散させる) の 2 つがあります。スウィズリングはボトルネックを回避する簡単な方法であり、CUDA の Tensor Memory Accelerator はこれを使用してタスクを高速化します。
https://zhuanlan.zhihu.com/p/4746910252