GPT-4 Turbo with VisionがAPIで利用可能に

2024年4月11日 11:40

Google、ビデオクリップジェネレーター「Imagen 2」をリリース

この記事は、以下の方に特にお勧めです

✅ AI技術の最新トレンドに興味のある開発者や研究者
✅ ビジネスリーダー、特にテクノロジーをビジネスに取り入れたい方
✅ AIの社会的影響や倫理に関心のある方
✅ AppleやGoogleの製品とサービスに注目しているユーザー
✅ イーロン・マスクのビジョンと予測に興味のある方

要約

2024年、Googleはビデオクリップジェネレーター「Imagen 2」を発表し、OpenAIは「GPT-4 Turbo with Vision」を一般公開。イーロン・マスクはAIが人間の知能を追い越すと予測。Appleの「Ferret UI」がSiriの機能強化をもたらすかもしれない。AIの急速な進化とその応用に関する最新情報。

サイード・エザティ

2024年04月09日翻訳記事

今日のメール

アップルの新しいAIモデル「Ferret UI」は、SiriがiOSアプリの動作を理解するのを助けるかもしれない。
イーロン・マスク、来年にはAIが人間の知能を追い越すと予測
Google Vidsの新製品は、AIアシストでカスタマイズされたビデオを作成するのに役立つ
AIを搭載した6つの新しいツールとリソース。ツールの全リストはオンライン版をご確認ください。

OpenAI、APIを通じてGPT-4 Turbo with Visionを一般公開

OpenAIは、APIを通じてGPT-4 Turbo with Visionモデルの一般提供を発表し、企業開発者や企業のリーダーが高度なAI機能をアプリケーションに統合する機能を強化した。この新しいモデルは、ビジョン認識と分析を組み合わせ、単一のAPIコールで画像を分析し、推論を適用できる合理化されたワークフローを可能にし、より効率的なアプリ開発を促進します。

ビジョン機能をGPT-4 Turboと統合することで、様々な業界において革新的なアプリケーションが可能になる。例えば、スタートアップのコグニション社は、自律型AIコーディングエージェントの開発にこのモデルを使用しており、一方、ヘルスファイ社は、食事写真に基づく栄養分析に活用している。また、別の新興企業TLDrawは、仮想ホワイトボードにユーザーが描いた絵を 機能的なウェブサイトに変換するためにこの技術を活用しており、このモデルの多用途性を示している。

AnthropicのClaude 3 OpusやGoogleのGemini Advancedのような新しいAIモデルとの競争に直面しているものの、OpenAIのGPT-4 Turbo with Visionは開発者にとって競争力のある選択肢であり続けることを目指している。膨大なデータを処理し、スピーディーなインタラクションを提供し、費用対効果の高いソリューションを提供するその能力は、技術コミュニティと業界リーダーによって熱望されているAI分野で革新を続けるOpenAIに有利な位置づけを与えています。

グーグル、ビデオクリップジェネレーター「Imagen 2」をリリース

グーグルは、Vertex AI開発者プラットフォーム内に、画像生成と編集の新機能を提供する高度なAIツール、Imagen 2を導入した。Imagen 2は一連のモデルで、インペインティング、アウトペインティング、そしてテキストプロンプトから短いビデオクリップや「ライブ画像」を作成する機能が追加された。このツールは企業ユーザー向けに設計されており、様々なメディアにテキスト、エンブレム、ロゴを重ね合わせることが可能で、自然、食べ物、動物などの題材に焦点を当てたコンテンツを生成できるように微調整されている。

グーグルのImagen 2は、ディープフェイクの可能性に対抗するため、出力に不可視の暗号透かしを適用する新機能SynthIDを組み込むことで、AIが生成するメディアに関する過去の懸念に対処することを目指している。こうした進化にもかかわらず、プレビュー段階にあるグーグルのライブ画像は、市場にある他のAI動画生成ツールと比べて解像度が低く、カスタマイズオプションも少ないため、その競争力に疑問が投げかけられている。

Imagen 2のトレーニングは、多くの生成AIモデルと同様、やや不透明なままであり、グーグルは主に公共のウェブソースからのデータを使用していると述べている。このようなデータの倫理的な使用や、クリエイターがオプトアウトできるのか、貢献に対する報酬が支払われるのかについては、継続的な懸念がある。さらに、グーグルの新機能であるtext-to-live imagesは、ジェネレーティブAI補償ポリシーの対象外であるため、ユーザーは著作権やモデル再利用の問題に関連する潜在的なリスクをナビゲートする必要がある。

アップルの新AIモデル「Ferret UI」、iOSアプリの動作をSiriに認識させる可能性

アップルの最新のAI開発であるFerret LLMは、iPhoneのディスプレイに対する理解を強化することで、SiriとiOSアプリとのインタラクション方法に革命をもたらそうとしている。この技術革新は、アップルとコーネル大学の研究者の共同作業から生まれたもので、「Ferret-UI」と題された論文に結実している： Ferret-UI：マルチモーダルLLMによる地に足のついたモバイルUI理解 "と題された論文に結実している。Ferret-UIは、特殊なマルチモーダル大規模言語モデルであり、モバイル機器のユーザーインターフェースを巧みにナビゲートし解釈することを目的とし、これらのスクリーンの典型的なコンパクトで複雑なレイアウトがもたらす課題を克服する。

Ferret-UIモデルは、モバイル画面を管理しやすいセクションに拡大・分割し、アイコンやテキストの把握を向上させる能力で際立っています。この高度な理解力により、Ferret-UIは、ユーザーがアプリを開くように誘導したり、アプリに関する年齢関連の情報を提供したりするようなユーザーの問い合わせに、画面上の目に見える合図に基づいて正確に応答することができます。この機能は、デジタルアシスタントをよりインタラクティブにし、アプリ内のタスク管理に役立つものにする上で、大きな前進を意味する。

Ferret-UIは、ユーザーエクスペリエンスを向上させるだけでなく、詳細な画面説明を提供し、アプリ内でコマンドを実行することで、視覚障害者を支援することが期待されています。この開発は、AIのイノベーションに対するアップルのコミットメントを示すだけでなく、将来的にはより直感的で自律的なデジタルアシスタントが登場し、よりニュアンスに富んだ文脈を意識した方法でユーザーを支援できるようになる可能性を示唆している。

イーロン・マスク、来年にはAIが人間の知能を追い越すと予測

イーロン・マスクは、十分な電力とハードウェアの供給を条件に、来年末までに人工知能（AI）が人間の知能を超えると予測している。インタビューの中で彼は、5年以内にAIの能力が全人類の知能の合計を超える可能性があると予測した。この予測は、2029年までに「完全な」人工知能（AGI）を達成するという同氏の以前の予測を上回るもので、チャットボットや動画生成ツールにおける新たなブレークスルーに代表されるAIの急速な進歩と一致している。

マスクは、AI開発における現在の制約を強調し、マイクロチップの不足からデータセンターの設備や電力供給の限界への移行を指摘した。マスクは以前、潜在的なリスクのために高度なAI開発の停止を提唱していたにもかかわらず、現在はxAIでAIの試みを進めており、今後のモデルでOpenAIのGPT-4を超えることを目指している。

AIへの注力を強める一環として、マスクはxAIに多額の投資を求め、OpenAIの競合となることを目指している。2018年にはOpenAIからの離脱が物議を醸したが、彼のAIへの関与は大きい。現在、マスクは人類の利益のためにAIを開発するというミッションから逸脱しているとして、OpenAIとの法廷闘争に巻き込まれている。