世界最速の会話AIを紹介"Where is Waldo "をテーマにしたAIイラストチュートリアル
2024年1月7日のニュース要約:
Bland Turbo: 世界最速の会話型AI「Bland Turbo」が紹介されました。政治、顧客サポート、調査、販売など様々な用途に適用可能で、既存システムとのAPI統合を提供し、企業のコールセンターをAIで置き換えることを可能にします。
Open Interpreter 0.2.0: 言語モデルがコンピューターの基本的なI/O制御と対話できる「Computer API」を含む、新しいアップデートがリリースされました。これにより、ユーザー体験が大幅に向上しました。
"Where is Waldo" AIイラスト: TwitterユーザーFramerが、AIを使用して作成した新しい「Where is Waldo」シリーズのチュートリアルを公開しました。これには、独自のロケーション選択や画像の品質向上などが含まれます。
その他のトピックス: NvidiaやSamsungなどが新しいハードウェアやAIのアップデートを発表するCES 2024の視聴方法、ChatGPTを使用した人命救助の事例、新しい生成AIプラットフォーム「Google Gemini」などが紹介されています。
⚡ブラン・ターボのご紹介。世界最速の会話AI
Bland Turboは、スピードの世界新記録を樹立した画期的な会話AIです。政治、カスタマーサポート、調査、営業など様々な用途に対応します。Bland.aiはAPIを通じて既存のシステムとの統合を提供しており、人間の従業員を常時利用可能で企業と共に無限の拡張が可能なAIに置き換えることで、コールセンターの規模拡大を目指す企業にとって理想的なものとなっている。
Open Interpreter 0.2.0-新しいコンピューターのアップデート。
「Open Interpreter」とは、コンピュータ上でコードを実行しタスクを完了させるためのLLMs(Large Language Models、大規模言語モデル)を動作させるプラットフォームですが、その能力とユーザー体験を大幅に向上させる重要な進歩を表す新しいアップデートがリリースされました。このアップデートの主要機能は以下の通りです:
コンピュータAPI: 2023年に導入されたこの機能は、言語モデル専用の世界初のリアルタイムコード実行環境の創造を意味します。このAPIは言語モデルがディスプレイ、マウス、キーボードなどの基本的なI/Oコントロールと対話することを可能にし、スクリーンショットの表示、画面上のテキストのクリック、アイコン上でのマウスのホバー、クリップボード内容の表示などの機能を提供します。これはapi.openinterpreter.comでホストされているツールのプレビューによってさらにサポートされています。
OSモード: このモードは、Open InterpreterがコンピュータAPIを使用してコンピュータのグラフィカル制御を可能にします。これは、様々なマルチモーダル言語モデルと互換性があり、.llamafile、LM Studio、Jan AIなどの異なるプラットフォームを通じてローカルビジョンモデルと連携することができます。
LMCメッセージ: 新しい言語モデルコンピュータアーキテクチャに対応するため、Open InterpreterはOpenAIメッセージ形式を拡張しました。これには追加情報が含まれ、AIとコンピュータ間のより統合されたコミュニケーションを可能にする「コンピュータ」という新しい役割が導入されています。
コンピュータモジュール: Open Interpreterのコアからコンピュータを分離するこのモジュールにより、インタープリターが使用する同じPythonインスタンス内でコンピュータを独立して実行することが可能になります。これにより、コンピュータ言語の制御の柔軟性が提供され、カスタム言語の追加が可能になります。
さらに、0.2.0のアップデートには、オープンソースコミュニティによる一連の修正と強化が含まれています。これには、クラッシュ処理、APIキー挿入、READMEの更新など、様々な機能のバグ修正から、pyautoguiマウスクリック機能、キーボード制御の強化、ドキュメントの更新の実装に至るまでが含まれています。
新しいOpen Interpreterのデモを見ることができます。
"Where is Waldo "をテーマにしたAIのイラスト。
AIアニメーション作品で知られるTwitterユーザーのFramerが、AIによって作成された新しい「Where is Waldo」シリーズを最近リリースしました。人気の高まりを受け、彼はこの新シリーズの制作プロセスを説明するチュートリアルを作成しました。
主なステップは以下の通りです:
Midjourneyでの初期プロンプト: Framerはシンプルなプロンプト「Where is Waldo in LOCATION」から始め、アスペクト比16:9を指定します。
参照画像の提供: 繰り返しのイメージを避けるため、Framerは異なる場所からの少なくとも5枚の参照画像を使用することを提案します。このステップは、多様な背景を生成するために重要です。
ロケーションアイデア: ロケーションを選ぶ際の創造性が重要です。Framerはスーパーマーケット、農場、ビーチなどの一般的な場所を挙げていますが、お化け屋敷、ベニス、海賊船、サイケデリックな宇宙など、ChatGPTによりオリジナルのアイデアを求めることを提案しています。
画像品質の向上: Midjourneyで画像を生成した後、Framerは芸術やイラスト用に最適化された強化ツール「Magnific AI」を使用して画像品質を向上させます。このステップには詳細な設定の調整が含まれます。
さらなる品質向上のための二次アップスケーリング: 特定の設定(Creativity: 0, HDR: 1, Resemblance: -1)で二次アップスケーリングを行い、画像品質をさらに向上させます。
Photoshopによる最終仕上げ: 変形した体やランダムな要素などの不完全さを取り除くために、FramerはPhotoshopの生成フィルツールの使用を推奨します。
「The Accidental AI Canvas - tldrawのSteve Ruizと共に」
このエピソードでは、ゲストとしてSteve Ruizが登場します。彼は、オープンソースのホワイトボード「tldraw」の創設者で、これは効果的な視覚的マルチモーダルプロンプティングアプリケーション環境へと進化しました。このプロジェクトは、無限のキャンバスと、DALL-EやMidjourneyのような生成モデルがどのように相互補完的に機能するかを強調しています。これらのモデルの線形的な出力とは異なり、tldrawは無限のキャンバス上での視覚的な進行とアイデアの分岐を可能にします。さらに、tldrawはUIデザインのレイヤー概念を取り入れ、画像が機能性、スタイル、状態など様々な側面に影響を与えることができます。また、エピソードでは、Steveの美術のバックグラウンドがこのマルチモーダルAIキャンバスの開発に大きく貢献したことについても議論されています。
#chatgpt4 .5