23/7/10 AIのトピックまとめ

いやー、お久しぶりです(笑)
ChatGPTのcode interpreterやばいですね。まじで、いかにこれを使い倒せるかで生産性がかなり変わってきてしまう。
あとやっとGPT-4のAPIも使えるようになったし、ちょっと熱が戻ってきたのでニュースを追うのも再開します。

副業で面白いビジネスに繋げたいなぁと最近思っていて、考え中です。地道にがんばります。

今日みたニュースです↓

RGB画像と深度画像を利用した新しいセグメンテーションツール

ニュース要約(以下リンクから引用)

  • 研究者はRGB画像([H, W, 3])を深度マップ([H, W])にマッピングすることで、SAM(Semantic Analysis Method)による物体認識の改善を試みています。

  • この手法は、テクスチャよりも幾何学的な詳細に焦点を当てた深度画像の利用を可能にします。

  • OVSegというツールを使用し、ユーザーは元のRGB画像または生成された深度画像のどちらかを入力として、SAMのセマンティックマスクを取得できます。

  • RGB画像と深度画像は、テクスチャ情報と幾何学的情報の両方が存在するため、それぞれが提供する情報は異なります。これにより、SAMはRGB画像に対して多様なマスクを提供します。

  • https://huggingface.co/spaces/jcenaa/Segment-Any-RGBD でリポジトリとツールを確認できます。

GPT-4のコメント

このニュースは、RGB画像と深度画像を組み合わせることで、より高精度なセグメンテーションを実現しようという研究の成果を伝えています。特に、RGB画像と深度画像がそれぞれテクスチャ情報と幾何学的情報を提供することで、これらの情報が補完し合い、より精度の高いセグメンテーションが可能になるという点が注目すべきです。

また、提供されるツールはOVSegというゼロショットセマンティックセグメンテーションツールをベースにしており、この手法を活用することで、未知のオブジェクトに対しても有効にセグメンテーションを行うことが可能となります。

これらの研究成果は、画像認識やセグメンテーションの分野における新たな可能性を示しており、今後の技術進歩に期待が持てます。


テキストから画像への変換技術と人間の創造性

ニュース要約(以下リンクから引用)

  • テキストから画像への生成システムがデジタルアートの制作で注目されていますが、その過程が真に創造的であるかどうかについて議論があります。

  • フィンランドのユヴァスキュラ大学の研究者が、テキストから画像へのアートが真に創造的であるか、またその過程で人間の創造性がどのような役割を果たしているかについて論じた論文を発表しました。

  • この論文では、人間の創造性がテキストから画像への生成、特にテキストから画像へのアートのサブカルチャーにどのように関与しているかについて説明しています。

  • テキストから画像への生成に関与する人間の創造性は、最終的な製品(デジタル画像)ではなく、人間とAIの間の相互作用と、その結果進化する実践(「プロンプトエンジニアリング」やキュレーションなど)から生じると主張しています。

  • また、テキストから画像への生成の生態系において、コミュニティの役割が増大していることを強調し、AIアートコミュニティのメンバーが担う5つの異なる役割を概説しています。

GPT-4のコメント

このニュースは、テキストから画像への生成技術という、新しいデジタルアートの形式が持つ創造性について掘り下げています。特に注目すべきは、生成されるデジタル画像そのものよりも、人間とAIとの相互作用や、それによって生じる新しい創作の実践(プロンプトエンジニアリングやキュレーションなど)に重きを置く考え方です。

従来の創造性の定義や評価は、成果物中心の視点が主でしたが、このニュースが示しているように、AIとの協働による新しい創作の形式では、プロセスそのものに含まれる創造性を評価する視点が必要となってきています。

また、テキストから画像への生成のコミュニティが創造性と学習の触媒としての役割を果たしているとの指摘は、オンラインコミュニティが新たな創作の形式を形成、発展させる上で重要な役割を果たしていることを示しています。

これらの視点から、AIと協働することによる新しい創作の形式は、我々の創造性の捉え方を再定義する可能性を持っています。


数学問題解決のためのAIツール「MathPrompter」

ニュース要約(以下リンクから引用)

  • LLMs(Large Language Models)は、大量のテキストデータを理解し、自然言語を生成するための先進的な機械学習モデルです。

  • LLMsは数学的推論タスクに苦労し、しばしば誤った解答を生成します。これは数学の問題が一つの正解を持つことが多いためです。

  • 数学問題の解決能力を向上させるためのツールとして、「MathPrompter」が提案されました。このツールは、数学の問題を理解し、解答過程をステップバイステップで生成することができます。

  • 「MathPrompter」は、Zero-shot chain-of-thought (CoT)という手法を用いて、同一の数学問題に対する複数の代数式やPython関数を生成し、結果への信頼性を向上させます。

  • しかし、「MathPrompter」を複数回、異なる方法で実行して結果の品質を向上させるとしても、常に正確な結果が得られるわけではありません。

GPT-4のコメント

このニュースは、数学的な問題に対するAIの解答能力を向上させるための取り組みを示しています。特に、「MathPrompter」は、問題を理解し、解答過程をステップバイステップで生成することができ、その結果に対する信頼性を向上させる可能性があります。これは、自然言語処理の応用範囲を広げ、教育や研究などの分野での活用を促進する可能性を持っています。

しかし、現状では、生成された結果が常に正確であるわけではなく、さらなる改善が求められています。これは、AIが完全に人間の思考を模倣することは難しく、特に一つの正確な解答を求められる数学のような分野では、その難しさが顕著に現れます。

今後、より高度なアルゴリズムの開発や、AIと人間の協働による解答の精度向上が期待されます。


新たなテキストから音声へのモデル「Bark」

ニュース要約(以下リンクから引用)

  • 新たなテキストから音声へのモデル「Bark」が導入されました。これは、ボイスクローニングの制約を持ち、ユーザーの安全を保証するためのプロンプトを許可しています。

  • 「Bark」は、GPTスタイルのモデルを基に構築されており、自然な音声を複数の言語で生成することができます。また、音楽、ノイズ、基本的な音響効果も生成可能です。

  • 「Bark」は、微妙なトーン、ピッチ、リズムを正確に反映した表情豊かな音声を生成することができます。

  • 「Bark」は、GPTスタイルのモデルを用いて、音声を最小限のファインチューニングで生成します。

  • 「Bark」は、複数の言語をサポートしており、ユーザーの入力言語を自動的に検出します。

GPT-4のコメント

「Bark」は、テキストから音声を生成する新たなモデルであり、その特性は非常に興味深いです。自然な音声を複数の言語で生成できるだけでなく、音楽やノイズなどの音響効果も生成できるという点は、AIの音声生成能力の進化を示しています。

さらに、「Bark」は、微妙なトーン、ピッチ、リズムを反映した表情豊かな音声を生成することができるとのことで、これは、AIが人間の音声の細かな特性を捉え、それを再現する能力が向上していることを示しています。

しかし、「Bark」が音声を生成する際には、一部制約があるとのことで、その詳細や制約がどのように動作するのか、またそれがどのようにユーザーの安全を保証するのか、といった点については、さらなる情報が必要となるでしょう。

これらの視点から、「Bark」は、AIの音声生成技術の新たな進歩を示すものであり、今後の進化に期待が持てます。



画像セグメンテーションのための新手法「SEEM」

ニュース要約(以下リンクから引用)

  • マディソンウィスコンシン大学の研究者たちは、画像セグメンテーション(画像を複数の領域に分割するタスク)における新たなアプローチ「SEEM」を紹介しました。

  • 「SEEM」は、「Segmenting Everything Everywhere all at once in an image」の頭文字を取ったもので、その名の通り、一度に画像全体をセグメンテーションする手法です。

  • 「SEEM」は、ポイント、マスク、テキスト、ボックス、異なる画像の参照領域など、様々な入力プロンプトを使用することができます。

  • 「SEEM」は、ユーザーとのインタラクティブな対話を通じて、前回のセグメンテーション情報を記憶することができます。

  • 「SEEM」は、訓練中に見たことのないオブジェクトを認識し、セグメンテーションする能力を持っています。

GPT-4のコメント

「SEEM」の導入は、画像セグメンテーションの分野における画期的な進歩と言えます。これまでのセグメンテーションモデルは、基本的に空間的なヒント(クリックやスクリブル)や言語を用いた参照セグメンテーションに限定されていました。しかし、「SEEM」は、様々な種類のプロンプトを組み合わせて使用することができ、その結果、より強力な構成力を持つことができます。

また、「SEEM」は、前回のセグメンテーション情報を記憶する能力を持っているため、ユーザーとのインタラクティブな対話を通じて、セグメンテーションの結果を繰り返し改善することができます。これは、ユーザーが求める精度を達成するために、複数回の反復が必要となる複雑なセグメンテーションタスクにおいて非常に有用です。

さらに、「SEEM」は訓練中に見たことのない新たなオブジェクトを認識し、セグメンテーションする能力を持っています。これは、現実世界のアプリケーションにおいては非常に重要で、新たなクラスの例をゼロショットで分類する能力は、モデルが新たな未見のオブジェクトに遭遇する可能性がある現実世界のアプリケーションにおいて重要となります。

これらの観点から、「SEEM」は、画像セグメンテーションの分野における重要な進歩を示していると言えるでしょう。



LLMによる新たな薬物ペアの相乗効果予測

ニュース要約(以下リンクから引用)

  • 大規模な言語モデル(LLM)は、特定のタスクを一つずつ処理するためのAIモデルを構築する代わりに、特定の訓練なしに多数の下流タスクに使用できる「基盤モデル」の最新の進化を示しています。

  • テキサス大学、マサチューセッツ大学アマースト校、テキサス保健科学センターの研究者たちは、構造化されたデータが不足していてサンプルサイズが小さい生物学的予測課題に対する新たなアプローチとしてLLMを提案しています。

  • この研究では、よく研究されていないがん種での薬物ペアの相乗効果を予測するという、生物学的予測の重要な問題に取り組んでいます。

  • 彼らは、学術文献には、構造化されたデータが乏しく、特性が不均一ながん種に関する有用な情報がまだ含まれていると主張しています。

  • 彼らは、学術文献から得られた予測データを手動で収集するのは難しいと述べています。

  • 彼らは、学術文献に格納された過去の情報をLLMで利用するという新たなアプローチを提案しています。

  • 彼らが開発した「few-shot drug pair synergy prediction model」は、予測タスクを自然言語推論問題に変換し、LLMに組み込まれた知識に基づいて応答を生成します。

  • 実験結果は、彼らのLLMベースのfew-shot predictionモデルが、ほとんどのシナリオで強力な表形式予測モデルを上回り、ゼロショットの設定でも高い精度を達成したことを示しています。

GPT-4のコメント

この研究は、生物学的予測の難しいタスクの一つである薬物ペアの相乗効果予測において、LLMを用いたfew-shot predictionモデルの有効性を示しています。特に、実験データが限られていて構造化されたデータが不足しているがん種の薬物相乗効果予測の問題に対して、学術文献に格納された過去の情報を活用するという新たなアプローチは、生物学的予測課題に対する新たな解決策を提供するものと言えます。


OPENAIとMETAが著作権侵害の訴訟に直面

ニュース要約(以下リンクから引用)

  • コメディアンで作家のSarah Silverman、作家のChristopher GoldenとRichard Kadreyは、著作権侵害の双方の主張により、OpenAIとMetaを米国地方裁判所に訴えている。

  • 彼らの作品を含む違法に取得されたデータセットでOpenAIのChatGPTとMetaのLLaMAが訓練されたと訴訟では主張されている。これらの書籍は、Bibliotik、Library Genesis、Z-Libraryなどの「シャドウライブラリ」ウェブサイトから「一括でトレントシステム経由で利用可能」だと彼らは指摘している。

  • 訴訟では、ChatGPTがプロンプトに応じて彼らの本を要約し、彼らの著作権を侵害すると主張されている。また、チャットボットは「彼らが公開した作品に含めた著作権管理情報を再現することはなかった」と訴えている。

  • Metaに対する別の訴訟では、Metaが2月に紹介した一連のオープンソースAIモデル、LLaMAの訓練に使用したデータセットに作者たちの書籍が含まれていたと主張されている。

  • 両方の訴訟で、著者たちは「彼らの著作権を持つ本が会社のAIモデルの訓練材料として使用されることに同意していない」と主張している。

  • 著者たちは、法定損害賠償、利益の返還などを求めている。

GPT-4のコメント

このニュースは、AI技術の発展とそれに伴う著作権問題が法的な観点からどのように取り扱われるべきかという、現代社会における重要な問題を提起しています。特に、大規模な言語モデルやその他のAI技術が訓練のために利用するデータセットの取得元やその扱い方については、技術の進化に伴い新たな議論が必要となってきていることが分かります。

AIの訓練データとして用いられる情報の著作権については、今後さらに注目が集まると予想されます。特に、自然言語処理のようなAI技術では、訓練データとして用いるテキストデータの著作権問題が重要となります。これは、AI技術が人間の知識や情報を学ぶためには、多種多様な情報源からのデータが必要であり、そのデータの取得や利用が著作権侵害に当たらないようにする必要があるからです。

しかし、AIが訓練データとして用いる情報が著作権侵害に当たるかどうかは、現行の著作権法では明確に規定されていないため、新たな判断基準や規制が求められています。現状では、AI技術の発展とそれに伴うデータの利用に対する法的な課題は未解決のままとなっており、今後の技術の発展と共に、これらの問題に対する解決策が求められていくでしょう。


中国AI・テック業界の最新ニュースまとめ

ニュース要約(以下リンクから引用)

  • Alibaba(阿里巴巴)が新しい画像生成ツール「Tongyi Wanxiang(通義万相)」を発表。このAIを活用したツールは、中国の法人顧客向けにベータテストを実施中。

  • TikTokの親会社ByteDance(字節跳動)がブラジルとインドネシアで新音楽ストリーミングサービス「TikTok Music」を開始。

  • Alibaba(阿里巴巴)のホームオートメーション機器ブランド「Tmall Genie(天猫精霊)」が大規模言語モデル(LLM)端末のオペレーティングシステムの社内テストを開始。

  • 北京大学の研究チームが、法律知識に特化したオープンソースの大規模言語モデル(LLM)「ChatLaw」をリリース。

  • Tencent Cloud(騰訊雲)が大規模言語モデル(LLM)トレーニング、推論、ナレッジベースの補充シナリオなどに使用されるベクトルデータベース「AI Native(AI 原生)」を発表。

  • 動画サイト「bilibili(嗶哩嗶哩)」が新たに開発したAI検索機能の社内テストを実施中。

  • Baidu(百度)が、ChatGPT 風のサービス「ERNIE Bot(文心一言)」を搭載した無料の iOS アプリを発表。

  • データアナリティクス企業DataCanvas(九章雲極)が2つの新製品「AIFS」と「DataPilot」を発表。

  • 車載用 SoC 開発の Black Sesame Technologies(黒芝麻智能科技)とスマート LiDAR センサー開発の Robosense(速騰聚創)が、香港証券取引所にIPOを申請。

GPT-4のコメント

これらのニュースは、中国のAIとテック業界が急速に進化し、世界と競合していることを示しています。これらの企業は、新しいテクノロジーを開発し、新たなビジネスモデルを探求し、さまざまな市場で競争力を持つことを目指しています。

Alibaba、ByteDance、Tencent、Baiduなどの主要な企業が、AI技術の新たな応用に取り組んでいることは特筆すべきです。これらの企業は、画像生成、音楽ストリーミング、自動化機器のオペレーティングシステム、AI検索機能など、さまざまな領域で新製品を開発しています。これらの新製品は、これらの企業がAIとデジタルテクノロジーを活用して革新的なソリューションを提供し、ユーザーエクスペリエンスを向上させることを目指していることを示しています。

また、北京大学やDataCanvasのような研究機関やデータアナリティクス企業が大規模言語モデルやデータアーキテクチャツールの開発に取り組んでいることは、AIの研究と開発が中国の学術界と産業界で進展していることを示しています。

一方で、Black Sesame TechnologiesやRobosenseのような企業が香港証券取引所にIPOを申請していることは、中国のテック企業が国際的な資本市場での資金調達を追求していることを示しています。

これらの動きは、中国がAIとテック業界のグローバルリーダーとしての地位を確立しようとしていることを示しています。このような動きは、中国の企業がAI技術の発展と応用を通じて、新たなビジネスモデルを探求し、市場競争力を強化し、ユーザーエクスペリエンスを向上させることを目指していることを示しています。


いいなと思ったら応援しよう!