進む「合成データ」の実装
column vol.1318
生成AIが進化することで、私たちの生活はグッと便利になっていますが、近々訪れる問題もあります。
その1つに挙げたいのが、2026年問題です。
あと2年で、AIが読み込む良質な学習素材が枯渇する可能性が高い…
この問題により、機械学習の進歩が減速し、AIのアウトプットの質が低下する恐れがあると言われています。
〈日本経済新聞 / 2024年10月7日〉
そこで注目されているのが「合成データ」です。
合成データとは、本物のデータを真似してつくられた、架空のデータのこと。
これがあることで、データの不足を補完し、生成AIの持続的な進化を支える重要な役割を果たすと言われています。
〜ということで、本日はこれからの時代のエポックメイキングになりそうな合成データについてお話ししたいと思います。
…なるべく、分かりやすく説明するように心がけますので、ぜひ最後までお付き合いくださいませ…!
合成データとは何か?
改めて、合成データについてお話ししますと、本当に存在するデータの構造や特徴を模範して、本物そっくりに似せたデータを意図的に生成する技術のこと。
ビジネス+ITが、その活躍どころを以下のようにまとめてくれています。
企業は検査や調査などで大量のデータを持っていたとしても、個人情報の観点から、そのデータを簡単に使うことはできません。
…こうなると、せっかく大量のデータを持っていたとしても、それは宝の持ち腐れとなるわけです。
これを解決するのが合成データで、マスターデータを模倣して、全く違うデータをつくります。
これによって活用できるデータになるわけです。
また、社内の人たちに了承をもらって集めたデータだったとしても、数が足りない場合もあるでしょう。
しかし、合成データなら、必要な数だけ架空のデータをつくり出せるので、足りない分だけ補完することができる。
これにより、新しい製品やサービスを考えたり、お客さまのニーズを理解したりする研究に役立てられるのです。
世界で進む合成データの実装
世界では、合成データの活用が進んでおり、フォーチュン500社に入る、ある企業のAI部門責任者は、モデル学習プラットフォームの主な差異化要因として合成データのプライバシーがいかに重要かを、このように説明しています。
実際のケースをご紹介しますと
例えば、アメリカ企業の「Gretel」は、業界特有の性質からRWD(実世界データ)に制限があるか入手が困難な金融などの業界に注目。
銀行やクレジットカードなどに対して不正が行われた時に検知できるよう、不正検知モデルに使う「合成金融データ」の生成を支援しています。
また、デンマーク企業の「syntheticAIdata」は自動車業界の歩行者検知や、農業の遠隔環境モニタリングなど、さまざまな業界の特有のビジュアル学習データを提供しているのです。
有名企業でも、「マイクロソフト」などのテック大手はAIを使って独自の合成データを生成しています。
IBMでも活用が進んでおり、CEOのアービンド・クリシュナさんは、24年4〜6月期決算の説明会で
とコメント。
今をときめく「エヌビディア」も24年6月、商用LLM(大規模言語モデル)の学習に使う合成データを生成するモデル群「Nemotron-4 340B」の提供を開始しています。
一方、オープンAIのサム・アルトマンCEOが
と強調するように、まだまだ課題はありつつも、着実に合成データがビジネスシーンにおいて欠かせないものとなっている。
こうした事例は、もちろん日本でも見られています。
「仮想人体」で自分を見える化
先述のビジネス+ITの記事では、合成データの導入が進む花王と博報堂の事例が紹介されています。
花王の方を、ちょっと紹介しますと、同社では「仮想人体生成モデル」を開発。
これまで取り組んできた「身体の研究」で得た知見や、研究を通じて蓄積してきた「測定技術」などと、人の状態に関する測定データを組み合わせた統計モデルを生み出しているのです。
これは、
など、人体に関する測定データを膨大に学習させてつくられた、言わば
のようなもの。
例えば、健康診断などで調べた自身の健康指標の値をインプットすると、その他の項目に関する統計的な「推定値」を教えてくれるます。
…ちなみに、仮想人体生成モデルで提示することができる項目は、一般的に健康診断などで得られる身体に関する項目を始め
などの日常生活で関心の高い項目まで1800項目以上とのこと…(驚)
自分の全てが明らかになりそうです(笑)
しかも、ドコモのスマートフォン向け健康管理・増進アプリ「dヘルスケア」などにも、花王の「仮想人体生成モデル」が転用されているようなので、私たちにとって、こうした合成データを使ったデータが、ますます身近になるでしょう。
私の仕事であるマーケティングの世界でも、博報堂の事例を見ていると、調査データのサンプル数増加や、設定したペルソナから「バーチャル顧客」を生み出し、ヒアリング調査をするなど、さまざまな活用が見られそうです。
急速に変化する社会を柔軟な頭と心で受け止めつつ、取り入れていければと思っております🫡
本日も最後まで読んでいただき、誠にありがとうございました!
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?