見出し画像

進む「合成データ」の実装

column vol.1318

生成AIが進化することで、私たちの生活はグッと便利になっていますが、近々訪れる問題もあります。

その1つに挙げたいのが、2026年問題です。

あと2年で、AIが読み込む良質な学習素材が枯渇する可能性が高い…

この問題により、機械学習の進歩が減速し、AIのアウトプットの質が低下する恐れがあると言われています。

〈日本経済新聞 / 2024年10月7日〉

そこで注目されているのが「合成データ」です。

合成データとは、本物のデータを真似してつくられた、架空のデータのこと。

これがあることで、データの不足を補完し、生成AIの持続的な進化を支える重要な役割を果たすと言われています。

〜ということで、本日はこれからの時代のエポックメイキングになりそうな合成データについてお話ししたいと思います。

…なるべく、分かりやすく説明するように心がけますので、ぜひ最後までお付き合いくださいませ…!


合成データとは何か?

改めて、合成データについてお話ししますと、本当に存在するデータの構造や特徴を模範して、本物そっくりに似せたデータを意図的に生成する技術のこと。

ビジネス+ITが、その活躍どころを以下のようにまとめてくれています。

【合成データが役立つシーンとは?】
・悩み(1):「生成AIに社内データを学習させたいが、集めることができるデータの数が足りない
社内データそっくりの「合成データ」を作り、学習素材として利用すれば解決
・悩み(2):「個人情報を生成AIに学習させたいが、こうした取り扱い注意のデータはそのまま学習データとして使うことができずに困っている
個人情報そっくりな、個人情報”風”の「合成データ」を作り、学習素材として利用すれば解決

企業は検査や調査などで大量のデータを持っていたとしても、個人情報の観点から、そのデータを簡単に使うことはできません

…こうなると、せっかく大量のデータを持っていたとしても、それは宝の持ち腐れとなるわけです。

これを解決するのが合成データで、マスターデータを模倣して、全く違うデータをつくります。

これによって活用できるデータになるわけです。

また、社内の人たちに了承をもらって集めたデータだったとしても、数が足りない場合もあるでしょう。

しかし、合成データなら、必要な数だけ架空のデータをつくり出せるので、足りない分だけ補完することができる。

これにより、新しい製品やサービスを考えたりお客さまのニーズを理解したりする研究に役立てられるのです。

世界で進む合成データの実装

世界では、合成データの活用が進んでおり、フォーチュン500社に入る、ある企業のAI部門責任者は、モデル学習プラットフォームの主な差異化要因として合成データのプライバシーがいかに重要かを、このように説明しています。

合成データは合成データ生成モデルか、社内のデータセットに基づいて全く新たなデータセットを生成してくれる業者を活用することで手に入る。こうしたデータは統計的には同一だが、新たに生成された人工的なデータであるため、顧客や従業員のデータを使わずに済み、個人情報のリスクを減らせる」。

実際のケースをご紹介しますと

例えば、アメリカ企業の「Gretel」は、業界特有の性質からRWD(実世界データ)制限があるか入手が困難金融などの業界に注目。

銀行クレジットカードなどに対して不正が行われた時に検知できるよう、不正検知モデルに使う「合成金融データ」の生成を支援しています。

また、デンマーク企業の「syntheticAIdata」自動車業界歩行者検知や、農業遠隔環境モニタリングなど、さまざまな業界の特有のビジュアル学習データを提供しているのです。

有名企業でも、「マイクロソフト」などのテック大手はAIを使って独自の合成データを生成しています。

IBMでも活用が進んでおり、CEOのアービンド・クリシュナさんは、24年4〜6月期決算の説明会で

「当社はこのほど、合成データを生成してモデルの微調整を効率化するツール『インストラクトラボ』の提供を開始した。顧客は自社のデータ専門知識を活用し、モデルのカスタマイズを効率化できる」

とコメント。

今をときめく「エヌビディア」も24年6月、商用LLM(大規模言語モデル)の学習に使う合成データを生成するモデル群「Nemotron-4 340B」の提供を開始しています。

一方、オープンAIサム・アルトマンCEO

「必要なのは良質なデータだ。質の低い合成データもあれば、質の低い人間が作成したデータもある」

と強調するように、まだまだ課題はありつつも、着実に合成データビジネスシーンにおいて欠かせないものとなっている。

こうした事例は、もちろん日本でも見られています。

「仮想人体」で自分を見える化

先述のビジネス+ITの記事では、合成データの導入が進む花王博報堂の事例が紹介されています。

花王の方を、ちょっと紹介しますと、同社では「仮想人体生成モデル」を開発。

これまで取り組んできた「身体の研究」で得た知見や、研究を通じて蓄積してきた「測定技術」などと、人の状態に関する測定データを組み合わせた統計モデルを生み出しているのです。

これは、

●免疫指標や血液検査の値
●認知機能
●皮膚の状態
●体臭
●ストレスや疲労傾向
●性格傾向
●睡眠状態

など、人体に関する測定データ膨大に学習させてつくられた、言わば

「人の体のことならなんでも知っている統計データベース」

のようなもの。

例えば、健康診断などで調べた自身の健康指標の値をインプットすると、その他の項目に関する統計的な「推定値」を教えてくれるます。

※仮に「性別:男性」「年齢:40歳」など、簡単な情報を入力するだけでも、「40歳・男性の血液や内臓脂肪面積の平均値は〇〇」といったように、あらゆる項目の推定値を知ることができる

…ちなみに、仮想人体生成モデル提示することができる項目は、一般的に健康診断などで得られる身体に関する項目を始め

●ライフスタイル(食事、運動、睡眠など)
●性格傾向
●嗜好性
●ストレス状態
●月経

などの日常生活で関心の高い項目まで1800項目以上とのこと…(驚)

自分の全てが明らかになりそうです(笑)

しかも、ドコモのスマートフォン向け健康管理・増進アプリ「dヘルスケア」などにも、花王の「仮想人体生成モデル」が転用されているようなので、私たちにとって、こうした合成データを使ったデータが、ますます身近になるでしょう。

私の仕事であるマーケティングの世界でも、博報堂の事例を見ていると、調査データサンプル数増加や、設定したペルソナから「バーチャル顧客」を生み出し、ヒアリング調査をするなど、さまざまな活用が見られそうです。

急速に変化する社会を柔軟な頭と心で受け止めつつ、取り入れていければと思っております🫡

本日も最後まで読んでいただき、誠にありがとうございました!

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?