やりたいことがAIでどのくらい置き換わるのかAIに考えてもらった
こんにちは。こはだです。
いまは右向いても左向いてもAIの話題で持ち切りですよね。
Open AIのo1が2024年12月6日に正式リリースされてその性能の高さに驚き、中国のAI企業DeepSeekがDeepSeek-R1を2025年1月20日にリリースし、o1と同等の性能でありつつも、コストがo1の3.6%程度で、かつオープンソースであるというニュースが全世界に衝撃を与え、ある半導体企業の株価が大暴落するなどの事態に発展しています。
低コストでも高性能な推論ができちゃう、という、このことをきっかけに、様々な分野で生成AIの浸透が加速していくということがほぼ確定的ななか、果たして私のやりたいことはどのように置き換わりうるのか?というのをo1さんに考えてもらうことにしました。
生成AIのおおざっぱな動作のしくみ
やりたいことが置き換えが可能かどうか評価するにあたり、得意・不得意の把握と、その理由となる動作原理への理解が必要です。
手順を並べると、
生成AIがしていること
生成AIは、テキスト・画像・音声・3Dモデルといった多様なデータを学習し、「入力(コンテクスト・条件)に対してどのような出力が妥当か」を統計的に把握する。
代表的な学習方法としては「自己教師あり学習(self-supervised learning)」や「教師あり学習」「強化学習」などがあり、膨大なデータを取り込み、その中に潜むパターンをモデル内部に埋め込むという処理をしている。
学習したモデルは、与えられた条件に対して、最もあり得そうな(尤もらしい)要素を合成・生成するというかたちで出力を行う。
テキスト生成AI(大規模言語モデル)なら「次に続く単語・文の予測」で、画像生成AIなら「テキストの指示や別の画像の特徴から新しい画像を合成する」、音声生成AIなら「指定された特徴量から新しい音声を合成する」というように、対象となるデータの形式が異なるが、基本的な仕組みは類似している。
生成AIは必ずしも問題→解答のペアのような明示的な正解データだけを覚えているわけではない。
むしろ、大量のテキスト・画像・音声・3Dデータなどを通じて、「ある文脈・入力に対して、どのような出力が自然か」を確率分布としてモデル化し、そこからサンプルを生成している。
生成AIを動かすために必要なもの
「ある事象をデータ化(符号化)すること」
生成AIに扱わせたい対象が、何らかのデジタル形式で機械学習モデルが読み取り・学習できる形になっていないといけない。
画像生成AIでは、学習に使う画像データを大量に用意し、キャプションやラベル(「犬」「海辺」「印象派風」など)とセットで学習させることがある。
音楽AIなら、オーディオデータやMIDI情報を大量に集め、ジャンルや曲構成のメタ情報を付与するなどして学習可能な形にする。
この「符号化の難易度」が高い分野は、データ自体をどう取得・整理するかが大きな課題になる。
「ある事象に対する、最適な解を定義すること」
生成AIが出力するコンテンツの良し悪しをどう評価し、モデルの改良につなげるかは非常に重要。
たとえば、画像生成AIなら「写真に見えるか/芸術的に優れているか」などの基準が曖昧だと、モデルを最適化しにくい。
音楽生成AIも、単に「それらしい曲」を作るだけでなく、「曲の構成がしっかりしている」「リスナーの好みに合致している」などの基準を定義し、モデルをチューニングする仕組みが必要。
RLHF(人間のフィードバックによる強化学習)のように、人間が望ましい/望ましくないアウトプットをラベリングし、それを学習させる手法も活用されている。
ということで、扱うものがコンピュータが理解可能な形にできるか、あるお題に対して、正しいと言える答えの組み合わせが定義できて、それをたくさん用意できるかどうか? がカギになってくるわけです。
生成AIへの置き換えが可能かどうか、評価してもらう
以下では、各作業領域について「生成AIによる置き換えが容易かどうか」を100点満点で数値化し、さらに「事象の符号化のむずかしさ」「正解の定義のむずかしさ」「今後のブレイクスルー可能性」の観点から論考してもらうことにしました!
テーマは以下4点です。
DJプレイ
UnityでのVRワールド制作
最新のクラブミュージックの作曲
アバター衣装の制作
1)DJプレイ
生成AIによる置き換え度:30点
理由: 一部の領域(選曲や曲順の提案など)でのアシスタント的活用は進むと思われるが、オーディエンスのリアクションを見ながらリアルタイムでフェーダーやエフェクトを操る高度なライブ・パフォーマンス部分は依然として人間的な感性や現場対応力が重視される。完全置き換えは難易度が高い。
事象の符号化のむずかしさ
難易度:高い
DJプレイにおける「曲を繋げるタイミング」「重ね方」「フェーダーやEQ調整量」「リアルタイムのアドリブ」といった要素は、数値や記号に落としこむこと自体は不可能ではありませんが、高精度にデータセット化されている例が少ないのが現状です。また、受け手(観客)の反応という要素も非常に大きく、単に音源のミックス手順を符号化するだけでなく、「どのような雰囲気で」「どのような層の観客が」「どのような時間帯・場の雰囲気で」というコンテクストも含めてモデルが理解・生成できる必要があり、情報量が膨大。
正解の定義のむずかしさ
難易度:非常に高い
DJプレイの良し悪しは客観的な評価軸が明確ではなく、「盛り上がったかどうか」「期待通りだったか、意外性を提供できたか」など、主観的・文脈的要素が大きい。また、イベントのタイプや時間帯、曲のジャンル、DJの個性など、多様なファクターが絡み合うため、一意的な“正解”を定義しにくい。
今後、置き換えを可能にするブレイクスルーが起き得るか
可能性:限定的
音楽生成AIがさらに進化し、「観客の反応をリアルタイムに取得して即興的に次の曲やエフェクトを提案する」ようなシステムの登場はあり得る。
しかし、「現場感」や「創造的な即興」の部分は、少なくとも近未来においては人間特有のパフォーマンス性が強く残りそうです。
DJプレイを完全に「置き換える」よりは、人間DJをサポートするシステム(例:選曲推薦やリミックスの補助ツール)が主流になると考えられます。
2)UnityでのVRワールド制作
生成AIによる置き換え度:40点
理由: プログラミング部分(C#スクリプト)やゲームロジックのテンプレート生成など、一部の工程はすでにLLM(大規模言語モデル)で加速させることが可能。しかしシーン設計やライティング、導線設計、インタラクション設計などは高度に空間的・創造的・体験的な要素が必要で、完全自動生成には現時点でハードルが高い。
事象の符号化のむずかしさ
難易度:中〜高
Unityプロジェクトは、3Dオブジェクトやテクスチャ、スクリプト、アニメーション、物理設定など多様な要素が含まれる。
これらをすべて学習可能なかたちでデータセット化し、かつ「どういう意図で配置されているか」という設計意図を含めて符号化するのは容易ではない。
ただし、プロシージャル生成の研究や「3Dオブジェクト配置AI」の進展は進んでおり、部分的には符号化が進む可能性もある。
正解の定義のむずかしさ
難易度:高い
ゲーム・VR空間の「良いデザイン」の基準は、ユーザー体験や操作感、ストーリー、世界観の整合性など、多岐にわたる。
一般的なUI/UX原則やゲームデザイン原則は存在するが、シーン全体の美的感覚やインタラクションの楽しさなどは非常に主観的要素が強い。
また、バグなく動作させるための技術的要件(コリジョン、最適化など)も正解定義には入ってくる。
今後、置き換えを可能にするブレイクスルーが起き得るか
可能性:中程度
将来的に、プロシージャル生成や3D生成AIがさらに高度化し「文章で書いたシナリオから自動でVRシーンを組み上げる」ような技術が進む可能性は十分ある。
ただし、ユーザー体験の微調整やアートディレクション的な要素は最終的に人間のクリエイターの判断に委ねられる場面が多くなると予想される。
大規模データの収集や標準化(Unityアセットが大量に学習データとして使えるなど)がもし進めば、置き換えに近いレベルの自動生成が進む可能性も否定できないが、まだ時間がかかりそう。
3)最新のクラブミュージックの制作
生成AIによる置き換え度:50点
理由: すでに音楽生成AIが大きく進化しており、特定のジャンルスタイルを模倣することはかなり可能になってきている。ただし「最新のトレンドをキャッチアップし、それをクリエイティブに組み合わせる」点では、人間のプロデューサーやDJの感性が依然として強い。
事象の符号化のむずかしさ
難易度:中
MIDIデータやオーディオサンプル、DAWプロジェクト等、音楽制作の過程を符号化・データ化する研究は進んでいる。
ただしクラブミュージック特有の「エフェクトの掛け方」「細かな音色の変遷」「ライブ感」などを機械が再現するにはより多様な学習データが必要。
その一方で、「曲の構成」や「ジャンル特有のテンポ・音域分布」といった形式的特徴は、比較的ラベリングしやすい領域でもある。
正解の定義のむずかしさ
難易度:高い
楽曲のクオリティ評価は主観的要素が大きく、「最新のトレンド」は常に移り変わる。
一定の基本構成(intro, verse, build, drop, breakなど)は定義できるが、「どこが新しさか」「どのようなサウンドが時代に合っているか」は定量化しづらい。
「ジャンルをまたぐ新たな融合」が評価されることも多く、“正解”を固定化するのが難しい。
今後、置き換えを可能にするブレイクスルーが起き得るか
可能性:高い
すでに音楽生成系AIは飛躍的に進歩しており、リアルタイム生成やミキシング、さらにSpotifyなどの膨大な音源・リスナー行動データを学習に活用し、最新トレンドをAIが取り込むことも理論的には可能。
近未来には、指定したテイスト・ジャンル・エモーションに合わせた「AI作曲家」が登場する可能性は高い。
しかし最終的なヒット感・流行を生むには、人間クリエイターによる「センスの一押し」が重要な要素であり、AIが曲の下地を作り、人間が仕上げる流れは定着しやすいと考えられる。
4)アバター衣装の制作
生成AIによる置き換え度:40点
理由: テキストや画像入力から3Dモデリングを自動生成する技術は発展しつつあるが、アバター服の制作ではメッシュの構造、ボーンへのウェイト設定、テクスチャペインティング、ファッショントレンドなど多様な要素を繊細に扱う必要がある。完全自動化は難易度が高い。
事象の符号化のむずかしさ
難易度:高い
3Dモデル(特にアバター服)は、見た目だけではなく、着せ替え時の変形挙動やボーンへのウェイト割り当てなど、エンジニアリング的な調整が不可欠。
多種多様な素体(アバター)ごとに大きさ・形状のバリエーションが存在し、これらを広く学習させるためには膨大なデータセットと、個別のライセンスや権利の問題も絡む。
正解の定義のむずかしさ
難易度:中〜高
「トレンドに合ったファッションデザイン」「ユーザーの嗜好」「ゲームやプラットフォームの世界観との整合性」など、主観的要素や文脈的要素が大きい。
一方で、着せ替え時のクリッピング(体が貫通しないか)やウェイト不良(動いたときに破綻しないか)は、ある程度客観的な基準がある。
そのため、機能的な正解(破綻のないメッシュ)は定義しやすいが、デザインの良し悪しは評価が分かれやすい。
今後、置き換えを可能にするブレイクスルーが起き得るか
可能性:中程度
画像生成AIがファッションデザインのアイデアスケッチを提案し、それをもとに3Dを自動生成して素体にフィットさせる…といったプロセスは既に研究されています。
今後は「自動リトポロジー」「自動ウェイト調整」など3D特化のAIが進展し、作業工程の多くを大幅に時短できるようになる可能性があります。
ただし最終的な「流行に合った形や質感の微調整」「素材表現」「ブランドや世界観との整合性」は人間クリエイターの審美眼が求められる場面が多く、完全置き換えはまだ難しいと考えられます。
まとめ
DJプレイ (30点):ライブ性や現場対応力が重視されるため、完全置き換えは難しい。
UnityでのVRワールド制作 (40点):コード生成や一部プロシージャル化は可能だが、空間デザイン全般の置き換えは難度が高い。
最新のクラブミュージック制作 (50点):音楽生成AIは進歩しつつあり、曲作りの一定部分を置き換える可能性は高いが、最終的な流行創出には人間のセンスが必要。
アバター衣装の制作 (40点):3Dモデリング・リグ・デザインなど複合的要素があるため、完全自動化は難しいが、一部工程はAI支援で加速が見込まれる。
総じて、「符号化しやすい・評価基準が比較的明確」な領域ほどAIによる作業支援・部分的な自動化は進みやすい一方、「主観的要素」「文脈・世界観」「リアルタイム性」の強い領域ほど置き換えには時間がかかると考えられます。今後のブレイクスルーとしては、生成モデルのマルチモーダル化(テキストだけでなく音声・3D・動画を横断的に扱う)、評価指標の高度化、さらにユーザーインタラクションデータを大量に取得・学習できる環境の普及が鍵となりそうです。
回答を見ての感想
正解が主観によるものだったり、文脈や場面で正解が変わるもの、というのはなかなか置き換えが難しいものなのだと改めて認識しました。
かつ、それがお金になるものだったら何とかしてそれを補う動きもあるのかもしれませんが、そうでないものに対して何とかしようとするモチベーションも低いだろうということを考えると、すぐには置き換わるものでもないのかな?と思います。
人の感受性に働きかける範囲が大きいものや、費用対効果を考えない純粋に好きになれる趣味、というのは、AIに置き換わるかどうかでいうと安泰なのではないでしょうか?
ただし、それらをアシストするAIによるツールや仕組みが、ひとの創造性を発揮するために活用され、いままでクリエイターじゃなかった人がものをつくるようになったり、いままで作っていた人がより効率的にものをつくれるようになったりで、いずれにしても市場メカニズムとしては、人から創作物の供給は増える傾向になるのでは、とは思いました。
ということで、またー!