
洗脳武器としてのAI
DeepSeek(ディープシーク)
AIへの関心が高まる中、中国発のAIスタートアップ「DeepSeek(ディープシーク)」が最近、関係者から多大な注目を集めています。調べてみると同社のAI開発は、既に10年程度の歴史を持っている様ですが、2024年末にリリースした無料のチャットボット「DeepSeek V3(https://chat.deepseek.com/)」は、OpenAIのChatGPT-4並みの能力を備え、特に数学やプログラミングなどの推論能力(思考力)ではChatGPTを上回るかもしれないということから、注目を集めている状況です。このDeepSeek V3のアプローチ画面デザインは、一見してChatGPTそっくりで、その入出力画面は英語で表示されていますが、実際には日本語でも使える状況です。
このDeepSeekでは、AIモデルの効率性を大幅に向上させる技術が注目を集め、特に、推論段階での計算資源消費量を削減できる点が評価されています。これにより、高性能な計算機手段の必要が無くなり、AIモデルの運用コストを削減できる可能性が期待されています。一方、学習データやモデルの透明性については、懸念の声も上がっています。特に、データの入手経路や学習プロセスについては、先行者のデータを利用していることが報じられており、既存のAIモデルの知的財産を侵害している可能性も指摘されています。例えば、OpenAIは、DeepSeekが自社のデータを不正に利用した疑いがあるとして調査を開始しているとしています。加えて、中国政府との関係に強い懸念が上っています。特に、中国政府がDeepSeekの技術を利用し、検閲や監視を行う可能性を指摘する意見が多くあります。実際に、例としては、1989年の天安門事件、ウイグル人への迫害、習近平とクマのプーさんの比較、中国の人権問題などに関する質問には答えないようになっていると報じられています。このような質問には、「Sorry, that's beyond my current scope. Let's talk about something else.(申し訳ありません、それは現在私の範囲外です。別の話をしましょう。)」といったメッセージに置き換わるということです。これが物語るのは、一般に利用が解放されたAIでも、国家政府の意向により出力結果がねじ曲げられることが可能であるという事実です。この力が大きくなれば、また、そこに悪意があった場合には、とんでもないことが起こる可能性を示唆していると思います。
中国のAI開発支援
その中国では、AI技術の開発と応用において世界をリードする存在となることを目指しており、政府が主導する形で積極的な政策と開発支援策を打ち出しています。まず、2017年には、「次世代人工知能発展計画」を発表し、2030年までにAI技術で世界の最前線に立ち、主要なAI強国となる目標を掲げています。即ち、AI技術を経済成長の新たなエンジンとして位置づけ、その研究開発、産業応用、人材育成などを包括的に推進する計画であると公表しています。2018年には、「人工知能標準化白書」を編纂し、AI分野における標準化の重要性を示し、国際的な標準化活動への積極的な参加を表明しています。加えて、2024年には、「国家人工知能産業総合標準化システム構築ガイドライン」を提示して、AI産業の標準化を体系的に計画し、AIを活用した新型工業化の構築を促進するためのガイドラインを作り上げているそうです。この様に、 AIの基礎研究、応用研究、特に大規模言語モデルなどの最先端技術開発に対して、政府が多額の資金を投入している様です。AIスタートアップの設立支援を強化している中で出来上がったのが、DeepSeekであるでしょう。AI分野の専門家育成のため、大学や研究機関におけるAI教育の強化、海外からの優秀な人材の招致などを推進しているでしょうし、何よりAI開発に不可欠な大量のデータは、監視国家ですので、その収集は、国内に留まらず、海外の中国系企業を通してでも、活発に収集していることが容易に予想されます。何よりも、高性能な自然言語AIシステムは、ネット上の言論統制には必須の技術であることは間違いがなく、中国政府が最も必要とするシステムでしょう。
世界のAIに対する関わり
さて、AIの中立性、公平性を確保するための動きも強くなっています。2025年2月10日から11日にフランスで開催されていたAIサミットでは、約100か国の政府や民間関係者ら約1500人が参加したということです。AI技術は急速に発展しており、私たちの社会に大きな影響を与えています。AIサミットでは、AI技術の可能性と課題について、多角的に議論されたようで、結果として、次のような内容で合意された様です。AI技術開発は、倫理的な原則に基づいて行われるべきであるということ。その開発競争は、国際的な協力によって行われるべきである。AI技術の活用は、社会の発展に貢献するものでなければならない。これらの概念を基に、AI技術の開発に対して「オープン」、「包括的」、「倫理的」なアプローチを約束する共同声明が発表されたとのことです。この声明には、開催国のフランスや中国、インド、日本を含む60カ国・地域が署名したということが伝えられています。即ち、AI開発に対するスタンスは、公明正大に当たるべきというのが世界的な認識であることが分かります。
日本のAI開発支援
日本でも当然、AI技術の安全性確保にも重点を置いています。2024年3月には、国連総会において、日本も共同提案国である「持続可能な開発のための安全、安心で信頼できるAIシステムに係る機会確保に関する決議」の採択が達成されています。また、2023年5月には、「AI戦略会議」を設置し、AIのリスクへの対応、AIの最適な利用に向けた取り組み、AIの開発力強化に向けた方策など、様々なテーマで議論を行っているそうです。日本政府は、AI技術の開発と活用を推進し、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させ、AIやIoT、ビッグデータなどの最新技術を活用することで、経済発展と社会的課題の解決を両立する人間中心の社会の姿を2016年にSociety 5.0と定義して、その実現を目指しているとしています。そのためには、AI技術の研究開発支援、人材育成、環境整備などに加え、AIの安全性確保や倫理的な問題への対応が重要と指摘していました。政府は、AI技術の発展と社会への実装を両立させるための政策を推進していくとして、「AIホスピタル」や「自動運転」などのプロジェクトに加えて、研究開発法人への資金提供、スタートアップの支援、人材育成など、様々な施策を実施している様です。平成6年度の予算では、1600億円を計上したようですが、私の目からは特段の成果は見られず、実際は、民間任せでやる気は見られません。その金額も、今回発表されたEUの投下金額とは比べ様もありません。即ち、先の「AIサミット」に合わせて、EUがAI研究開発に2000億ユーロ(約31兆円)を投じると発表したと報じられています。
実際のAI開発
ところで、AIというものはどの様に構築されるのかを見てみたいと思います。ここでは、現に利用が進んでいる自然言語AIに関して取り上げたいと思います。自然言語AIモデルの構築においては、学習のためのデータセットの準備、モデルアーキテクチャの設計、そして学習目的指標の設定が、非常に重要な要素となります。
自然言語AIモデルは、大量のテキストデータから学習します。このデータセットの質と量が、モデルの性能を大きく左右します。データセットに含まれるテキストは、モデルが学習する言語の特性を反映している必要があります。基本的には、英語AIと日本語AIでは、少なくとも学習データが異なるということです。これに加え、多様なジャンルの文章、異なる文体、専門用語など、様々な要素を含めることで、モデルはより汎用的な能力を獲得できます。また、ノイズや誤りが多いデータは、モデルの学習を妨げる原因となります。例えば、方言や意味の同じ異なった言葉の存在は、学習を難しくします。一般的に、データ量が多ければ多いほど、モデルはより多くのパターンを学習し、高い精度を達成できます。ただし、量だけでなく、質の高いデータを効率的に収集・活用することが重要です。また、データセットは、そのままではモデルに学習させることができません。データのクリーニングを行い、モデルが学習しやすい形にデータを整える必要があります。これが、成功の秘訣と言っても間違いがありません。
次に、モデルアーキテクチャの重要性です。モデルを使う場面に応じて、適切なアーキテクチャを選択することが重要です。自然言語処理の分野で最も利用例の広いTransformerは、文脈を捉える能力が高く、様々なタスクで高い性能を発揮しています。一方、時系列データを扱うのに適したRNN(Recurrent Neural Network)は、文章の構造や単語の順序を把握する学習に適しています。画像処理でよく用いられるCNN(Convolutional Neural Network)は、テキストの局所的な特徴を捉えるのに適していると言われています。これらの選定や組み合わせは、利用場面やデーターベースの特徴に合わせて選定、組み合わせで設計されます。
学習目的指標は、モデルが学習する過程で最適化を目指す指標として設定する必要があります。モデルの利用目的や利用場面、目的に応じて、適切な指標を設定する必要があります。適切な指標を選択し、それを最適化するようにモデルを学習させることで、目的とするタスクにおいて高い性能を発揮するモデルを構築できます。設定された目標を達成するために、モデルの学習は行われるわけで、より良い目標設定が学習の成否にも関わってきます。
悪意を盛り込む
さて、ここで論じたいのは、自然言語AIモデルに悪意が盛り込まれる可能性に関してです。自然言語AIモデルの構築で重要な3要素のうち、モデルアーキテクチャは、その性能を決定する重要な要素ではありますが、学習の速度、処理の速度、高い正解率を達成するために、重要であることは間違いがありませんが、善意と悪意とは、関係性が低いと思います。
これに対し、データーベースと学習目的指標の設定は、更に、重大です。第一には、学習データが、偏った文章や表現で構成されていることにより、AIモデルを歪めることが可能です。例えば、学習データが特定の政治思想や偏った社会常識を中心に構成されているとしたら、AIモデルは、その思想に沿った回答を生み出すアルゴリズムとなってしまう可能性が高くなるでしょう。通常のデーターベースでは、色々な意見が混在するインターネット上の文章や、世の中に流通している書籍を対象にしていることから、結果的に、これまでに構築されてきた人間社会の共通の概念が反映されています。このデーターベースが歪められており、端的な例として強権国家で掲げられている活動目標や制約条件に限られていた場合、最終的にAIモデルから回答される答えは、当然、それに準じたものになるでしょう。この様な偏りが仕込まれた場合には、恐ろしい怪物AIモデルが生み出される可能性は否定できません。
更に、特定の意見、立場に沿ったデータセットを用いてAIモデルの学習を進めるうえで、更に、悪意のある答えを導き出すことに高い報酬が設定されたのであれば、導出されるAIモデルは、更に、悪意の満ちたシステムになるでしょう。偏った一部政党の活動目標に寄り添った回答に高い報酬が与えられ、公平性の高い回答に対しネガティブな報酬が設定されたならば、作り上げられるAIモデルは、更に悪意に満ちた動作を正確に履行するようになり、結果、偏った回答を導き出すことになるでしょう。そうなると手が付けられなくなることが予想されます。この様なAIモデルが、社会に仕込まれ、悪意のある政府の意に沿わない情報が遮断された世界では、社会の洗脳が図られる可能性が高くなると考えられます。非常に危惧しなければならないリスクです。
これらの自然言語AIモデルに影響を与える二つの要素に加え、最近注目を集めているのが、プロンプトエンジニアリングだそうです。プロンプトエンジニアリングとは、設計者の意図した回答や結果を得るために適切なプロンプト(質問や指示)を作成・設計する技術で、AIモデルの性能を最大限に引き出し、様々なタスクを効率的にこなすために、非常に重要な役割を果たすのだそうです。プロンプトエンジニアリングは、設計されたプロンプトを提示することにより、回答の精度を大幅に向上させることができるとされており、ここに悪意を忍び込ませれば、質問自体さえ悪意のある検索に導き、設計者の意図に準じた方向の回答に寄り添わせる可能性を高くできると思われます。曖昧な表現や指示不足を解消できる具体的で明確なプロンプトは、形を変えれば、十分悪意を盛り込む仕組みとしても機能するはずであるからです。
最後に
性能向上が目覚ましいAIは、その利便性から社会への浸透が加速されてきています。自由国主義の国家、社会では、提供されるAIが、公明正大であることが前提で、あくまでも生前説に立脚していると信じています。一方、悪意を忍び込ませることは十分可能で、特定の意思に従属される可能性があることを覚えておく必要があると思います。AIを使うのは人間であり、AIに使われてはなりません